Contacts Subscribe Newsletter
Vasco Branco é o autor principal do estudo agora publicado no Biodiversity Data Journal. Fotografia de Vasco Branco

À medida que o mundo enfrenta uma crise de perda de biodiversidade, torna-se cada vez mais urgente ter acesso a dados fiáveis de forma rápida. Durante décadas os registos de ocorrência de espécies, as características morfológicas e as observações ambientais, foram publicados em formatos como PDF e artigos científicos, o que dificultou a sua integração em bases de dados globais, como a Global Biodiversity Information Facility (GBIF).

A ecologia é uma ciência baseada em dados, mas os dados de que precisamos estão frequentemente imobilizados em texto”

Vasco Branco, investigador do CE3C e autor principal do estudo.

Para fazer face a este desafio, uma equipa internacional liderada por investigadores do CE3C  anunciou o lançamento do RECODE (Relational Ecological COrpus for Data Extraction), um novo conjunto de dados anotados manualmente destinado a treinar e aperfeiçoar grandes modelos de linguagem (LLM) para a extração automática de dados ecológicos.

Publicado no Biodiversity Data Journal, o RECODE é o primeiro corpus de referência concebido especificamente para converter informação ecológica e taxonómica presente em texto não estruturado em dados legíveis por máquinas. Todos os documentos incluídos nesta fase foram cuidadosamente anotados e validados por especialistas familiarizados com os grupos-alvo: aranhas e insetos.

O RECODE fornece a  base necessária para ensinar aos modelos de IA como identificar e extrair com precisão as relações exatas entre espécies, as suas características e as suas localizações”.

Vasco Branco

Embora modelos de inteligência artificial de uso geral tenham demonstrado potencial na leitura destes conteúdos, enfrentam frequentemente limitações ao lidar com terminologia especializada ou relações ecológicas complexas, podendo gerar interpretações incorretas. Neste contexto, a criação de conjuntos de dados anotados, que são essenciais para treinar modelos mais robustos através de técnicas como o reconhecimento de entidades nomeadas e a extração de relações, é um passo muito importante, mas que até agora tem sido pouco explorado nesta área.

Os autores salientam que o RECODE ambiciona estabelecer um padrão para toda a comunidade científica, proporcionando um enquadramento consistente sobre a forma como os dados ecológicos devem ser interpretados por sistemas de inteligência artificial. Este avanço poderá impulsionar o desenvolvimento de uma nova geração de modelos especializados, denominados "Eco-LLMs", capazes de apoiar os cientistas na monitorização de ecossistemas e no planeamento de estratégias de conservação com maior rapidez e precisão.

Não estamos apenas a lançar um conjunto de dados; estamos a propor um padrão para a forma como a nossa área interage com a IA. Com o RECODE, estamos a dar à comunidade ecológica global as ferramentas para transformar a literatura sobre biodiversidade numa base de dados ativa e estruturada”.

Pedro Cardoso

O conjunto de dados RECODE e o respetivo artigo completo estão disponíveis em acesso aberto na Biodiversity Data Journal . A equipa integrou também este recurso no pacote R ARETE, permitindo que os investigadores comecem desde já a aplicar ferramentas de extração de dados baseadas em inteligência artificial aos seus próprios fluxos de trabalho.

Related News

view all 26 s
Formigas em 3D: CE3C e Museu Nacional de História Natural e da Ciência integram colaboração internacional

Estudo publicado na Nature Methods apresenta o Antscan, uma base de dados aberta com milhares de tomografias 3D de alta resolução, produzidas a partir de espécimes de coleções científicas de todo o mundo. Um marco na investigação baseada em coleções e um novo motor para análises evolutivas e de biodiversidade.

12 Mar 2026

Que caminho escolhe a evolução? Por vezes, o que o próprio desenvolvimento do organismo apontar

Uma história com vermes, montanhas e forças invisíveis narrada a partir de estudo internacional liderado pelo investigador CE3C João Picão Osório.

01 Sep 2025

Açores inspiram nota técnica internacional da IUCN sobre Restauro Ecológico

Investigação do CE3C nos Açores serve de modelo para Nota Técnica da IUCN sobre Restauro de Ecossistemas

17 Apr 2026

Gestão de biodiver-cidades: conhecimento sobre as espécies assegura funcionamento da infraestrutura verde

Investigadoras cE3c Filipa Grilo, Margarida Santos-Reis e Cristina Branquinho desenvolvem quadro conceptual que visa apoiar a tomada de decisão em meio urbano.

22 Feb 2023

View All News