À medida que o mundo enfrenta uma crise de perda de biodiversidade, torna-se cada vez mais urgente ter acesso a dados fiáveis de forma rápida. Durante décadas os registos de ocorrência de espécies, as características morfológicas e as observações ambientais, foram publicados em formatos como PDF e artigos científicos, o que dificultou a sua integração em bases de dados globais, como a Global Biodiversity Information Facility (GBIF).
A ecologia é uma ciência baseada em dados, mas os dados de que precisamos estão frequentemente imobilizados em texto”
Vasco Branco, investigador do CE3C e autor principal do estudo.
Para fazer face a este desafio, uma equipa internacional liderada por investigadores do CE3C anunciou o lançamento do RECODE (Relational Ecological COrpus for Data Extraction), um novo conjunto de dados anotados manualmente destinado a treinar e aperfeiçoar grandes modelos de linguagem (LLM) para a extração automática de dados ecológicos.
Publicado no Biodiversity Data Journal, o RECODE é o primeiro corpus de referência concebido especificamente para converter informação ecológica e taxonómica presente em texto não estruturado em dados legíveis por máquinas. Todos os documentos incluídos nesta fase foram cuidadosamente anotados e validados por especialistas familiarizados com os grupos-alvo: aranhas e insetos.
O RECODE fornece a base necessária para ensinar aos modelos de IA como identificar e extrair com precisão as relações exatas entre espécies, as suas características e as suas localizações”.
Vasco Branco
Embora modelos de inteligência artificial de uso geral tenham demonstrado potencial na leitura destes conteúdos, enfrentam frequentemente limitações ao lidar com terminologia especializada ou relações ecológicas complexas, podendo gerar interpretações incorretas. Neste contexto, a criação de conjuntos de dados anotados, que são essenciais para treinar modelos mais robustos através de técnicas como o reconhecimento de entidades nomeadas e a extração de relações, é um passo muito importante, mas que até agora tem sido pouco explorado nesta área.
Os autores salientam que o RECODE ambiciona estabelecer um padrão para toda a comunidade científica, proporcionando um enquadramento consistente sobre a forma como os dados ecológicos devem ser interpretados por sistemas de inteligência artificial. Este avanço poderá impulsionar o desenvolvimento de uma nova geração de modelos especializados, denominados "Eco-LLMs", capazes de apoiar os cientistas na monitorização de ecossistemas e no planeamento de estratégias de conservação com maior rapidez e precisão.
Não estamos apenas a lançar um conjunto de dados; estamos a propor um padrão para a forma como a nossa área interage com a IA. Com o RECODE, estamos a dar à comunidade ecológica global as ferramentas para transformar a literatura sobre biodiversidade numa base de dados ativa e estruturada”.
Pedro Cardoso
O conjunto de dados RECODE e o respetivo artigo completo estão disponíveis em acesso aberto na Biodiversity Data Journal . A equipa integrou também este recurso no pacote R ARETE, permitindo que os investigadores comecem desde já a aplicar ferramentas de extração de dados baseadas em inteligência artificial aos seus próprios fluxos de trabalho.
Related News
view all 26 s
Estudo publicado na Nature Methods apresenta o Antscan, uma base de dados aberta com milhares de tomografias 3D de alta resolução, produzidas a partir de espécimes de coleções científicas de todo o mundo. Um marco na investigação baseada em coleções e um novo motor para análises evolutivas e de biodiversidade.
12 Mar 2026
Uma história com vermes, montanhas e forças invisíveis narrada a partir de estudo internacional liderado pelo investigador CE3C João Picão Osório.
01 Sep 2025
Investigação do CE3C nos Açores serve de modelo para Nota Técnica da IUCN sobre Restauro de Ecossistemas
17 Apr 2026
Investigadoras cE3c Filipa Grilo, Margarida Santos-Reis e Cristina Branquinho desenvolvem quadro conceptual que visa apoiar a tomada de decisão em meio urbano.
22 Feb 2023