Contacts Subscribe Newsletter
Vasco Branco é o autor principal do estudo agora publicado no Biodiversity Data Journal. Fotografia de Vasco Branco

À medida que o mundo enfrenta uma crise de perda de biodiversidade, torna-se cada vez mais urgente ter acesso a dados fiáveis de forma rápida. Durante décadas os registos de ocorrência de espécies, as características morfológicas e as observações ambientais, foram publicados em formatos como PDF e artigos científicos, o que dificultou a sua integração em bases de dados globais, como a Global Biodiversity Information Facility (GBIF).

A ecologia é uma ciência baseada em dados, mas os dados de que precisamos estão frequentemente imobilizados em texto”

Vasco Branco, investigador do CE3C e autor principal do estudo.

Para fazer face a este desafio, uma equipa internacional liderada por investigadores do CE3C  anunciou o lançamento do RECODE (Relational Ecological COrpus for Data Extraction), um novo conjunto de dados anotados manualmente destinado a treinar e aperfeiçoar grandes modelos de linguagem (LLM) para a extração automática de dados ecológicos.

Publicado no Biodiversity Data Journal, o RECODE é o primeiro corpus de referência concebido especificamente para converter informação ecológica e taxonómica presente em texto não estruturado em dados legíveis por máquinas. Todos os documentos incluídos nesta fase foram cuidadosamente anotados e validados por especialistas familiarizados com os grupos-alvo: aranhas e insetos.

O RECODE fornece a  base necessária para ensinar aos modelos de IA como identificar e extrair com precisão as relações exatas entre espécies, as suas características e as suas localizações”.

Vasco Branco

Embora modelos de inteligência artificial de uso geral tenham demonstrado potencial na leitura destes conteúdos, enfrentam frequentemente limitações ao lidar com terminologia especializada ou relações ecológicas complexas, podendo gerar interpretações incorretas. Neste contexto, a criação de conjuntos de dados anotados, que são essenciais para treinar modelos mais robustos através de técnicas como o reconhecimento de entidades nomeadas e a extração de relações, é um passo muito importante, mas que até agora tem sido pouco explorado nesta área.

Os autores salientam que o RECODE ambiciona estabelecer um padrão para toda a comunidade científica, proporcionando um enquadramento consistente sobre a forma como os dados ecológicos devem ser interpretados por sistemas de inteligência artificial. Este avanço poderá impulsionar o desenvolvimento de uma nova geração de modelos especializados, denominados "Eco-LLMs", capazes de apoiar os cientistas na monitorização de ecossistemas e no planeamento de estratégias de conservação com maior rapidez e precisão.

Não estamos apenas a lançar um conjunto de dados; estamos a propor um padrão para a forma como a nossa área interage com a IA. Com o RECODE, estamos a dar à comunidade ecológica global as ferramentas para transformar a literatura sobre biodiversidade numa base de dados ativa e estruturada”.

Pedro Cardoso

O conjunto de dados RECODE e o respetivo artigo completo estão disponíveis em acesso aberto na Biodiversity Data Journal . A equipa integrou também este recurso no pacote R ARETE, permitindo que os investigadores comecem desde já a aplicar ferramentas de extração de dados baseadas em inteligência artificial aos seus próprios fluxos de trabalho.

Related News

view all 26 s
Mar de plástico: Mediterrâneo é a área do mundo com maior risco para as ameaçadas aves marinhas

Investigadora cE3c Maria Dias coordena estudo pioneiro à escala mundial que revela as áreas de maior risco de exposição ao plástico pelas já ameaçadas aves marinhas.

04 Jul 2023

Contaminação por raticidas ameaça aves de rapina em Portugal

Mais de 80 por cento das aves de rapina portuguesas podem estar contaminadas por raticidas anticoagulantes, ameaçando a conservação de várias espécies, revela um estudo publicado em novembro por uma equipa do CE3C-Ciências ULisboa e da Universidade de Gran Canaria.

18 Dec 2025

Da adversidade nasce o engenho: as incríveis respostas das plantas em ambientes áridos

Investigadoras CE3C Alice Nunes e Cristina Branquinho integram equipa de autores de mais 27 países e colocam o montado do Baixo Alentejo no mapa.

16 Sep 2024

Estudo mundial alerta para a degradação das zonas áridas devido ao aumento do pastoreio

Alice Nunes e Melanie Köbel são co-autoras do artigo publicado na revista Science.

24 Nov 2022

View All News