Combinação de modelos de linguagem e dicionários para extração automática de conhecimento científico

por Ciexpress

Pesquisadores da Universidade Federal do Extremo Oriente, Rússia, apresentaram uma solução inovadora para um desafio enfrentado por cientistas e engenheiros: a extração automatizada de informações de vastos volumes de textos científicos. O estudo, intitulado “A hybrid approach to extraction of knowledge from scientific texts based on large language models and domain dictionaries”, combina a rigidez dos modelos de linguagem de grande escala, como o GigaChat, com a precisão oferecida por dicionários de domínio especializados, resultando em um sistema mais preciso e eficiente na extração de conhecimento técnico-científico.

Com o aumento exponencial da quantidade de textos e artigos acadêmicos disponíveis, a necessidade de ferramentas automatizadas para extrair, classificar e organizar informações de maneira eficaz tornou-se cada vez mais evidente. No entanto, os métodos tradicionais enfrentam dificuldades na adaptação a textos complexos e variados. Ao incorporar dicionários especializados com modelos de linguagem como o GPT-3, a abordagem híbrida proposta pelos pesquisadores oferece uma solução sofisticada que melhora a precisão, ao mesmo tempo em que oferece explicações compreensíveis para as decisões tomadas pelo sistema.

O sistema apresenta diversos avanços e resultados significativos. A abordagem híbrida combina duas tecnologias principais: modelos de linguagem de grande escala, que permitem uma análise abrangente do texto, e dicionários de domínio especializados, que garantem a precisão na identificação dos métodos e teorias específicas.

Um dos diferenciais do sistema é a sua capacidade de explicabilidade, fornecendo explicações claras sobre a identificação de determinados métodos ou teorias, permitindo ao usuário entender e validar as escolhas feitas. O sistema alcançou uma pontuação F1 de 89%, que representa uma combinação de alta precisão e recall, tornando-o uma solução robusta para a extração de conhecimento em áreas complexas, como a acústica arquitetônica. Além disso, a tecnologia permite que os usuários participem do processo de aprendizado, selecionando teorias e destacando palavras-chave que aprimoram as capacidades do sistema em ciclos futuros.

Essa abordagem tem potencial para revolucionar a forma como cientistas e engenheiros acessam e utilizam informações contidas em artigos científicos, ajudando a superar limitações atuais, como o uso indevido de informações e a falta de modelos claros. A integração de sistemas baseados em inteligência artificial com conhecimento especializado também reduz a necessidade de intervenção manual e de iterações de ajustes nos modelos, economizando tempo e recursos, e otimizando o trabalho em áreas como simulação, análise e modelagem de processos complexos.

O sistema proposto foi testado com sucesso em publicações científicas na área de acústica, mas suas aplicações podem se estender a diversas outras áreas da engenharia e ciência, especialmente em temas que envolvem grandes conjuntos de parâmetros e variáveis, onde a escolha do modelo matemático correto é desafiadora.

Apesar dos resultados promissores, ainda há desafios a serem superados, principalmente no que diz respeito à identificação de métodos híbridos e qualitativos com maior precisão. As futuras pesquisas focarão no refinamento desses aspectos e na criação de um sistema ainda mais dinâmico e adaptável.

O estudo foi conduzido por Alina Chusova, Irina Artemieva e Andrey Chusov, membros do Departamento de Engenharia de Software e Inteligência Artificial da Universidade Federal do Extremo Oriente. Com diversos projetos em inteligência artificial e extração de conhecimento, o grupo de pesquisa tem contribuído significativamente para o avanço das tecnologias de automação de processos acadêmicos e científicos.

Para ler o artigo na íntegra:

CHUSOVA, Alina; ARTEMIEVA, Irina; CHUSOV, Andrey. A hybrid approach to extraction of knowledge from scientific texts based on large language models and domain dictionaries. Preprint, jul. 2024. Disponível em: https://www.researchgate.net/publication/382640933. Acesso em: 25 set. 2024.

*Texto elaborado com apoio de Large Language Model ChatGPT

Combinação de modelos de linguagem e dicionários para extração automática de conhecimento científico

Posts recentes

Comments