scientifyRESEARCH
research funding database

Ethos para o desenvolvimento de ferramentas PNL de apoio de investigadores

Share this post

Ethos for developing NLP tools to support researchers Smita Chakraborty, PhD

Desenvolver um algoritmo de Processamento Natural Linguístico (PNL) para serviços de investigação é fascinante. De forma a obtermos uma ferramenta completa, Ethos pede a um engenheiro IA para misturar várias perspetivas. A cada segundo um algoritmo inovador de PNL chega ao mercado, e os investigadores que os desenvolvem precisam de estar cientes das limitações e das condições sob as quais o PNL foi desenvolvido. Os papeis invertem-se quando investigadores de vários ramos utilizam uma ferramenta de serviço de investigação baseada em PNL. Por esse motivo, há aspetos da aprendizagem automática (ML) que um investigador deve conhecer para apresentar aos investigadores e aos gabinetes de investigação uma ferramenta que os apoie. Considere esta tarefa como um cristal, só que não sabe quantas superfícies tem: um diamante de N dimensões. Cada vez que se vira o diamante olha para ele, descobre uma nova perspetiva sobre a forma como pode ser visto, utilizado e as suas falhas em determinados casos. 

Neste blogue, vou partilhar as minhas experiências e opiniões após vários meses de trabalho no desenvolvimento de uma ferramenta de PNL para a scientifyRESEARCH, uma base de dados de financiamento da investigação. Tentarei delinear aqui os principais aspetos que a scientifyRESEARCH está a cumprir enquanto avança para o seu novo software baseado em IA para bolsas de investigação.

Panorama completo dos dados de financiamento da investigação

Os dados são uma das coisas quase infinitas que existem na Terra. Por isso, é uma tarefa complexa fornecer um resumo completo de uma classe de dados. Por conseguinte, a tarefa deve ser reformulada. Em vez de fornecer um panorama completo, temos de fornecer a descrição mais precisa dos dados. Isto deve-se ao facto de os grupos de dados também serem vivos – mudam ao longo do tempo. 

Especificamente, na scientifyRESEARCH concentramo-nos nas bolsas que são anunciadas na Internet todos os dias. Muitas não são atualizadas pelos financiadores e muitas têm detalhes que estão escondidos em textos difíceis de ler. A tarefa consiste em organizá-las todas num único local, seguindo o mesmo esquema, e depois fornecer à fonte original dos dados uma visão geral completa para fins de transparência. 

Relacionar as tendências dos anúncios de bolsas dos anos anteriores é outra ferramenta poderosa para os investigadores, que ajuda a prever e a planear futuras etapas de investigação. Assim, a história dos anúncios de bolsas é uma memória viva para o algoritmo de PNL do scientifyRESEARCH.

Previsões baseadas nas últimas alterações e princípios

Os dados são dinâmicos – transformam-se em novas formas e tendências atuais em qualquer data. Por esse motivo, um PNL com este conhecimento pode adaptar-se a essas alterações e fornecer os melhores resultados e observações valiosas.

Essas mudanças são geograficamente únicas e, por vezes, peculiares para certas áreas de investigação. Assim, um único PNL que dê os melhores resultados para todos as áreas de investigação pode não ser possível. É preciso estar atento para adaptar os algoritmos a nichos específicos. 

Isto também ajuda os utilizadores da nossa base de dados a efetuar pesquisas rápidas: os investigadores podem utilizar esta ferramenta para procurar bolsas de investigação que correspondam aos seus requisitos de eleição específicos. Por conseguinte, mesmo que seja necessário um esforço significativo para desenvolver os algoritmos, o resultado obtido pode ser suficientemente satisfatório para o justificar. É claro que temos de ser rigorosos com a divisão do tempo, de modo a que, quando há uma tarefa que exige muito tempo, seja necessário considerar qual a vantagem que ela traria.

A abordagem científica dos PNL: analisar as respostas como um ser humano

Todos os algoritmos de PNL têm uma série de limitações. Os programadores têm de estar conscientes e ser transparentes quanto a essas limitações. Além disso, em muitos casos, pode ser necessário vetar as respostas ou os resultados de um software baseado em PNL- mesmo que o processo seja automatizado, é necessária a intervenção e o controlo humano.

Isto proporciona uma resposta não preconceituosa aos PNL. Assim, por exemplo, um investigador do hemisfério sul não deve apenas ver as bolsas que o rodeiam, mas também as que lhe são acessíveis no hemisfério norte. Além disso, a origem étnica dos investigadores não deve determinar as bolsas que lhe são admissíveis, exceto se tal for exigido pela agência de financiamento (algumas bolsas estão exclusivamente disponíveis para grupos minoritários na investigação).

Em última análise, é necessária documentação suficiente para a tomada de decisões em cada etapa deste processo. Além disso, as previsões e declarações redundantes para o financiamento da investigação têm de ser examinadas por seres humanos, por exemplo, os pontos de incidência expirados dos órgãos de financiamento em áreas de investigação de rápido desenvolvimento.

Como é que os algoritmos de PNL podem ajudar os investigadores?

A redação de uma bolsa de investigação é uma tarefa imensa. É preciso muito tempo e energia emocional para formular uma proposta bem escrita, baseada no nosso trabalho realizado até ao momento e na nossa imaginação para o planeamento futuro, apoiada em factos. Raramente, há algo mais que possa complementar este processo. Um algoritmo que não só mostre as bolsas de investigação perfeitas para um investigador individual, mas também apresente bolsas alternativas às quais se pode candidatar, é muito bem-vindo para aumentar as hipóteses dos investigadores e das instituições de realizarem uma investigação bem financiada. 

Não cumpriu um prazo? Não se preocupe. Com base em dados anteriores, o PNL seria capaz de prever quando será a próxima ronda de abertura de bolsas e mostrar o montante do financiamento a que se pode candidatar. O modelo enviaria alertas ao investigador quando fosse altura de aperfeiçoar o seu projeto e de se preparar para a ronda seguinte. Os investigadores terão um assistente de investigação para os ajudar durante a maratona de redação de projetos.

A informação sobre o financiamento da investigação está muitas vezes escondida debaixo de uma grande carga de burocracia ou de redes nos ambientes corretos. Para os investigadores em início de carreira, essa informação é tão valiosa que uma base de dados de bolsas que possa fornecer facilmente essa informação é imprescindível. Quando o trabalho em rede é dispendioso, raramente se verifica uma competição justa. Uma ferramenta de PNL pode facilmente ultrapassar as fronteiras para apresentar oportunidades iguais e fazer uma verdadeira diferença no sistema de investigação a nível mundial. 

Would you like to be featured on our blog?

Get in touch with us!

phd student funding

Sign-up for our monthly
research funding newsletter

you can unsubscribe at any time