Desenvolvimento de modelos de prompt para triagem orientada por modelos de linguagem ampla em revisões sistemáticas
Entre os LLMs, as variantes Claude-3.5 (Anthropic) e GPT4 tiveram desempenho semelhante, enquanto os modelos Gemini Pro (Google) e GPT3.5 (OpenAI) tiveram desempenho inferior. Os custos de triagem direta para 10.000 citações diferiram substancialmente: enquanto a triagem de resumos humanos individuais foi estimada em mais de 83 horas e US$ 1.666,67, nossa abordagem baseada em LLM concluiu a triagem em menos de 1 dia por US$ 157,02.
#RevisãoSistemática #IA
Disponível em: https://www.acpjournals.org/doi/10.7326/ANNALS-24-02189

