Aplicabilidade de Modelos de Linguagem de Grande Porte (LLMs) à classificação bibliográfica: Análise do ChatGPT-4o, DeepSeek e Gemini 2.0 para atribuição de números da Classificação Decimal de Dewey (CDD) / Journal of Librarianship and Information Science
Os resultados indicam que os três modelos lidam bem com níveis mais amplos de classificação, particularmente até o segundo e terceiro dígitos. O DeepSeek apresentou o melhor desempenho geral, com uma pontuação média de correspondência de 56,43 em 100, seguido pelo ChatGPT-4o (51,82), enquanto o Gemini 2.0 produziu os resultados mais variáveis entre os três (45,73). A maioria dos erros ocorre nos níveis de seção (terceiro dígito) e nas primeiras casas decimais, indicando que essas distinções granulares exigem uma compreensão contextual que vai além das capacidades atuais do modelo. Classificações incorretas no nível principal foram raras (ChatGPT: 9,09%; DeepSeek: 0,91%; Gemini: 8,18%). Curiosamente, a matriz de compensação entre os modelos revelou que diferentes modelos têm desempenhos distintos ao longo dos níveis hierárquicos. O DeepSeek mostrou-se excelente na classificação em níveis mais amplos, enquanto o ChatGPT-4o teve um desempenho melhor na classificação em níveis granulares, indicando o potencial futuro para combinações de modelos que considerem a hierarquia para a tarefa em questão.
#CDD #ChatGPT #DeepSeek #Gemini
Disponível em: https://doi.org/10.1177/09610006261442170

Deixe uma resposta