Engenharia rápida para raspagem bibliográfica na web / Scientometrics

Engenharia rápida para raspagem bibliográfica na web / Scientometrics

Engenharia rápida para raspagem bibliográfica na web / Scientometrics

O objetivo deste artigo é definir como usar eficientemente a engenharia de prompts para elaborar um modelo de entrada de dados adequado, capaz de gerar, em uma única interação com o ChatGPT-4o, um web scraper totalmente funcional, programado em linguagem PHP, adaptado ao caso de catálogos bibliográficos. Como exemplo de demonstração, utiliza-se o catálogo bibliográfico da Biblioteca Nacional da Espanha, com um conjunto de dados de milhares de registros. Os resultados apresentam um modelo eficaz para o desenvolvimento de programas de web scraping, auxiliado por IA e com a mínima interação possível. Os resultados obtidos com o modelo indicam que o uso de prompts com modelos de linguagem de grande porte (LLM) pode melhorar a qualidade do scraping, compreendendo contextos e padrões específicos, adaptando-se a diferentes formatos e estilos de apresentação de informações bibliográficas.

#ChatGPT #WebScrapping

Disponível em: http://eprints.rclis.org/47235/

Deixe uma resposta

um × três =

Proudly powered by WordPress | Theme: Content by SpiceThemes

Acessar o conteúdo