Como os robos rastreadores / bots impactam as operações dos projetos da Wikimedia
Enquanto leitores humanos tendem a focar em tópicos específicos – geralmente similares –, robôs rastreadores tendem a “ler em massa” um número maior de páginas e visitar também as páginas menos populares. Isso significa que esses tipos de solicitações têm mais probabilidade de serem encaminhadas para o datacenter principal, o que as torna muito mais caras em termos de consumo de nossos recursos.
Ao passar por uma migração de nossos sistemas, notamos que apenas uma fração do tráfego caro que chegava aos nossos datacenters principais estava se comportando como os navegadores da web normalmente fariam, interpretando o código javascript. Quando olhamos mais de perto, descobrimos que pelo menos 65% desse tráfego que consome recursos que obtemos para o site vem de bots, uma quantidade desproporcional, dado que as visualizações de página gerais de bots são cerca de 35% do total.
#Wikipedia #Bots
via Diff
Disponível em: https://diff.wikimedia.org/2025/04/01/how-crawlers-impact-the-operations-of-the-wikimedia-projects/
