bots – Prof. Pedro Andretta

8 de julho de 2026

O que um autor deve fazer? Bibliotecas paralelas na era da IA / Slaw

Por Pedro Andretta em Informe-CI Tag AnnaArchive, bots, CreativeCommons, DireitosAutorais, pirataria

O que um autor deve fazer? Bibliotecas paralelas na era da IA / Slaw

Processos judiciais contra bibliotecas paralelas não são novidade – editoras e criadores vêm tentando remover obras criativas pirateadas da internet desde que ela existe, como demonstra a lista quase interminável de processos judiciais publicada no blog Torrentfreak . O que emergiu nos últimos anos é que esses processos agora enfatizam o papel que sites como o Anna’s Archive desempenham no treinamento de grandes modelos de linguagem (LLMs), visto que “a atuação das editoras é agora especialmente crítica à luz de relatos de que o Anna’s Archive está ativamente anunciando que fornecerá acesso de alta velocidade – e de fato já forneceu – a desenvolvedores de sistemas de IA de modelos de linguagem de grande porte (“LLMs”) e corretores de dados.”

#Pirataria #AnnasArchive #Bots #CreativeCommons #DireitosAutorais

via Slaw

Disponível em: https://www.slaw.ca/2026/05/08/whats-an-author-to-do-shadow-libraries-in-the-age-of-ai/

20 de junho de 2026

Bots estão coletando dados abertos — como os pesquisadores devem reagir? / Nature

Por Pedro Andretta em Informe-CI Tag bots, DadosDePesquisa, IAScraping

Bots estão coletando dados abertos — como os pesquisadores devem reagir? / Nature

O que está claro é que a extração de dados por IA é comum. Uma pesquisa publicada em junho do ano passado pela Confederação de Repositórios de Acesso Aberto (CAAR) constatou que mais de 90% das organizações membros que responderam se deparam com extração de dados por bots, sendo que a maioria delas observa uma atividade anormalmente alta de bots pelo menos uma vez por semana¹. Frequentemente, essa extração é feita para fornecer dados de treinamento para modelos de IA. Esses dados também estão sendo usados para produzir novos resultados de pesquisa gerados inteiramente por modelos de IA. (…)
No entanto, simplesmente bloquear conjuntos de dados atrás de uma barreira anti-bot não seria do melhor interesse do progresso científico, afirma Katie Corker, diretora executiva da ASAPbio, uma organização sem fins lucrativos com sede em São Francisco, Califórnia, que promove a ciência aberta e pressiona pela transparência no processo de publicação de pesquisas. “Se pensarmos com a perspectiva de um cientista ideal, o objetivo deveria ser compartilhar abertamente os dados de pesquisa e usá-los para fazer descobertas que melhorem a vida humana”, diz Corker. E se os contribuintes pagaram pela pesquisa que coleta esses dados, é questionável se os pesquisadores deveriam se opor ao seu uso público, acrescenta ela.

#DadosDePesquisa #Bots #IAScraping

Disponível em: https://www.nature.com/articles/d41586-026-01689-0

5 de maio de 2026

O Internet Archive está em perigo / The Week

Por Pedro Andretta em Informe-CI Tag bots, InternetArchive

O Internet Archive está em perigo / The Week

O Internet Archive é uma organização sem fins lucrativos que está construindo uma “biblioteca digital de sites da internet e outros artefatos culturais”, de acordo com seu site. A organização usa rastreadores da web para capturar instantâneos de sites. Esses instantâneos são então disponibilizados por meio da ferramenta pública Wayback Machine, que funciona como uma biblioteca, fornecendo “acesso gratuito a pesquisadores, historiadores, acadêmicos, pessoas com deficiência visual e ao público em geral”. No entanto, em meio à ascensão da IA, o “compromisso do Internet Archive com o acesso gratuito à informação transformou sua biblioteca digital em um potencial problema para alguns veículos de notícias”, afirmou uma análise do Nieman Lab. (…)

A inteligência artificial é o principal motivo pelo qual sites estão bloqueando o Internet Archive. Há “evidências de que a Wayback Machine tem sido usada para treinar grandes modelos de linguagem”, afirmou a Forbes. O arquivo permite que empresas de tecnologia “contornem as leis de direitos autorais usando a Wayback Machine como uma solução alternativa para treinar modelos de linguagem em seu conteúdo”, disse o Morning Brew. Apesar disso, Mark Graham, diretor da Wayback Machine, “enfatiza que o arquivo digital possui controles para limitar o abuso da automação por IA e impedir a extração de dados em larga escala”.

#InternetArchive #Bots

via The Week

Disponível em: https://theweek.com/tech/internet-archive-ai-scraping-wayback-machine

26 de março de 2026

SciBotScan

Por Pedro Andretta em Informe-CI Tag bots, FerramentasOnline, Twitter

SciBotScan

O SciBotScan é um modelo de inteligência artificial desenvolvido com base em um rigoroso processo de rotulagem e classificação de contas da plataforma X (antigo Twitter), com o objetivo de identificar contas humanas e bots que divulgam artigos científicos. A base de dados foi construída por meio da integração de algoritmos automáticos e fontes reconhecidas da literatura, complementada por uma verificação manual de mais de 13 mil contas. Ao final desse processo, foram identificadas 822 contas de bots e 12.945 contas humanas, com mais de 67 mil postagens analisadas. O dataset rotulado está disponível em: xxxxxx.

O modelo de classificação utiliza o algoritmo XGBoost e foi treinado com 46 features preditivas, considerando características de atividade, textualidade, comportamento temporal e estrutura dos nomes de usuário.

#FerramentasOnline #Twitter #Bots

Disponível em: https://scibotscanv3.streamlit.app/

23 de março de 2026

O tráfego de bots online ultrapassará o tráfego humano até 2027, afirma o CEO da Cloudflare / Tech Crunch

Por Pedro Andretta em Informe-CI Tag bots, Internet

O tráfego de bots online ultrapassará o tráfego humano até 2027, afirma o CEO da Cloudflare / Tech Crunch

Os bots estão dominando a web, de acordo com Matthew Prince, CEO da Cloudflare. Em uma entrevista na conferência SXSW em Austin esta semana, ele afirmou que, com a velocidade com que a inteligência artificial está crescendo, o tráfego de bots de IA ultrapassará o tráfego humano online até 2027.

Prince explicou que o uso da web por bots tem aumentado junto com o crescimento da tecnologia de IA generativa porque os bots são capazes de visitar muito mais sites para obter respostas às perguntas dos usuários em chatbots.

“Se um humano estivesse realizando uma tarefa — digamos, comprar uma câmera digital — e visitasse cinco sites, seu agente ou o bot que realiza essa tarefa geralmente visitará 1.000 vezes mais sites do que um humano real”, disse Prince. “Então, ele poderia visitar 5.000 sites. E esse é tráfego real, e essa é uma carga real, com a qual todos precisam lidar e levar em consideração.”

#Bots #Internet

via Tech Crunch

Disponível em: https://techcrunch.com/2026/03/19/online-bot-traffic-will-exceed-human-traffic-by-2027-cloudflare-ceo-says/

3 de fevereiro de 2026

Moltbook, a nova rede social criada apenas para IA (e não para humanos) — e as dúvidas e preocupações que ela tem gerado / BBC

Por Pedro Andretta em Informe-CI Tag bots, Moltbook

Moltbook, a nova rede social criada apenas para IA (e não para humanos) — e as dúvidas e preocupações que ela tem gerado / BBC

“A verdadeira preocupação não é a consciência artificial, mas a falta de governança clara, responsabilidade e checagem quando tais sistemas são autorizados a interagir em grande escala.”

“O Moltbook é menos uma ‘sociedade de IA emergente’ e mais ‘6.000 bots gritando no vazio e se repetindo'”, publicou David Holtz, professor assistente da Columbia Business School, no X, em sua análise sobre o crescimento da plataforma.

Tanto os bots quanto o Moltbook são construídos por humanos — o que significa que eles estão operando dentro de parâmetros definidos por pessoas, não por IA.

#Bots #Moltbook

via BBC

Disponível em: https://www.bbc.com/portuguese/articles/c3veq5lz51vo

27 de janeiro de 2026

Acesso aberto versus excesso aberto: DOAJ e bots de coleta de dados com IA / DOAJ

Por Pedro Andretta em Informe-CI Tag AcessoAberto, bots, InteligênciaArtificial

Acesso aberto versus excesso aberto: DOAJ e bots de coleta de dados com IA / DOAJ

2025 foi o ano em que essa nova extração excessiva de dados da web, impulsionada por IA para alimentar bibliotecas, bibliotecas e acervos de acesso aberto, oficialmente quebrou grandes partes da internet. Organizações de acesso aberto e patrimônio cultural, como a Wikipédia, as Bibliotecas da Universidade de Chapel Hill e o Diretório de Livros de Acesso Aberto (DOAB), documentaram publicamente lentidão, indisponibilidade e aumento nos custos de servidor devido ao aumento massivo no tráfego de bots. O termo “ataque de bot” tornou-se agora um termo genérico para ataques DoS puramente maliciosos e para o fenômeno mais recente de picos de tráfego provenientes de bots de extração de dados com IA financiados por investidores. Como o DOAJ está lidando com bots de raspagem de dados
Desde o início de 2025, o DOAJ tem observado um aumento constante no tráfego de seu site. Os primeiros seis meses do ano passado registraram um aumento de 43% nas visitas ao nosso site em comparação com o mesmo período de 2024, além de um crescimento constante mês a mês.

Os últimos seis meses de 2025 apresentaram um aumento de 419% em relação ao mesmo período de 2024, culminando em um único dia em meados de novembro, quando nosso tráfego atingiu um pico de 968% em relação ao ano anterior, resultando em lentidão significativa para os usuários do nosso site público e para nossa Equipe Editorial, que utiliza um sistema interno para avaliar as solicitações de periódicos para inclusão no DOAJ.

#AcessoAberto #Bots #IA

via DOAJ

Disponível em: https://blog.doaj.org/2026/01/26/open-access-vs-open-excess-doaj-and-ai-scraper-bots/

17 de janeiro de 2026

Deezer: faixas 100% IA têm reproduções infladas por ouvintes falsos / Giz

Por Pedro Andretta em Informe-CI Tag bots, Deezer, InteligênciaArtificial

Deezer: faixas 100% IA têm reproduções infladas por ouvintes falsos / Giz

Embora a música totalmente gerada por IA represente atualmente apenas uma pequena fração dos streams na Deezer — aproximadamente 0,5% — é evidente que o principal objetivo do upload dessas faixas para plataformas de streaming é fraudulento. A Deezer descobriu que até 70% dos streams gerados por faixas totalmente produzidas por IA são, na verdade, fraudulentos.

A ferramenta de detecção de fraudes da Deezer se baseia em algoritmos que identificam comportamentos incomuns de streaming que não condizem com a forma como um usuário normal da Deezer consome música. Isso pode incluir milhares de streams para uma única música, streaming 24 horas por dia, 7 dias por semana, ou picos de audiência em determinados horários todos os dias. Ao detectar fraudes e manipulações de streaming de qualquer tipo, a Deezer exclui os streams dos pagamentos de royalties.

#IA #Deezer #Bots

Disponível em: https://gizbr.uol.com.br/deezer-faixas-ias-ouvintes-falsos/

5 de dezembro de 2025

Bots de IA ameaçam Repositórios Abertos: COAR cria força-tarefa / ABCD

Por Pedro Andretta em Informe-CI Tag bots, Repositórios

Bots de IA ameaçam Repositórios Abertos: COAR cria força-tarefa / ABCD

Esses bots podem roubar propriedade intelectual, comprometer aplicativos web e identificar vulnerabilidades que resultem em incidentes de segurança ou violações de dados.

Para mitigar esse impacto, diversas medidas estão sendo utilizadas para minimizar ou impedir o acesso de bots de IA aos repositórios. Algumas dessas medidas são consideradas relativamente eficazes na proteção dos repositórios contra interrupções de serviço, mas também é evidente que elas dificultam o acesso aos repositórios por outros agentes mais bem-vindos, como usuários humanos individuais e sistemas benignos [1].

Para impedir bots de IA maliciosos e controlar a varredura e a raspagem de conteúdo, as organizações precisam de uma estratégia de segurança em várias camadas. Essa estratégia combina controles estáticos com recursos mais preditivos, dinâmicos e governança granular.

via ABCD

#Repositórios #Bots

Disponível em: https://www.abcd.usp.br/informa/repositorios-institucionais-e-os-bots-de-ia-coar-cria-forca-tarefa/

4 de novembro de 2025

Como enfrentar trolls e bots na mídia: oito recomendações importantes / Laboratorio de Periodismo

Por Pedro Andretta em Informe-CI Tag bots, Jornalismo

Como enfrentar trolls e bots na mídia: oito recomendações importantes / Laboratorio de Periodismo

O surgimento massivo de trolls, bots e contas falsas em espaços digitais colocou as equipes de moderação de mídia diante de um desafio que afeta não apenas a qualidade do debate, mas também a própria sustentabilidade de suas comunidades.

Esses perfis automatizados ou manipuladores conseguem distorcer pesquisas, envenenar conversas, roubar conteúdo e, às vezes, alterar as métricas de tráfego apresentadas aos anunciantes. Nesse sentido, a revista Turi2 publicou um documento com oito recomendações para redações e editoras retomarem o controle sobre essas ameaças digitais.

#Jornalismo #Bots

Disponível em: https://laboratoriodeperiodismo.org/como-enfrentar-a-trolls-y-bots-en-medios-ocho-recomendaciones-clave/

28 de setembro de 2025

Relatório diz que até 70% dos streamings de música gerada por IA no Deezer são fraudulentos / The Guardian

Por Pedro Andretta em Informe-CI Tag bots, Deezer, Música, Streaming

Relatório diz que até 70% dos streamings de música gerada por IA no Deezer são fraudulentos / The Guardian

Um relatório recente da Deezer alerta que até 70% dos streamings de músicas gerados inteiramente por inteligência artificial (IA) na plataforma são fraudulentos. Esses streamings são causados por bots ou outras formas de manipulação que visam inflar números e obter royalties indevidamente. Embora as faixas criadas por IA representem apenas 0,5% do total de streamings, sua presença é muito mais significativa no volume de uploads diários: cerca de 20.000 faixas por dia, representando 18% de todas as músicas enviadas.

Para lidar com essa situação, a Deezer afirma ter ferramentas capazes de identificar com precisão o conteúdo produzido por modelos como Suno e Udio. As faixas detectadas como totalmente artificiais são explicitamente rotuladas, excluídas das recomendações algorítmicas e listas editoriais, e os streamings fraudulentos que geram não são contabilizados para o pagamento de royalties.

#Streaming #Deezer #Bots #Música

via The Guardian

Disponível em: https://www.theguardian.com/technology/2025/jun/18/up-to-70-of-streams-of-ai-generated-music-on-deezer-are-fraudulent-says-report

18 de setembro de 2025

Wikifavelas: O dilema de uma plataforma atacada por robôs / Outras palavras

Por Pedro Andretta em Informe-CI Tag bots, InteligênciaArtificial, Internet

Wikifavelas: O dilema de uma plataforma atacada por robôs / Outras palavras

No primeiro semestre de 2025, a plataforma Wikifavelas, instância MediaWiki do projeto Dicionário de Favelas Marielle Franco, começou a apresentar picos de lentidão e quedas misteriosas que se assemelhavam a ataques de Negação de Serviço (mais conhecido pela sua sigla em inglês DDoS-Attack – Distributed Denial of Service). A equipe de TI, então, começou a investigar a causa do problema, dado que o número de usuários diários à plataforma não era grande o suficiente para implicar em indisponibilidade do sistema. Foi ao acessar o log que se descobriu um culpado inusitado para essa indisponibilidade do site: web-crawlers, robôs raspadores de páginas web de grandes empresas atuantes no ramo de IA, como OpenAI (dona do ChatGPT) e Google (responsável pela plataforma Gemini).

#Intenet #IA #Bots

via Outras Palavras

Disponível em: https://outraspalavras.net/tecnologiaemdisputa/wikifavelas-o-dilema-de-uma-plataforma-atacada-por-robos/

Tag: bots