O apagamento sem censores | Observatório da Imprensa

(Foto: cottonbro studio/Pexels)

Em abril de 2025, o jornal USA Today publicou uma investigação revelando que o ICE, serviço de imigração dos Estados Unidos, havia deliberadamente ocultado informações sobre sua política de detenção. A apuração foi possível graças à Wayback Machine do Internet Archive, plataforma que há três décadas guarda versões arquivadas de bilhões de páginas da web. Meses depois, a mesma empresa jornalística que utilizou o arquivo como instrumento de accountability bloqueou o acesso da Wayback Machine aos seus próprios conteúdos jornalísticos. A contradição não é apenas empresarial, ela é sintomática de uma crise mais profunda, que envolve a estrutura da memória digital pública, a economia política da Inteligência Artificial e os limites de uma governança da internet que nunca foi adequadamente pensada como questão coletiva.

A pressão sobre o Internet Archive não é episódica. Uma pesquisa da Nieman Foundation for Journalism, da Universidade de Harvard, identificou que pelo menos 241 portais de notícias distribuídos por nove países já impediram o acesso da plataforma a seus conteúdos, entre eles o jornal britânico The Guardian, o estadunidense The New York Times e o francês Le Monde. A justificativa apresentada pelos veículos de imprensa é, em sua superfície, economicamente compreensível, pois empresas de IA, como OpenAI e Google, estariam utilizando os conteúdos jornalísticos arquivados na plataforma para treinar modelos de linguagem sem autorização e sem remuneração. O porta-voz do New York Times expressou a preocupação de que os conteúdos do jornal no arquivo estejam sendo usados por empresas de IA para concorrer diretamente com a publicação. Dados revelam que algumas dessas empresas chegaram a realizar dezenas de milhares de solicitações por segundo ao archive.org, chegando a sobrecarregar temporariamente seus servidores. O problema real, portanto, não é o arquivo, é a extração predatória viabilizada pela ausência de regulação sobre o uso de dados para treinamento de sistemas de IA.

É precisamente aqui que a análise precisa ir além do senso comum da autorização e da remuneração, uma vez que o que os veículos de imprensa estão fazendo ao bloquear a Wayback Machine é, estruturalmente, punir o arquivo pela falha regulatória que deveria ser imputada às empresas de tecnologia. A Electronic Frontier Foundation comparou a situação a um jornal que proibisse bibliotecas de manter cópias de suas edições impressas, uma analogia juridicamente potente, porque evoca o princípio do depósito legal e a tradição de mais de dois séculos de reconhecimento de que certas formas de preservação documental transcendem os interesses proprietários dos produtores originais. Mas a analogia tem um limite importante que o debate público raramente explicita, pois as bibliotecas físicas operam em um marco jurídico consolidado, com imunidades específicas, garantias institucionais e financiamento público, enquanto o Internet Archive, ao contrário, é uma organização sem fins lucrativos dependente de doações, sem estatuto jurídico especial e sem qualquer proteção equivalente à que os sistemas de depósito legal conferem às bibliotecas nacionais. Trata-se, em outras palavras, de uma infraestrutura de importância pública global que opera com a fragilidade institucional de uma ONG local.

A confusão entre o problema real, a extração de dados por empresas de IA sem compensação e o arquivo como repositório histórico revela algo sobre a gramática do interesse corporativo quando acionado defensivamente. O USA Today utilizou a Wayback Machine para expor o governo, porém, ao mesmo tempo, bloqueia o arquivo para se proteger das big techs. Essa postura não é hipócrita no sentido moral corriqueiro, mas é o resultado de uma racionalidade empresarial que age por autopreservação imediata sem considerar os efeitos sistêmicos de suas decisões. Porquanto cada veículo que bloqueia individualmente o arquivo pode ter razões econômicas legítimas, o conjunto dessas decisões, porém, produz um efeito coletivo que nenhuma delas assumiu deliberadamente, a saber, o esvaziamento progressivo da principal ferramenta de preservação da memória jornalística digital. É o que os economistas chamariam de “tragédia dos comuns”, e o que a teoria da comunicação deveria reconhecer como um problema de governança de infraestrutura informacional.

As consequências concretas dessa erosão são de uma gravidade que o debate público ainda não dimensionou adequadamente. O analista de mídia Martin Fehrensen listou algumas delas com precisão: milhões de referências da Wikipédia perderiam sua fonte de verificação; pesquisas sobre a responsabilidade das plataformas digitais, rastreando alterações em políticas de moderação e termos de uso ao longo do tempo, tornar-se-iam metodologicamente inviáveis; e evidências digitais com valor probatório em processos judiciais seriam irrecuperáveis. A isso se soma o que mais de cem jornalistas afirmaram em carta aberta ao Internet Archive: em um ambiente midiático onde artigos desaparecem por perda de links, fusões corporativas ou cortes de custos, o arquivo é frequentemente a única forma de recuperar registros jornalísticos que, de outra maneira, estariam definitivamente perdidos. O que está em jogo, portanto, não é apenas a memória do jornalismo, mas a possibilidade de accountability retroativa, a capacidade de verificar o que foi dito, publicado e depois alterado, função que é, em qualquer teoria democrática da imprensa, constitutiva do papel social do jornalismo.

É necessário tensionar, além disso, a posição do próprio Internet Archive nessa equação, já que a organização se apresenta como comprometida com a “internet aberta” e com o acesso universal ao conhecimento, valores que, na prática, se traduzem na recusa de bloquear robôs e rastreadores indiscriminados. Essa postura é ideologicamente coerente com o ethos das primeiras décadas da web, mas revela-se funcionalmente inadequada diante de um ecossistema digital em que rastreadores automatizados são cada vez menos instrumentos de pesquisa e cada vez mais instrumentos de extração comercial. A distinção entre um robô acadêmico e um robô de coleta para treinamento de IA não é trivial, mas tampouco é impossível de operacionalizar. A recusa do arquivo em implementar distinções técnicas entre tipos de acesso, mesmo que motivada por princípios, acabou por fornecer aos veículos de imprensa um argumento válido para o bloqueio total, quando poderiam ter encontrado formas mais eficazes de proteger seus conteúdos sem comprometer a função arquivística. O conflito atual não seria tão agudo se houvesse, desde o início, uma separação técnica entre o acesso para fins de preservação e o acesso para fins de treinamento de modelos de linguagem.

Entretanto, a proposta de separação técnica, embora necessária no curto prazo, não resolve o problema estrutural que Fehrensen identificou, ou seja, o fato de que, em 2026, a preservação da memória da internet pública ainda depende de uma única organização não governamental sediada em São Francisco. Essa concentração não é apenas uma fragilidade logística, mas uma anomalia de governança que nenhuma democracia aceitaria em relação a outros patrimônios documentais. Nenhum país transferiria a gestão de seus arquivos nacionais a uma ONG sem financiamento público, sem mandato legal e sem mecanismos de prestação de contas à sociedade. O que foi feito com a memória digital, contudo, foi exatamente isso, delegou-se a uma iniciativa privada sem fins lucrativos a responsabilidade que em outros domínios, bibliotecas nacionais, arquivos públicos, sistemas de depósito legal, é reconhecida como obrigação do Estado.

Essa delegação não foi intencional, foi o resultado de décadas de uma cultura de internet que confundiu descentralização com ausência de governança e liberdade com irresponsabilidade institucional. A web nasceu como projeto aberto e permaneceu, em seus aspectos fundamentais, como uma infraestrutura sem titularidade pública clara. O paradoxo é que essa abertura, que permitiu a emergência de iniciativas como o Internet Archive, é a mesma que torna tais iniciativas estruturalmente vulneráveis, pois sem estatuto jurídico especial, financiamento garantido e proteção legal equivalente à de uma biblioteca nacional, o arquivo depende de doações, da boa vontade das empresas de mídia e da estabilidade de um ambiente regulatório que nunca foi desenhado para protegê-lo.

A comparação com as bibliotecas é, portanto, mais do que uma analogia retórica, é uma agenda política. O que o debate deveria tomar com a seriedade que merece, é que o arquivamento da internet seja reconhecido como infraestrutura pública, financiada por Estados nacionais ou por organismos internacionais, dotada de um estatuto jurídico que a proteja tanto do mercado quanto das crises institucionais de entidades privadas. Essa proposta não é utópica, é o que já existe, sob diferentes formas, em países como o Reino Unido, a França, a Suécia e a Austrália, que mantêm programas nacionais de arquivamento da web coordenados por suas bibliotecas nacionais. O problema é que esses programas são fragmentados, sem interoperabilidade global e sem a escala e a integração que o Internet Archive alcançou em três décadas de operação ininterrupta.

A crise atual do Internet Archive não é, em última análise, uma crise de direitos autorais, nem uma crise tecnológica causada pelos robôs de IA. É uma crise de imaginação política, a incapacidade coletiva de reconhecer que certos bens informacionais, a memória documentada da internet pública, são bens comuns que não podem ser geridos adequadamente nem pela lógica do mercado nem pela filantropia privada. O apagamento que se avizinha não virá por decreto de um governo autoritário nem pela ação de um censor identificável, mas virá pelo acúmulo silencioso de decisões corporativas individualmente racionais e coletivamente destrutivas, cada uma delas protegida pelo direito de propriedade e nenhuma delas responsável pelo resultado conjunto. É o apagamento sem censores, e talvez seja, por isso mesmo, o mais difícil de combater.

Mais de cem jornalistas assinaram a petição em defesa do Internet Archive. É um gesto importante, mas insuficiente. O que a situação exige é menos uma carta aberta e mais uma agenda legislativa que proponha a regulação específica sobre o uso de dados para treinamento de IA, que proteja tanto os produtores de conteúdo quanto os arquivos públicos; reconhecimento jurídico do estatuto especial dos arquivos da web, equivalente ao depósito legal impresso; e, a médio prazo, financiamento público multinacional para uma infraestrutura de preservação da memória digital que não dependa da sobrevivência de uma única ONG. O USA Today usou o arquivo para fazer jornalismo, o jornalismo, agora, precisa fazer algo pelo arquivo.

***

Ramsés Albertoni é Professor da Faculdade de Comunicação da UFJF, Pesquisador de Pós-doutorado em Comunicação (PPGCOM-UFJF), Pós-doutor em Artes (PPGCA-UFF), Doutor em Artes (PPGACL-UFJF), Pesquisador dos Grupos de Pesquisa: Arte & Democracia e Comunicação, Arte e Literacia Midiática.

Tags: inteligência artificial Internet Archive memória digital

Ramsés Albertoni

Ver outras publicações do autor