
(Foto: Markus Winkler/Pexels)
Pesquisa publicada pelo Oxford Internet Institute da Universidade de Oxford, em colaboração com a University of Kentucky, em 20 de janeiro de 2026, evidenciou que o ChatGPT apresenta viés sistemático favorável a regiões ocidentais economicamente desenvolvidas quando responde a perguntas que abrangem desde “Onde as pessoas são mais bonitas?” até “Qual país é mais seguro?”, reproduzindo preconceitos historicamente consolidados nos dados que alimentam esses sistemas (https://www.ox.ac.uk/news/2026-01-20-new-study-finds-chatgpt-amplifies-global-inequalities).
A divulgação da investigação empírica sobre vieses sistemáticos em modelos de Linguagem de Larga Escala (LLMs) constitui marco significativo na compreensão das dinâmicas de poder subjacentes à infraestrutura informacional algorítmica contemporânea. O estudo, conduzido por Francisco Kerche, Matthew Zook e Mark Graham e publicado na revista Platforms and Society, analisou 20,3 milhões de consultas ao ChatGPT, evidenciando padrões sistemáticos de favorecimento a regiões economicamente desenvolvidas do Hemisfério Norte em detrimento de áreas periféricas, particularmente África, Oriente Médio e América Latina. A reportagem subsequente da Folha de S. Paulo sobre a reprodução de estereótipos regionais no Brasil ilustra manifestações locais de processos estruturais globais que demandam análise crítica, especialmente no que concerne ao papel da imprensa como mediadora dessas tecnologias.
A problemática central transcende a questão técnica de mitigação de vieses para situar-se no campo da economia política da informação. A narrativa dominante que enquadra esses padrões como bugs passíveis de correção técnica obscurece dimensões estruturais fundamentais, pois os LLMs operam mediante apropriação massiva de produção intelectual global não remunerada, processada segundo arquiteturas de otimização desenvolvidas no Vale do Silício, gerando outputs que naturalizam hierarquias históricas de poder. Esse processo configura nova modalidade de extrativismo, o extrativismo algorítmico, análogo às dinâmicas coloniais de extração de recursos da periferia, processamento no centro e reimposição dos produtos como soluções tecnológicas universais.
A pesquisa identifica cinco tipos de vieses interconectados – disponibilidade, padrão, média, tropo e proxy – que conjuntamente explicam por que regiões com maior produção textual em língua inglesa e visibilidade digital recebem classificações sistematicamente superiores. Contudo, essa tipologia, embora metodologicamente rigorosa, requer complementação mediante análise das condições materiais de produção dessa assimetria informacional. A geografia dos dados não é acidental, mas reflete séculos de produção desigual de conhecimento, infraestrutura de conectividade concentrada no Norte Global, e dominância linguística anglófona que marginaliza não apenas línguas minoritárias, mas variações regionais de línguas majoritárias. No contexto brasileiro, isso implica que o português utilizado no Sudeste, região de maior densidade econômica e produção midiática, possui maior representatividade nos corpora de treinamento do que variações nordestinas, amazônicas ou sulistas, perpetuando hierarquias internas que espelham desigualdades socioeconômicas históricas.
A imprensa ocupa posição paradoxal nessa configuração, já que, por um lado, constitui fonte primária dos corpora que alimentam os LLMs, já que arquivos digitais de jornais, revistas e agências de notícias representam parcela substancial dos dados de treinamento. Por outro, encontra-se crescentemente ameaçada por essas mesmas tecnologias, tanto economicamente quanto epistemologicamente. A apropriação não remunerada de conteúdo jornalístico para treinamento de modelos proprietários configura transferência massiva de valor do trabalho intelectual para corporações tecnológicas, enquanto a competição com conteúdo gerado algoritmicamente pressiona modelos de negócio já fragilizados. O processo movido pelo The New York Times contra a OpenAI por violação de direitos autorais não representa tecnofobia, mas resistência a modelo extrativista que privatiza conhecimento coletivo.
Mais significativo que a questão da apropriação de conteúdo é o risco de erosão da função epistêmica do jornalismo. A autoridade jornalística se fundamenta em processos de verificação, contextualização e interpretação que envolvem julgamento editorial humano, mediado por normas profissionais e accountability institucional. Sistemas algorítmicos que sintetizam informações de múltiplas fontes sem transparência metodológica, hierarquização editorial ou responsabilização por erros operam segundo lógica radicalmente distinta. Quando usuários recorrem a LLMs para obtenção de informações sobre eventos correntes, políticas públicas ou questões sociais, há deslocamento da mediação jornalística profissional para mediação algorítmica opaca, com implicações democráticas substantivas. O problema se intensifica quando esses sistemas reproduzem estereótipos que o jornalismo de qualidade deveria precisamente desafiar.
A reportagem da Folha, baseada na pesquisa de Kerche, Zook e Graham sobre estereótipos regionais, ilustra o papel crítico do jornalismo em tornar visível o funcionamento de sistemas algorítmicos opacos. Contudo, a cobertura jornalística sobre Inteligência Artificial frequentemente recai em limitações características, foca em casos individuais espetaculares em detrimento de análises estruturais, com reprodução acrítica de narrativas corporativas sobre IA responsável e mitigação de vieses, e insuficiente contextualização das dimensões geopolíticas da concentração tecnológica. Reportagens que denunciam vieses algorítmicos cumprem função informativa importante, porém, permanecem insuficientes se não articuladas a análises sistemáticas sobre quem controla a infraestrutura algorítmica globalmente e no Brasil, como os algoritmos afetam mercados de trabalho em diferentes setores, que alternativas públicas ou cooperativas existem, como outros países regulam o desenvolvimento e a implantação de IA, quem captura valor econômico da automação e quem arca com os custos sociais.
A questão da regulação emerge como imperativo urgente. A União Europeia, mediante o AI Act, estabeleceu precedente significativo ao impor obrigações de transparência, auditoria e responsabilização a desenvolvedores de sistemas algorítmicos. O Brasil carece de marco regulatório equivalente, permanecendo vulnerável a implementação de tecnologias desenvolvidas segundo prioridades alheias. A regulação efetiva deveria abranger transparência obrigatória sobre composição e proveniência geográfica dos dados de treinamento, direito de auditoria independente de sistemas que afetam direitos fundamentais, mecanismos de responsabilização por danos causados por outputs algorítmicos, proteção de trabalhadores afetados por automação e restrições ao uso de algoritmos proprietários opacos em serviços públicos essenciais como justiça, saúde e educação.
Contudo, a regulação isolada se mostra insuficiente diante de assimetrias estruturais de capacidade tecnológica. O Brasil carece de alternativas soberanas aos LLMs desenvolvidos por corporações estrangeiras, perpetuando dependência tecnológica que replica padrões históricos. Iniciativas como a BLOOM – modelo multilíngue desenvolvido colaborativamente por centenas de pesquisadores, incluindo brasileiros – demonstram viabilidade técnica de alternativas baseadas em cooperação científica internacional e governança democrática. Porém, essas iniciativas enfrentam assimetrias brutais de recursos, pois o treinamento de modelos competitivos demanda investimentos da ordem de dezenas de milhões de dólares e infraestrutura computacional de escala industrial. Universidades brasileiras, INPE, Embrapa e outros centros de pesquisa possuem capacidade técnica para desenvolver modelos voltados a prioridades nacionais – processamento de variações regionais do português, conhecimento sobre biodiversidade amazônica, dados epidemiológicos, monitoramento ambiental –, mas carecem de financiamento público robusto e coordenação interinstitucional.
A imprensa possui responsabilidade particular na cobertura dessa disputa tecnopolítica. Primeiro, porque veículos jornalísticos são simultaneamente produtores de conteúdo apropriado por LLMs e potenciais usuários dessas tecnologias, enfrentando pressão crescente para automação de tarefas jornalísticas. Segundo, porque a mediação jornalística profissional constitui antídoto necessário à proliferação de sínteses algorítmicas não verificadas. Terceiro, porque o jornalismo pode exercer função crítica de escrutínio público sobre desenvolvimento e implantação de sistemas algorítmicos que afetam milhões de pessoas sem possibilidade de auditoria cidadã.
Esse escrutínio demanda sofisticação técnica crescente de jornalistas, capacidade de interpretar estudos acadêmicos sobre IA e articulação de redes de fontes especializadas que incluam não apenas desenvolvedores e executivos corporativos, mas pesquisadores críticos, trabalhadores afetados por automação, comunidades marginalizadas prejudicadas por vieses algorítmicos e formuladores de políticas públicas. Requer ainda disposição para cobrir dimensões estruturais menos espetaculares, como concentração de propriedade na infraestrutura de IA, fluxos financeiros de investimento em startups algorítmicas, lobby corporativo sobre marcos regulatórios, transferência de recursos públicos para empresas privadas via contratos de serviços de IA.
Paralelamente, a imprensa enfrenta a urgência de repensar seu próprio modelo de negócio diante da concorrência algorítmica. Sindicatos de jornalistas em diversos países têm demandado licenciamento coletivo de arquivos jornalísticos para treinamento de IA, reconhecendo que negociações individuais por veículos reproduzem assimetrias de poder. Consórcios de veículos regionais poderiam negociar coletivamente com desenvolvedores de LLMs, garantindo remuneração justa e controle sobre uso de conteúdo. Alternativamente, veículos poderiam investir em desenvolvimento de ferramentas algorítmicas próprias, mantendo controle sobre tecnologias que afetam diretamente seu trabalho, uma estratégia que demanda recursos substanciais, mas pode ser viável mediante cooperação interinstitucional e financiamento público para inovação jornalística.
A dimensão pedagógica não deve ser subestimada, haja vista que parcela significativa da população utiliza LLMs sem compreensão clara de como esses sistemas operam, quais suas limitações e que vieses reproduzem. A imprensa pode exercer função educativa ao explicar não apenas casos específicos de vieses algorítmicos, mas princípios fundamentais de funcionamento dessas tecnologias, natureza estatística de seus outputs, opacidade de seus processos decisórios, e implicações de delegar julgamentos complexos a sistemas automatizados. Essa alfabetização algorítmica constitui pré-requisito para a cidadania informada em sociedades crescentemente mediadas por IA.
O caso brasileiro possui particularidades que merecem atenção, pois desigualdades regionais profundas – Nordeste com PIB per capita de menos da metade do Sudeste, Norte com déficits infraestruturais substanciais – se manifestam em produção desigual de conteúdo digital. Os grandes veículos jornalísticos se concentram em São Paulo e Rio de Janeiro, a cobertura de regiões periféricas tende a reproduzir estereótipos consolidados, as variações regionais do português são sub-representadas em corpora textuais. Quando LLMs treinados nesses corpora reproduzem vieses, não estão simplesmente errando, estão amplificando assimetrias informacionais reais que a própria imprensa contribuiu historicamente para construir.
Essa constatação impõe reflexão autocrítica à profissão jornalística, pois se os algoritmos reproduzem estereótipos regionais é porque foram treinados em textos que continham esses estereótipos, assim, cabe questionar as responsabilidades da imprensa na perpetuação desses padrões. Coberturas sensacionalistas de violência urbana que associam criminalidade a regiões específicas, reportagens sobre pobreza que enfatizam carências sem contextualizar causas estruturais, representações folclorizadas de culturas regionais que reforçam exotização, todos esses padrões jornalísticos problemáticos se tornam dados de treinamento que os algoritmos processam e reproduzem em escala amplificada. A crítica aos vieses algorítmicos deve, portanto, se articular à crítica dos vieses jornalísticos que os alimentaram.
Perspectivas futuras apontam para a intensificação dessas tensões. Modelos de IA generativa tornam-se progressivamente mais sofisticados, barateiam custos de produção de conteúdo textual e se expandem para novos domínios, vídeo, áudio, imagens. A capacidade de gerar reportagens automatizadas, sintetizar informações de múltiplas fontes e personalizar conteúdo para audiências segmentadas representa simultaneamente ameaça e oportunidade para o jornalismo. A ameaça reside na substituição de trabalho jornalístico qualificado por outputs algorítmicos de baixo custo e qualidade questionável. A oportunidade emerge se essas ferramentas forem apropriadas criticamente como auxiliares que liberam jornalistas de tarefas rotineiras para investir em reportagem investigativa, análise contextual e curadoria editorial, funções que demandam julgamento humano informado e não são facilmente automatizáveis.
A escolha entre esses cenários não é tecnicamente determinada, mas politicamente disputada. Depende de marcos regulatórios que estabeleçam limites à automação jornalística, organização trabalhista que proteja profissionais contra precarização algorítmica, investimento público em alternativas tecnológicas soberanas, e resistência coletiva à narrativa de inevitabilidade tecnológica propagada por corporações interessadas em naturalizar concentração de poder.
Em síntese, a problemática dos vieses algorítmicos em LLMs transcende a correção técnica para se situar no campo da disputa política sobre controle de infraestrutura informacional crítica. Para a imprensa, essa disputa possui implicações existenciais que demandam resposta articulada em múltiplas frentes, tais como cobertura crítica e sistemática do desenvolvimento algorítmico e suas implicações sociais; organização coletiva para a proteção de interesses profissionais e garantia de remuneração justa; investimento em alfabetização algorítmica de audiências; reflexão autocrítica sobre padrões jornalísticos que alimentaram vieses agora automatizados; e participação ativa no debate público sobre regulação e governança democrática de sistemas algorítmicos. O momento exige que o jornalismo vá além da denúncia de casos individuais para assumir papel protagonista na construção de alternativas que subordinem desenvolvimento tecnológico a prioridades democráticas e justiça social. O futuro da informação pública está em disputa, e a imprensa não pode permanecer espectadora dessa transformação que afeta diretamente suas condições de existência e sua função democrática fundamental.
***
Ramsés Albertoni é professor de Artes, Pesquisador de Pós-doutorado em Artes (PPGCA-UFF), Doutor em Artes (PPGACL-UFJF), Pesquisador do Grupo de Pesquisa Arte & Democracia.
