
(Foto: Divulgação/John Reichertz)
Se você deseja defender seus direitos autorais e proteger seu conteúdo de notícias contra a extração por Inteligência Artificial (IA) e outros, ter metadados seguros anexados ao seu conteúdo é cada vez mais a única opção, pois eles são legíveis por máquinas, podem viajar com o conteúdo para onde quer que ele vá e são exigidos por algumas regulamentações.
A maioria dos produtos de notícias tem alcance global e, em algum momento, atravessa jurisdições, como a Europa, que promulgou regulamentações abrangentes sobre direitos e obrigações de conteúdo, ou são visualizados nos Estados Unidos, onde interpretações legais da lei de direitos autorais estão sendo discutidas nos tribunais para contemplar o ecossistema digital.
Entre as proteções na Europa está uma cláusula forte na Lei de IA da UE, que entrou em vigor em agosto, proibindo a IA de treinar para fins comerciais em conteúdo marcado com uma cláusula de exclusão legível por máquina. Ela também exige que os sistemas de IA documentem as fontes de informação com as quais foram treinados.
Os Estados Unidos trabalham com um modelo de adesão voluntária (opt-in), no qual a proteção de direitos autorais é garantida. Mas, particularmente na indústria jornalística, esse modelo é questionado pelas alegações de “uso justo” nas quais as empresas de IA se baseiam para justificar sua ampla obtenção de notícias da internet, a matéria-prima dos resumos de notícias de IA.
Os metadados são importantes em ambos os regimes, embora por razões diferentes, de acordo com Paul Reinitz, especialista em aspectos legais e comerciais da governança de direitos autorais de IA, que forneceu orientação abrangente para este artigo.
Em um sentido muito prático, saber onde e como o conteúdo é usado e informar claramente a identidade do proprietário pode ajudar a definir o escopo dos danos, bem como os termos de um futuro contrato de licenciamento, disse ele. Também pode ajudar a neutralizar defesas de IA baseadas em argumentos de que era impossível identificar os proprietários do conteúdo ou determinar se o conteúdo estava protegido.
“Agora, a principal conclusão aqui é que a mesma infraestrutura de metadados pode atender a vários requisitos regulatórios simultaneamente”, disse Reinitz em uma reunião recente do Conselho Internacional de Telecomunicações de Imprensa (IPTC). “Seja lidando com requisitos de exclusão da UE, mandatos de divulgação dos EUA ou leis de transparência estaduais, a implementação consistente de metadados fornece uma base que realmente se expande entre jurisdições.”
A crescente importância dos metadados para proteger o conteúdo e garantir a transparência não passou despercebida no setor. Isso impulsionou a criação de diversas soluções por meio de esforços colaborativos entre agentes do setor e empresas de livre mercado, buscando enfrentar os desafios impostos pela gestão de conteúdo digital diante da aspiração massiva e frequentemente indiscriminada de conteúdo por iniciativas de IA, bem como da desinformação e fraudes online.
Grande parte desse esforço está centrada no padrão de procedência digital de código aberto C2PA, apoiado pela Iniciativa de Autenticidade de Conteúdo, com quase 6.000 membros, um esforço colaborativo e multissetorial de participantes do setor. O IPTC fez adaptações para uso no setor de notícias. Uma lista de muitas das soluções disponíveis está listada no final deste artigo.
Reinitz, que entre 2016 e 2024 foi diretor da Getty Images e consultor em questões como conformidade com direitos autorais/IA, disse que uma das principais conclusões é que os metadados são importantes.
“Preserve os metadados como regra e adote os requisitos de transparência”, disse ele. “Acostume-se a assinar conteúdo usando C2PA e, se precisar de ajuda para começar, o IPTC publicou um ótimo guia sobre isso. Em segundo lugar, você precisa desenvolver uma estratégia de scraping e licenciamento.”
O padrão C2PA foi desenvolvido originalmente com o objetivo declarado de combater a desinformação, dando ao público acesso a “rótulos nutricionais” digitais sobre a procedência do conteúdo, restaurando a confiança perdida tanto nas notícias quanto na atividade online em geral.
No entanto, um extenso relatório sobre o C2PA divulgado no início de setembro pelo Fórum Mundial de Privacidade forneceu mais contexto e afirmou que os metadados do C2PA têm vários outros usos.
“Alguns artistas, criadores de conteúdo, marcas de mídia e entretenimento, empresas e agências governamentais desejam usar o C2PA para marcar, rastrear e proteger seu conteúdo, para refletir direitos de propriedade intelectual, para indicar consentimento ou restrições relacionadas a dados de treinamento de IA, ou para ajudar a distinguir seus conteúdos como confiáveis. Esses tipos de usuários do C2PA podem querer incorporar suas identidades aos metadados de procedência do C2PA”, afirmou um relatório do Privacy Forum.
O padrão de procedência também foi criado para “sustentar infraestruturas de mídia digital com dados granulares, automatizados, compartilháveis e legíveis por máquinas, além de sinais de confiança sobre o conteúdo digital e seus criadores. Os dados codificados gerados devem ser prontamente ingeridos, analisados e trocados por todos os sistemas que suportam C2PA, desde pequenas ferramentas de software de código aberto até enormes redes de distribuição de conteúdo em nuvem”, afirma o relatório.
Um relatório recém-lançado pela Copyright Infrastructure Task Force (CITF) da Europa confirmou que a Seção 53 da Lei de IA da UE, que em particular reafirmou o Artigo 4 da Lei de Direitos Autorais do Mercado Único Digital de 2019, elevou a importância dos metadados para defesa e conformidade.
“Na era da IA, modernizar a infraestrutura de direitos autorais é um componente crucial para fazer a lei de direitos autorais funcionar na prática”, de acordo com o relatório, intitulado “Dados de direitos autorais interoperáveis, confiáveis e legíveis por máquina na era da IA ”.
Enquanto a Europa tem sido mais agressiva no estabelecimento de regulamentações relacionadas à defesa de direitos autorais, os Estados Unidos, em nível federal, deixaram muitas decisões relacionadas à IA e à esfera de direitos autorais aos tribunais.
“Mais de 22 processos estão tramitando em tribunais federais”, disse Reinitz em uma entrevista após sua apresentação na reunião do IPTC.
A doutrina do “uso justo”, que permite o uso limitado de material protegido por direitos autorais para notícias, comentários ou relatórios acadêmicos sem o consentimento dos autores, será a principal defesa para as empresas de IA.
“A questão do uso justo dependerá de fatos específicos de cada caso, incluindo quais obras foram usadas, de quais fontes, para quais propósitos e com quais salvaguardas técnicas contra a reprodução de conteúdo protegido por direitos autorais”, disse Reinitz.
Em fevereiro, a Thomson Reuters ganhou um processo de “uso justo” contra a Ross Intelligence, que havia extraído partes específicas do banco de dados Westlaw da empresa. O tribunal concluiu que o uso do conteúdo pela Ross Intelligence não foi suficientemente transformador e tinha natureza comercial.
Nos casos contra a Meta e a Anthropic, os juízes consideraram que o uso de livros para treinamento pela IA foi altamente transformador e, nesse sentido, não contradiz as disposições de “uso justo”. No entanto, no caso da Anthropic, o uso foi considerado infrator com base no fato de a Anthropic ter obtido seus dados de treinamento de um banco de dados de livros pirateados. Isso levou a uma proposta de acordo de US$ 1,5 bilhão.
“Agora, meu palpite é que os casos provavelmente dependerão de como os tribunais lidam com o quarto fator de uso justo, que é o efeito do uso sobre o valor potencial de mercado ou o valor da obra protegida por direitos autorais”, disse Reinitz. “Dito isso, cada caso é muito sensível aos fatos, dificultando a previsão de precedentes legais com certeza.”
Sobre os Estados Unidos, ele disse: “A principal lição aqui, devido à incerteza jurídica, é que há um forte incentivo para que os desenvolvedores de IA obtenham dados de fontes legítimas e licenciem trabalhos protegidos por direitos autorais quando necessário”.
Como mostra o estudo do CITF, ainda há muito trabalho a ser feito para que os metadados funcionem em toda a infraestrutura digital, e não menos importante é alcançar o uso generalizado e aperfeiçoar a tecnologia para garantir que os metadados, ou credenciais de conteúdo, sejam duráveis, resistentes a hackers e/ou remoção.
A falta de uma alternativa e a necessidade urgente de maior certeza em relação a todos os aspectos da origem e natureza do conteúdo são citadas como o principal impulsionador do movimento em direção a um ecossistema digital organizado com metadados, o que explica em grande parte o surgimento de uma variedade de soluções para abordar as questões de direitos autorais e transparência.
Entre os muitos esforços para enfrentar esses desafios estão:
- O padrão de procedência C2PA, de código aberto, foi desenvolvido nos últimos cinco anos pela Coalizão para Proveniência e Autenticidade de Conteúdo. O C2PA permite que a IA gere uma etiqueta segura para ser transparente sobre seu papel na criação de conteúdo. Também permite que os criadores de conteúdo enviem mensagens de cancelamento legíveis por máquina, marquem todo o conteúdo com informações da marca e aprimorem o valor do conteúdo, fornecendo informações detalhadas sobre a origem e o histórico do conteúdo, seja ele capturado da realidade ou sintético, auxiliando no combate à desinformação e à fraude online. O padrão é apoiado por uma comunidade multissetorial de quase 6.000 membros, organizada sob a égide da Iniciativa de Autenticidade de Conteúdo.
- O IPTC, órgão global de padronização para a mídia de notícias, incorporou e adaptou o padrão C2PA especificamente para uso por editores de notícias, incluindo o estabelecimento de uma Lista de Editores de Notícias Verificados de Origem, que ajudará a certificar a função dos membros da lista como provedores de notícias.
- A Cloudflare, rede de dados de conteúdo que gerencia 20% do tráfego digital, tornou-se em fevereiro a primeira provedora a permitir que metadados C2PA permaneçam anexados ao conteúdo. Ela também lançou um recurso para bloquear a coleta não autorizada de conteúdo por IA, bem como uma alternativa que permitiria à IA “pagar por rastreamento” – essencialmente licenciando conteúdo em nome dos proprietários do conteúdo.
- A Real Simple Licensing (RSL) é um padrão da web e uma organização de direitos coletivos que busca automatizar o licenciamento de conteúdo, buscando uma compensação justa para editores e criadores. A RSL foi lançada publicamente em setembro e se baseia no modelo Real Simple Syndication (RSS), estabelecido nos primórdios da internet.
- A IMATAG é uma empresa que fornece serviços de marca d’água digital e foi projetada para proteger conteúdo e ajudar a confirmar a autenticidade. Ela não substitui metadados IPTC, C2PA, RSL ou Cloudflare, mas respalda essas soluções com uma rede de segurança que reúne um arquivo original com seus metadados após estes terem sido removidos, cadeias de procedência terem sido intermediadas ou estruturas de conformidade não terem sido respeitadas.
Este artigo foi traduzido pelo Google Tradutor e revisado pela editora do Observatório da Imprensa, Denize Bacoccina.
***
John Reichertz é Consultor na América Latina da Iniciativa de Autenticidade de Conteúdo.
