Thursday, 25 de April de 2024 ISSN 1519-7670 - Ano 24 - nº 1284

Os limites da garimpagem de dados na internet

Web scraping é uma técnica usada para extrair dados e informações contidas em websites. Como expliquei na primeira parte deste artigo, web scraping é usado por muitas empresas. Também é uma ótima ferramenta para repórteres que saibam usá-la porque é cada vez maior o número de instituições que publicam dados relevantes em suas páginas na web.

Com a técnica dos web scrapers, também conhecidos como bots, é possível coletar grandes quantidades de dados para matérias jornalísticas. Eu, por exemplo, criei um bot para comparar os preços do álcool de Québec com os de Ontario [duas das principais cidades canadenses]. Meu colega Florent Daudens, que também trabalha para a Radio-Canada, usou um web scraper para comparar os preços de aluguel de vários bairros de Montreal com os de anúncios de Kijiji.

Mas quais são as normas de ética que os repórteres devem seguir quando utilizarem web scraping?

Essas normas são particularmente importantes porque, para pessoas sem uma minima intimidade com a internet, web scraping pode parecer pirataria. Infelizmente, nem o Código de Ética da Federação Profissional dos Jornalistas, nem as orientações sobre ética da Associação Canadense de Jornalistas dão uma resposta clara a esta questão.

Portanto, fiz algumas perguntas a vários colegas que são repórteres de dados e procurei algumas respostas por minha própria conta.

Dados públicos, ou não?

Este é o primeiro consenso por parte dos repórteres de dados: se uma instituição publica dados em seu website, esses dados são automaticamente públicos.

Cédric Sam trabalha para o South China Morning Post, em Hong Kong. Também já trabalhou no jornal La Presse e na Radio-Canada. “Eu uso web scraping quase todos os dias”, diz ele. Para ele, os bots são tão responsáveis pelas informações recolhidas quanto os humanos que os criaram. “Se é um humano que copia e cola as informações, ou se um humano codifica um computador para fazê-lo, dá na mesma. É como se você contratasse mil pessoas que trabalhariam para você. O resultado é o mesmo.”

Entretanto, os computadores do governo também guardam informações pessoais sobre os cidadãos. “A maioria dessas informações é escondida porque de outra forma estaria violando as leis de privacidade”, diz William Wolfe-Wylie, um desenvolvedor de programas da Canadian Broadcasting Corporation – CBC e professor de Jornalismo na Universidade de Toronto. E aqui está um limite muito importante entre web scraping e pirataria: o respeito à legislação. Os repórteres não deveriam bisbilhotar informações que gozam de proteção. Se um usuário comum não as pode acessar, os jornalistas não deveriam tentar obtê-las. “É muito importante que os repórteres reconheçam essas barreiras legais, que são legítimas, e as respeitem”, diz William Wolfe-Wylie.

Roberto Rocha, que até recentemente era repórter de dados para a Montreal Gazette, acrescenta que os jornalistas deveriam ler sempre os termos e condições de uso de cada página web para evitar problemas.

Outro detalhe importante a ser verificado é o arquivo  robots.txt.file, que pode ser encontrado nas páginas website e informa o que é e o que não é permitido extrair ou fazer scraping. Por exemplo, este é o arquivo do Royal Bank of Canada com as restrições a bots externos (user-agents) :

Arquivo RBC

Bloqueio de bots (user agent) inserido na estrutura da pagina web do Royal Bank of Canada

Você se identifica, ou não?

Se você é um repórter e quer fazer algumas perguntas, a primeira coisa a fazer é apresentar-se e dizer qual a matéria que pretende fazer. Mas o que deveria acontecer quando você  usa um bot para pesquisar ou enviar perguntas a um provedor ou a um banco de dados? A norma deveria ser a mesma?

Para Glen McGregor, repórter de assuntos nacionais do Ottawa Citizen, a resposta é positiva. “Quando se trata de matérias com cabeçalho http, ponho meu nome, o número de meu telefone e uma nota dizendo: ‘Sou um repórter e estou extraindo dados desta página. Se você tiver problemas ou preocupações com isso, ligue para mim.’ Portanto, se o gerenciador da internet perceber, de repente, um enorme volume de problemas em seu website, se assustar e pensar que está sendo atacado, ele pode verificar quem o está fazendo. Verá minha nota e meu número de telefone. Acho que é uma coisa ética importante que deve ser feita.”

Jean-Hugues Roy, professor de Jornalismo na Universidade do Québec em Montréal, que também usa o web scraper, concorda. Mas nem todo mundo pensa assim. Philippe Gohier, editor-chefe da versão digital do jornal L’Actualité, faz o possível para não ser identificado. “Às vezes, eu uso pseudônimos”, diz ele. “Mudo meu endereço IP, assim como os cabeçalhos, para que pareça um ser humano, e não um bot. Tento respeitar as normas, mas também tento não ser detectado.”

Quando você não se identifica ao extrair dados de um website, isso é comparável, de certa forma, a fazer entrevistas com uma câmera ou um microfone escondidos. O Código de Ética da Federação Profissional dos Jornalistas de Québec tem algumas normas a este respeito.

4 a) Procedimentos clandestinos

Em alguns casos, é justificável que os jornalistas obtenham a informação que procuram por meios clandestinos: nomes falsos, microfones e câmeras escondidos, informações imprecisas sobre os objetivos de suas reportagens, espionagem, infiltração…

Esses métodos devem sempre ser a exceção à regra. E os jornalistas os usam quando:

– A informação procurada é, definitivamente, de interesse público. Por exemplo, casos em que ações sociais condenáveis devem ser expostas;

– A informação não pode ser obtida ou checada por outros meios, ou estes já foram utilizados sem sucesso;

– O benefício do público é maior que qualquer inconveniência individual.

– O público deve ser informado sobre os métodos utilizados.

De uma maneira geral, a melhor prática consistiria em você se identificar, mesmo que seja um bot que faz todo o trabalho. Entretanto, você deve ser mais discreto se a instituição à qual foi feita a pergunta ou consulta tiver a possibilidade de alterar as condições de acesso às informações contidas em sua página, caso ela descobrir que o interessado é um repórter.

E quanto àqueles que têm medo de ser bloqueados se você se identificar como repórter, não se preocupe; é bastante fácil mudar seu endereço de IP.

Para alguns repórteres, a melhor prática é perguntar sobre as informações antes de usar o web scraping. Para eles, só depois de uma recusa é que o web scraping deveria ser uma opção. Este tópico, interessante, tem uma vantagem: se a instituição responder rapidamente dando os dados solicitados, você não perderá tempo.

Publicar o seu código ou não?

A transparência é outro aspecto muito importante do jornalismo. Sem ela, o público não confiaria no trabalho dos repórteres. Segundo o Código de Ética da Federação dos Jornalistas Profissionais do Quebec, ao coletar informações, os jornalistas devem exercer sua profissão de uma maneira aberta, identificando claramente a informação obtida por métodos jornalísticos: entrevistas, bibliografia, contatos etc.  Essa atitude de transparência mostra que seus repórteres se baseiam em fatos concretos, que o público pode verificar, se quiser. E quanto ao código fonte do bot usado para pesquisar dados na internet?

Um erro numa mensagem feita pelo web scraper , pode distorcer completamente a análise dos dados obtidos. Portanto, o código fonte de um bot, ou web scrapper, também deveria ser público?

Para os softwares de fontes abertas, revelar o código fonte é obrigatório. O principal motivo é permitir que outros programadores aperfeiçoem o software, assim como garantir aos usuários a confiança para checarem o que o software está fazendo em detalhes.

No entanto, a divulgação do código fonte do bot é u ma opção difícil para muitos repórteres. “De alguma maneira, nós somos quase empresas”, diz Cédric Sam. “Eu acho que se você tem uma meta competitiva e se, você deveria mantê-la. Você não pode revelar tudo o tempo todo.

Para Roberto Rocha, o código fonte não deveria ser divulgado. No entanto, Rocha tem uma conta no GitHub [serviço de hospedagem na web compartilhado] onde publica alguns de seus textos, assim como o fazem Chad Skelton, Jean-Hughes Roy e Philippe Gohier. “Na verdade, eu acho que a maré sobe para todos os barcos”, disse Gohier. “Quando mais compartilhamos textos e tecnologia, mais estaremos ajudando todo mundo. Não estou fazendo algo que alguém não consiga fazer, com algum esforço. Não estou reformatando o mundo.”

Jean-Hugues Roy concorda e acrescentou que os jornalistas deveriam permitir que outras pessoas replicassem seus trabalhos, como fazem os cientistas ao publicarem sua metodologia. Entretanto, o professor especifica que existem exceções. Atualmente, Roy está trabalhando num bot que iria extrair informações da SouthEast Data, Assessment, and Review – Sedar, onde são divulgados documentos de empresas comerciais canadenses. “Normalmente, eu publico meu código, mas quanto a este, não sei. É complicado e eu dediquei muito tempo a ele.”

Por seu lado, Glen McGregor não publica seus textos, mas os envia se alguém os solicitar.

Quando um repórter tem uma fonte, sempre fará o possível para protegê-la. E ele o fará para ganhar a confiança de sua fonte, da qual espera obter informações mais delicadas. Mas o repórter também o faz para manter a fonte  exclusivamente para si. Portanto, no final de tudo, um web scraper pode ser considerado uma versão bot de uma fonte. Outra questão a levar em consideração é se os bots dos repórteres futuramente serão patenteados.

Quem sabe? Talvez um dia um repórter se recuse a revelar seu código da mesma maneira que Daniel Leblanc se recusou a revelar a identidade de sua fonte chamada “Ma Chouette”.

Afinal, nos últimos tempos os bots estão começando a se parecer cada vez mais com humanos.

Nota: isto é mais um detalhe técnico do que um dilema ética, mas respeitar a infraestrutura da web é, naturalmente, outra regra de ouro do web scraping. Dê sempre alguns segundos entre os pedidos que recebe e não sobrecarregue os provedores.

***

Nael Shiab é formado em jornalismo digital