Sunday, 28 de April de 2024 ISSN 1519-7670 - Ano 24 - nº 1285

Como a TI ajuda as agências de inteligência

Há cinco anos, teria sido impensável para um órgão do governo dos Estados Unidos como a Agência de Segurança Nacional (NSA, na sigla em inglês) perscrutar de forma eficiente milhões de telefones, mensagens de texto e conversas on-line à procura de palavras-chave que pudessem indicar um iminente ataque terrorista. Hoje, um conjunto de novas tecnologias torna isso relativamente possível e gerenciável.

Essas tecnologias podem armazenar tipos muito variados de informações em um único banco de dados e podem rapidamente processá-las usando um equipamento de baixo custo, sem que um analista tenha que formular uma hipótese.

Não está claro exatamente que tipo de computação a NSA está usando nos seus centros de banco de dados nos EUA ou na sua unidade de US$ 1,2 bilhão no Estado de Utah, que será inaugurada no segundo semestre.

Mas, em termos gerais, a tecnologia pode ser dividida em três categorias:

>> Sistemas de bancos de dados – bancos de dados tradicionais, normalmente escritos com uma linguagem conhecida como SQL (linguagem de consulta estruturada, em inglês), armazenam dados em tabelas, colunas e linhas, mas são limitados quando se trata de armazenar séries de palavras como as que constam em e-mails ou mensagens de texto. Eles também não são capazes de manter imagens ou vídeo.

Novos tipos de bancos de dados que surgiram a partir do fim de 2009, como MongoDB, Cassandra e Simple DB, não têm essas limitações e permitem que analistas criem formas de pesquisar todos esses dados.

Esses bancos de dados, conhecidos coletivamente como NoSQL (não apenas SQL), podem fazer uma enorme diferença para as companhias que analisam conjuntos de dados muito grandes, mesmo que eles sejam basicamente convencionais. Os analistas da consultoria de risco Verisk Analytics, por exemplo, estão constantemente executando vários modelos e análises em bilhões de registros com o objetivo de ajudar seguradoras a identificar solicitações fraudulentas de sinistro de seguro.

Perry Rotella, vice-presidente e diretor de tecnologia da informação da Verisk, disse que, se fosse usado um banco de dados DB2 tradicional da IBM, “o trabalho levaria seis horas” e teria que ser feito durante a noite. Os analistas teriam que estudar minuciosamente os resultados e elaborar novas pesquisas, que teriam novamente de ser executadas à noite. Ele disse que os analistas levavam semanas para elaborar um novo modelo estatístico toda vez que precisavam. A empresa recentemente migrou para o banco de dados NoSQL, que permite que os analistas executem o mesmo tipo de consulta em 30 segundos.

Para empresas on-line, como a agência de bancos de fotografias Shutterstock, que armazena uma grande variedade de arquivos, é difícil imaginar como seria o seu dia a dia sem essa tecnologia. A Shutterstock tem em seu acervo mais de 24 milhões de imagens e recebe outras 10 mil por dia, sendo que cada arquivo conta com dados que ajudam a restringir a busca. Seus bancos de dados também registram o comportamento dos seus usuários no site – não apenas informações sobre quais imagens eles licenciaram, mas também detalhes minuciosos sobre onde eles colocaram o cursor.

>> Aprendizagem de máquina –Antigamente, os analistas precisavam ter conhecimento suficiente de dados para elaborar uma hipótese e então criar consultas complexas para serem executadas nos bancos de dados.

Programas desenvolvidos recentemente, conhecidos como processamento de linguagem natural e aprendizagem de máquina, dependem dos próprios programas de computador para encontrar padrões e até compreender o significado de palavras ambíguas de acordo com o contexto.

Com o processamento de linguagem natural, “você pode descobrir se um termo como 'bomba' está sendo usado para descrever uma peça de teatro ou algo que um terrorista poderia usar”, disse Tom Davenport, especialista em analítica da Faculdade de Administração de Harvard.

>> Hadoop – Até recentemente, complexos programas de computadores precisavam ser executados em equipamentos caros, como os enormes computadores do tipo mainframe.

Hoje, uma estrutura de software de código aberto chamada Hadoop – que foi desenvolvida pelo Yahoo e contou com contribuições de uma tecnologia desenvolvida pelo Google – permite que as consultas sejam divididas pelo programa.

Tarefas analíticas diferentes são distribuídas entre muitos servidores de baixo custo, sendo que cada um deles resolve uma parte do quebra-cabeça antes de reagrupar as consultas quando o trabalho é concluído. “É realmente barato e realmente rápido”, disse Davenport.

A capacidade de distribuir pesquisas complexas para um grande número de computadores baratos ajuda as pessoas a obterem respostas rápidas para questões complicadas com muitas variáveis.

A empresa on-line do setor automotivo Edmunds.com, por exemplo, pode ajudar as concessionárias de automóveis a preverem por quanto tempo um modelo de carro específico vai permanecer nos pátios ao associar marcas, modelos e acessórios ao número médio de dias que um carro na mesma faixa de preço leva para ser vendido em concessionárias de uma dada região. (ColaboraramSteven Rosenbush eClint Boulton)

******

Michael Hickins, do Wall Street Journal