Friday, 29 de March de 2024 ISSN 1519-7670 - Ano 24 - nº 1281

A voz do futuro

Vlad Sejnoha está falando com a TV outra vez.

É verdade que muita gente faz isto. Mas, no caso dele, há um detalhe: a TV está ouvindo.

“Dragon TV”, diz Sejnoha à tela, “encontre filmes com Meryl Streep”. E eis que surge uma lista de filmes como Entre Dois Amores e Simplesmente Complicado.

“Dragon TV, mude para a CNN”, diz ele. Pronto – o televisor troca de canal.

Sejnoha está num ambiente semelhante a uma sala de estar, mas que, na verdade, é um tipo de laboratório dentro da Nuance Communications, principal expoente da tecnologia de voz e responsável pelo mecanismo de reconhecimento de fala por trás do Siri, o assistente pessoal virtual do iPhone 4S, da Apple.

Aqui, o diretor de tecnologia da empresa e outros executivos criam um futuro ativado pela voz no qual a fala humana suscitará a resposta não apenas de smartphones, televisores, carros e computadores, mas também de cafeteiras, geladeiras, sistemas de aquecimento doméstico, alarmes e outros pequenos aparelhos e eletrodomésticos.

É uma ideia bastante perturbadora. Mas sistemas como estes já estão começando a mudar nossa forma de interagir com o mundo e, para o bem ou para o mal, também nossa maneira de pensar a respeito da tecnologia. Afinal, até o momento nós só conversamos uns com os outros. Como seria se começássemos a falar com máquinas de todo o tipo? E se, como faz o Siri, estas máquinas respondessem como se fossem seres humanos?

Há uma corrida para transformar o reconhecimento da fala na tão buscada nova interface entre os seres humanos e a nossa tecnologia. O resultado pode ser uma ameaça ao mouse do computador e aos ícones gráficos e um desafio para grandes empresas como o Google.

No ramo da tecnologia de voz, nenhum nome é mais forte do que o da Nuance, pioneira da indústria que já adquiriu mais de 40 empresas do ramo e emprega hoje 7.300 funcionários. Trata-se de uma das empresas que ajudaram a tecnologia a saltar dos programas de ditado para os sistemas que são de fato capazes de extrair o significado das palavras e responder a elas. Agora, a Nuance quer ir muito além.

“Eles são equivalentes a empresas como Google, Microsoft e Amazon num nicho tecnológico bem específico”, diz Andrew Rosenberg, professor assistente de ciência da computação na universidade Queens College.

Apego

Como muitas novas tecnologias, os sistemas sofisticados de reconhecimento de voz têm pontos negativos. Alguns especialistas se preocupam com violações da privacidade, enquanto outros se mostram preocupados com o apego cada vez mais forte a dispositivos como os smartphones.

Os humanos são sintonizados à recepção da fala e tendem a responder aos dispositivos como se eles fossem seus interlocutores equivalentes, segundo Sherry Turkle, professora de estudos sociais da ciência e da tecnologia do Massachusetts Institute of Technology (MIT).

“Não estou dizendo que o reconhecimento da fala seja ruim”, diz a professora. “Mas o apego aos objetos deve ser tratado com cuidado.”

Há apenas uma década, assistentes virtuais ativados pela voz pareciam mais próximos da ficção científica do que do universo empresarial. Mas, em 2000, o ex-executivo da Xerox Paul Ricci concluiu que o software de reconhecimento de voz poderia um dia provocar um impacto semelhante ao do mouse e ao do ícone gráfico dos computadores nos anos 80. “Logo no início, tivemos de decidir se haveria mercado para empregar a tecnologia com sucesso”, disse Ricci, que hoje é diretor executivo da Nuance.

Conhecida anteriormente como ScanSoft, a empresa se dedicou a um agressivo frenesi de aquisições. Comprou um sistema de ditado chamado Dragon NaturallySpeaking, bem como dúzias de empresas pequenas de nichos específicos, como de ditados médicos, sistemas automatizados de resposta a comandos de voz e pesquisa de fala.

Sua aquisição mais significativa foi a Nuance, rival que tinha acabado de nascer da SRI International, da Califórnia. A empresa formada a partir das demais incorporou o nome Nuance. E posteriormente, a SRI International desenvolveu e trouxe ao mercado a empresa Siri, comprada pela Apple em 2010.

“Eles tentaram literalmente comprar tudo o que havia de bom no mercado, construindo também os próprios avanços, combinando as tecnologias disponíveis e ampliando suas capacidades”, diz Richard Davis, analista da Canaccord Genuity, a respeito da Nuance.

Privacidade

Nem todos foram seduzidos pela tecnologia de reconhecimento de voz. Alguns defensores da privacidade temem que sistemas do tipo acrescentem um rastro de áudio aos vestígios digitais deixados pelas pessoas quando usam a internet ou os diferentes aplicativos.

Os programas de reconhecimento de voz separam as palavras pronunciadas em ondas sonoras, usando algoritmos para identificar as palavras mais prováveis formadas pelos sons. O sistema registra e armazena a fala para aprender como identificá-las com mais precisão ao longo do tempo. A Nuance, por exemplo, acredita possuir o maior acervo de fala dos Estados Unidos, perdendo apenas para os arquivos do governo.

A empresa diz que é impossível identificar os consumidores a partir das gravações, pois seu sistema reconhece a voz das pessoas por códigos únicos em seus dispositivos, e não por seus nomes. A política de privacidade da empresa diz que ela usa os dados de voz dos consumidores exclusivamente para aprimorar o próprio sistema interno.

“Atualmente, não fazemos ideia de quem sejam os donos das vozes”, diz Peter Mahoney, diretor de marketing da Nuance.

Independentemente de tais garantias, os programas do tipo representam um risco para a privacidade das pessoas, e os reguladores em Washington estão atentos à possibilidade.

“Assim como estamos preocupados com os possíveis usos do reconhecimento facial, há outras formas de identificação biométrica, como a voz, que acarretam o mesmo tipo de problema”, diz David C. Vladeck, diretor de proteção ao consumidor da Comissão Federal de Comércio.

Siri alternativo

“Dragon Go”, diz Sejnoha ao seu iPhone, “quero fazer reservas para três pessoas para amanhã à noite no Craigie on Main”.

Dragon Go é o assistente virtual da Nuance, um aplicativo que foi baixado milhões de vezes desde o lançamento em meados do ano passado. Mas, ao contrário do Siri, o Dragon Go não responde. Sejnoha pedia reservas num restaurante e o aplicativo foi diretamente ao OpenTable, exibindo as opções da reserva.

O Dragon Go é o primeiro aplicativo da Nuance destinado ao consumidor e faz parte de uma jogada para ampliar a visibilidade de seus avanços tecnológicos a consumidores e empresas. Sua verdadeira meta é ainda mais ambiciosa: relativizar a importância dos buscadores na internet.

No caso das perguntas e solicitações mais comuns, o Dragon Go costuma se desviar dos mecanismos de busca, e leva os usuários diretamente aos sites de empresas parceiras da Nuance como Amazon, Expedia e OpenTable. Se o usuário não encontrar o que procura, o Dragon Go oferece uma busca tradicional da web.

Os executivos da Nuance dizem que os consumidores obtêm as respostas mais rapidamente em um número menor de etapas. Em muitos casos, a Nuance cobra uma pequena taxa dos sites parceiros quando as pessoas fazem reservas em restaurantes ou concluem compras.

Concorrente?

O aplicativo pode ser visto como um desafio a empresas como Google e Microsoft, que têm seus próprios produtos de reconhecimento de voz – como o Google Voice Actions e o Microsoft Tellme.

“Se você fosse o Google, estaria pensando: ‘Barbaridade, estamos prestes a sermos eliminados do processo!’”, diz Davis, da Canaccord Genuity.

Um porta-voz do Google não quis comentar a questão. A empresa atualizou recentemente o Google Voice Actions, seu sistema de comandos de voz para Android, que tem um recurso que converte continuamente a fala do usuário em texto. Ele facilita e agiliza a tarefa de ditar e enviar mensagens de texto, fazer buscas no Google em voz alta ou pedir referências de localização.

Lezli Goheen, porta-voz da Microsoft, disse que a empresa tem atendido às expectativas dos usuários por meio de diferentes ferramentas. Além do Tellme, programa incluído em todos os novos produtos Windows que permite ditar mensagens de texto e comandos a aplicativos como agendas, a empresa apresentou o Bing Voice Search, para ditar termos das buscas.

Outras aplicações

Enquanto isso, a Nuance volta sua ambição para o ramo da saúde. Em parceria com a IBM, a empresa desenvolve uma ferramenta capaz de vasculhar as anotações ditadas pelos médicos depois de uma consulta a um paciente.

A ideia é procurar as causas mais comuns de problemas – como remédios com efeitos colaterais perigosos, por exemplo – e alertar os médicos, na esperança de reduzir problemas de saúde e os custos do tratamento.

A medicina não é a única aplicação. Clientes do programa de milhagem da companhia aérea US Airways são chamados pelo próprio nome pelo “Wally”, um sistema interativo para celulares que a Nuance criou para a companhia aérea.

O Wally foi lançado no início do ano passado, como parte da transferência das operações de atendimento ao cliente, antes mantidas no exterior, de volta aos Estados Unidos.

A Nuance projetou o sistema para deduzir as solicitações dos clientes. O Wally pode, por exemplo, dizer automaticamente qual é o número do assento. Além disso, o sistema converte a fala dos clientes em texto, de modo que, se pedirem para falar com um atendente, não seja necessário repetir a solicitação.

Kerry Hester, vice-presidente sênior da companhia, diz que o Wally diminuiu o número de clientes que pedem para falar com atendentes e o tempo médio das chamadas. “Sem isso, teríamos de contratar outros duzentos funcionários”, diz ela.

Sem nunca dar indícios de que é um sistema automatizado, o Wally é tão pessoal que muitas pessoas dizem “obrigado” antes de desligar, conta a executiva.

Mas a falta de transparência incomoda a professora Sherry Turkle, do MIT. Para ela, os sistemas criam a ilusão de que interagimos com outras pessoas, e não com máquinas.

Ela diz que, no longo prazo, a agilidade do uso de tais sistemas pode diminuir o valor do contato humano, mais lento e imperfeito. As pessoas podem se tornar mais conscientes se forem lembradas de que estão falando com máquinas. “É preciso tomar uma decisão cultural”, diz. “Temos de escolher se queremos ou não ser alertados quando estivermos falando com máquinas.”

Disputas

Em 2008, a Nuance processou uma importante rival do mercado da tecnologia de voz, alegando violação de patentes. A empresa em questão, Vlingo, que oferece seus próprios assistentes virtuais em aplicativos para celulares, entrou com uma ação contra a Nuance alegando motivos semelhantes.

No ano passado, um tribunal decidiu que a Vlingo não tinha violado patentes e as empresas chegaram a um acordo. Isto porque em dezembro, a Nuance concordou em comprar a Vlingo por um valor não revelado. A empresa planeja concluir a aquisição no primeiro semestre deste ano.

“Do nosso ponto de vista, a fusão aumenta a capacidade de concorrer com o Google, dono de metade do mercado de smartphones, e com a Microsoft, que inclui aplicativos de voz em seus produtos”, diz David Grannan, diretor executivo da Vlingo.

A Nuance e a Vlingo compartilham a visão de um mundo povoado por assistentes virtuais ativados pela voz e hospedados online, capazes de funcionar em diferentes dispositivos.

Certa tarde no começo do ano, uma equipe de executivos da Vlingo fez uma demonstração do seu sistema de TV ativado por comandos de voz a um repórter no New York Times. Os executivos mostraram uma animação na qual um casal fictício conversava animado com smartphones, tablets, TVs e carros – que respondiam no mesmo tom, alertando o marido para a necessidade de abastecer o carro e dizendo à mulher que seu voo tinha sido cancelado por causa do mau tempo.

“A tecnologia tem avançado no sentido de dar alertas de voz mais enfáticos, para informar o motorista a respeito de um acidente ou outra informação relevante, de um assistente pessoal capaz de pensar nas necessidades do usuário”, diz Grannan.

De volta à falsa sala de estar da Nuance, Sejnoha conclui sua demonstração do Dragon TV, a nova ferramenta da empresa que pode ser incorporada aos televisores com acesso à web. Ela localiza programas específicos por comandos de voz, mas faz também chamadas via Skype e até mesmo compras na Amazon.

A tecnologia deve chegar ao mercado em breve: a LG planeja lançar uma TV com o software da Nuance que permite publicar no Facebook ou no Twitter simplesmente falando com um controle remoto especial.

Sejnoha prevê que, logo, muitos outros aparelhos – e não apenas TVs – passarão a aceitar comandos de voz e a responder aos usuários.

Na Alemanha, os consumidores já podem pedir um cappuccino a uma cafeteira equipada com o software da Nuance – vendida como “a primeira máquina totalmente automatizada capaz de obedecer” à fala. Chamada de Jura Impressa Z7 One Touch Voice, ela fala inglês e alemão.

Já o Dragon TV pode ser encontrado em cerca de uma dúzia de idiomas.

“Dragon TV, mudo”, diz Sejnoha. Silêncio.

“Está vendo como é útil?”

***

[Natasha Singer, do The New York Times]