Vox Ex Machina

Talvez a tecnologia mais promissora e menos adotada em termos de interface é o comando de voz. Por décadas foi a mais explorada nos filmes de ficção cientifica, afinal é muito mais simples do ponto de vista dramático mostrar o herói conversando normalmente com o computador. Uma série de comandos digitados não tem nenhuma graça.
O curioso é que embora funciona muito bem em filmes, na prática só usa comando de voz quem tem necessidade, como portadores de deficiências e pilotos de caça. Qual o motivo?
Várias pessoas já disseram que falar com um computador é algo que as faria se sentir idiotas. A idéia de conversar com um ser artificial dotado de inteligência extremamente limitada e nenhuma noção do mundo que a cerca não é atraente, mas nem por isso você deixa de falar com seu cunhado.
Nós falamos com animais, que nos dão uma resposta verbalmente limitada, no caso de cachorros, ou nos ignoram totalmente, no caso de gatos. Nós falamos com carros, aviões e personagens de videogames. A diferença é que não esperamos uma resposta.
A capacidade de compreensão é menos importante que a sensação de entendimento. Um sistema de reconhecimento de voz que acerte 98% das vezes mas seja mecânico em suas respostas fará com que o usuário se sinta idiota, “falando com uma máquina”. Um sistema com 90% de acerto mas que se comporte de forma emocional, errática e humana seria muito mais aceito.
Outro grande problema: um computador faz o que você manda, não o que você quer que ele faça. Isso significa que seus comandos devem ser precisos e detalhados. Algo que via teclado e mouse não é problema mas via voz é uma chatice só.
Seu computador não entende “toque o último Big Bang Theory”. Na verdade mesmo humanos têm dificuldades em entender esses conceitos complexos. Quando comento no Twitter que o último episódio de uma série foi excelente sempre aparece gente para perguntar qual foi o último.
Associação de idéias é essencial para um diálogo ser considerado inteligente, e computadores são péssimos nisso. Computadores são extremamente burros e ninguém gosta de lidar com gente burra. Ao mudarmos a interface do teclado para a voz o computador deixa de ser uma ferramenta, que tem direito constitucional de ser burra, e se torna “algo que fala”. O nível de exigência muda.
Nenhum geek que se preza se sentiria idiota conversando com HAL9000. Bolas, nós adoraríamos conversar com o R2-D2, uma lata de lixo com capacidade verbal de um microondas. Qual o segredo? R2 compreende o que está ouvindo, ou ao menos finge muito bem, igual a homens quando a mulher querer discutir a relação.
Sabem onde a tecnologia de comandos de voz está sendo melhor aceita? Videogames. Motivo? Eles reagem de forma “emocional”. Há jogos simuladores de submarinos onde boa parte dos comandos pode ser falada (ou melhor, gritada) e no meio do pega-pra-capar faz todo o sentido do mundo comandar “mergulhar! Mergulhar!” ao invés de apertar shift-D.
Vejam o Kinectimals, do Xbox 360 + Kinect. Fugiu de todo o problema do Vale da Estranheza, criou bichinhos que interagem e reagem a voz e “toque”. Pombas, o leãozinho aprende e reage ao próprio nome! Gosto muito de ver:
Depois de 5 minutos brincando com o Kinectimals você se sentirá ofendido se alguém lembrar que aquilo não passa de um software.
A relação emocional criada pela interação serve inclusive para “acobertar” erros, somos muito mais propensos a perdoar falhas de quem gostamos. Uma tela azul no aeroporto é Epic FAIL, meu iPhone louco invertendo metade da tela? É engraçadinho.
O comando de voz um dia será a principal forma de interação homem/máquina, mas só depois dessas últimas atingirem um nível de inteligência e compreensão acima dos fãs do Justino Bieber ou dos fungos superiores.
De resto, todas as atividades que até eu considero idiotas quando feitas via voz com computadores são perfeitamente normais quando envolvem humanos. Por décadas executivos ditaram cartas para as secretárias e nem por isso esses homens foram chamados de loucos.
4 abril, 2011 as 10:06
Há um motivo muito mais prosaico. Trabalho em uma sala com mais 4 pessoas, em mesas sem divisórias (não algo como um call center). Nosso trabalho é de desenvolvimento, o que exige concentração. Você acha que seria viável cinco pessoas em uma sala falando o tempo inteiro para interagir com o computador em um trabalho onde se exige concentração? Não adianta, não dá! Prefiro os comandos por teclado e mouse, que são silenciosos e não atrapalham ninguém. E assim como o meu caso, existem milhares de outros semelhantes. Comandos por voz podem ser eficientes para quem usa a máquina, mas extremamente inconvenientes para quem divide o mesmo espaço com quem está usando a máquina.
18 abril, 2011 as 23:59
Concordo com o Rogério, em partes pelo menos. Em vários momentos é melhor não usarmos a voz, um exemplo clássico é digitar a senha do banco utilizando interfaces de voz… seria bem contra-produtivo no que tange segurança…
Porém, é necessário não generalizar…
Do mesmo jeito que eu trabalho em uma sala com outras 30 pessoas, todas programando/estudando/fazendo algo relativo ao pensar, sem divisória nenhuma, a conversa rolando solta sem que ninguém reclame (explicitamente, pelo menos) (não, não é um call center), eu não gostaria de ter que usar comandos de voz, até pq a conversa de um atrapalharia os comandos do outro.
Agora, quando eu chego em casa eu gostaria de pedir que para acender as luzes, saber o que tem na geladeira sem ter que abri-la e caso não tenha algo que eu queira pedir o telefone da pizzaria mais próxima e já ligar para lá e colocar em viva voz (talvez até fazer o pedido via internet)… Contexto é algo de extrema importância e sempre deve ser levado em consideração…