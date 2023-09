O ChatGPT agora pode receber comandos de voz e por imagens. As atualizações foram apresentadas pela OpenAI nesta segunda-feira (25) em uma postagem no X (antigo Twitter ) e devem chegar aos assinantes do serviço Plus nas próximas semanas. A previsão é de que os recursos também se estendam à versão gratuita em um futuro breve. Com as novas configurações, o ChatGPT permitirá que o usuário grave mensagens em áudio pelo aplicativo , disponível para dispositivos Android e iPhone ( iOS ), e, na sequência, transcreverá o conteúdo e lerá a conversa em voz alta. O chatbot também poderá identificar elementos presentes em uma imagem e ainda contará com ferramentas de desenho para intervenções nas fotos.

É fake? Como saber se uma mídia foi gerada por inteligência artificial

A novidade foi divulgada no mesmo dia em que a Amazon se comprometeu a investir até US$ 4 bilhões na Anthropic, startup fundada por ex-funcionários da OpenAI. Mas a disputa entre as gigantes da tecnologia – que inclui outros adversários poderosos, como o Google, a Meta e a Microsoft – está apenas começando. Confira, a seguir, como funcionam os comandos de voz e imagem na nova versão do ChatGPT.

ChatGPT agora conta com comandos de voz e imagens — Foto: Markus Mainka/Shutterstock

Comandos de voz no ChatGPT

ChatGPT agora usa tecnolgia API Whisper para compreender e transcrever comandos de voz — Foto: Reprodução/Twitter/OpenAI

Segundo informações do portal The Verge, acionar o ChatGPT por voz será um processo simples e familiar, principalmente para quem já é usuário de ferramentas como Alexa ou Google Assistente. No entanto, a tecnologia empregada pela OpenAI promete ser mais aprimorada que outros serviços semelhantes. Para utilizar a funcionalidade, é necessário tocar em um botão e, na sequência, fazer uma pergunta ou indicar um comando. A partir disso, o bot converterá o prompt em texto, responderá por escrito e, por fim, lerá o feedback em voz alta.

O usuário poderá escolher cinco estilos de vozes diferentes para o bot e o indicativo é de que a OpenAI expanda as opções no futuro. Isso porque a empresa já tem trabalhando em conjunto com o Spotify para traduzir podcasts para outros idiomas, mantendo a sonoridade dos apresentadores. Os timbres disponibilizados pelo ChatGPT foram gravados por atores profissionais e a plataforma utiliza a tecnologia da API Whisper para identificar e transcrever os comandos. O recurso será disponibilizada no aplicativo, disponível para Android e iPhone (iOS).

Pesquisa com imagens no ChatGPT

Nova versão do ChatGPT permitirá fazer pesquisas com fotos e ferramentas de desenho — Foto: Reprodução/Twitter/OpenAI

A pesquisa de imagens na nova versão do ChatGPT se assemelha a de ferramentas como o Google Lens, por exemplo. O usuário pode tirar uma foto de algo que lhe interesse e subir no aplicativo, fazendo uma pergunta ou apresentando alguma solicitação ao bot, que tentará compreender o prompt para apresentar a resposta mais adequada. O robô da OpenAI também contará com uma ferramenta de desenho para ajudar a esclarecer dúvidas, sinalizar elementos ou digitar perguntas junto à imagem.

Apesar de eficiência, o recurso também conta com limitações. A empresa já anunciou que limitou a capacidade de análise e declarações diretas sobre imagens de pessoas, seja para evitar feedbacks equivocados ou para manter a privacidade dos usuários. Em outras palavras, a capacidade de analisar e identificar quem são as pessoas em fotos específicas ainda não está prevista.

