Tempo de leitura: 4 minutos

Após meses de testes, a OpenAI lançou o modo “voz avançada” para ChatGPT em setembro. O recurso permite que você tenha conversas em tempo real com o ChatGPT: você pode interromper o bot e sua “fala” para fazer outra pergunta, e ele entende o seu tom de voz, que usa tanto para informar suas respostas, quanto a inflexão. usa. (Isso é muito assustador quando ri.)

No entanto, um recurso do modo de voz avançado está faltando desde o lançamento. Quando a OpenAI anunciou o benefício pela primeira vez em maio, mostrou como o ChatGPT seria capaz de acessar sua câmera e “ver” o mundo ao seu redor. Ao conversar com o bot, você pode apontar sua câmera para algo, fazer uma pergunta e o ChatGPT responderá da melhor maneira possível. Sete meses depois, esta capacidade está aqui e é assustadoramente impressionante.

Para acessá-lo, você precisará ter uma assinatura paga do ChatGPT – Plus (US$ 20 por mês) ou Pro (US$ 200 por mês). Os assinantes da equipe ChatGPT também são elegíveis. O recurso pode não estar disponível imediatamente, mesmo que você pague, já que o OpenAI o está lançando ao longo do tempo.

Testando o recurso de visão do modo de voz avançado ChatGPT

Acessar a câmera é bastante simples assim que ela for implementada em sua conta. Você inicia o modo de voz avançado da mesma forma que sempre faz, usando o ícone de forma de onda no canto inferior direito do bate-papo. A partir daqui, você verá um novo ícone de câmera, que, é claro, inicia a transmissão ao vivo da câmera. Isso não interrompe o bate-papo: você pode estar no meio de uma conversa com o ChatGPT, abrir a câmera e continuar tagarelando, só que agora com a imagem da câmera como parte da conversa.

A primeira vez que usei isso, apontei a câmera para uma caixa do Nintendo Switch que tinha por perto, com um cabo do iPhone e meu Magic Trackpad apoiado nela, e perguntei: “O que é isso?” ChatGPT disse: “Parece uma caixa OLED do Nintendo Switch com alguns cabos e um laptop em cima. Dois dos três corretos, pois confundi meu trackpad com um laptop, mas ei, perto o suficiente. Em seguida, apontei para minha garrafa de água e pedi que identificasse o que eu estava destacando: “Parece uma garrafa Hydro Flask preta. É ótima para manter bebidas frias ou quentes! Você a leva com frequência?”

Perguntei um acompanhamento: “Você sabe que modelo de Hydro Flask é esse?” ChatGPT: “Não tenho certeza do modelo exato, mas parece uma de suas garrafas de boca larga, provavelmente com cerca de 32 onças. Definitivamente, foi projetada para manter suas bebidas na temperatura certa por horas.” Isso… está basicamente certo. Não me sinto muito confortável com o ChatGPT adivinhando o tamanho corretamente também.

Passei para o meu teclado, que o ChatGPT afirmou com precisão ser um Apple Magic Keyboard. Perguntei quais chaves ele podia ver e nomeei algumas, mas não todas, das chaves que eu tinha no quadro. Então, perguntei quantas chaves ele conseguia ver e disse “cerca de 30”, quando eram 26. Então, novamente, feche.

Ele foi capaz de identificar a porta MagSafe no meu MacBook, bem como as duas portas USB e o fone de ouvido à direita. Ele reconheceu a ventilação no meu teto e o tipo específico de botas que eu tinha na porta da frente. Resumindo, ele basicamente reconheceu tudo em que testei – menos o trackpad.

A visão do modo de voz avançado é rápida

Mas, além do reconhecimento, acho que o que mais me surpreendeu foi a velocidade dessas respostas. Você pede ao ChatGPT para identificar algo, e isso acontece, às vezes mais rápido do que se você pedisse a uma pessoa real para fazer isso. Às vezes, o bot irá segurar uma palavra por um momento (por exemplo, “Acho que isso é…”), o que provavelmente é um truque para permitir que o ChatGPT processe o resto do que quer dizer. Também o percebi menos seguro de si com sua primeira resposta: apontei-o para meu Magic Mouse e seu primeiro palpite é que era um mouse de computador. Mas quando perguntei qual era a marca, ele não apenas especificou a Apple, mas disse que era um Apple Magic Mouse, conhecido por seu “design elegante” e “superfície sensível ao toque”.

Considerando tudo isso, porém, essas respostas costumam ser quase instantâneas, o que mostra o quão poderosos os modelos da OpenAI são atualmente. Ainda sou um cético em relação à IA, mas este foi o primeiro desenvolvimento em algum tempo que me impressionou – e estou indeciso sobre como me sinto a respeito disso.

Por um lado, pude ver essa tecnologia sendo usada para o bem. Imagine como algo assim poderia ser útil para usuários cegos ou com deficiência visual, especialmente em um dispositivo conveniente como óculos inteligentes. Alguém poderia perguntar ao seu assistente de IA em que direção ele está olhando, para ler o cardápio de um restaurante ou se é seguro atravessar a rua. Uma tecnologia como essa poderia mudar a pesquisa para melhor e facilitar o aprendizado de coisas novas sobre o mundo, apontando a câmera do smartphone para um assunto.

Por outro lado, minha mente se volta para o negativo, especialmente porque a IA ainda é propensa a alucinações. À medida que mais e mais pessoas usam essa tecnologia, elas inevitavelmente experimentarão os erros que a IA pode cometer, e se contarem com o bot para ajudá-las nas tarefas – especialmente algo que envolve sua segurança – as alucinações podem ser perigosas. Não experimentei nenhum erro grande; apenas a confusão do trackpad. Anderson Cooper descobriu que o bot cometeu um erro em um problema de geometria (novamente, não é um grande problema). Mas é um bom lembrete de que, à medida que esta tecnologia melhora rapidamente, as suas falhas inerentes aumentam o risco de fracasso.

Talvez seja por isso que toda sessão de câmera ao vivo avisa para não usar o recurso para nada que envolva segurança.

O novo recurso de câmera do ChatGPT é assustadoramente preciso

Testando o recurso de visão do modo de voz avançado ChatGPT

A visão do modo de voz avançado é rápida

Assuntos de Tecnologia: