Pular para o conteúdo

O modo de voz avançado do ChatGPT finalmente ganha contexto visual no 6º dia do OpenAI

Tempo de leitura: 6 minutos

OpenAI exibido em um telefone

NurPhoto / Contribuidor / Getty Images

Com as festas de fim de ano chegando, muitas empresas estão encontrando maneiras de aproveitar as vantagens por meio de ofertas, promoções ou outras campanhas. A OpenAI encontrou uma maneira de participar com sua série de eventos “12 dias de OpenAI”.

Na quarta-feira, a OpenAI anunciou por meio de um post X que a partir de 5 de dezembro, a empresa hospedaria 12 dias de transmissões ao vivo e lançaria “um monte de coisas novas, grandes e pequenas”, de acordo com o post.

Além disso: o gerador de vídeo Sora AI da OpenAI está aqui – como experimentá-lo

Aqui está tudo o que você precisa saber sobre a campanha, bem como um resumo dos lançamentos diários.

O que são os ’12 dias de OpenAI’?

O CEO da OpenAI, Sam Altman, compartilhou um pouco mais de detalhes sobre o evento, que começou às 10h (horário do Pacífico) do dia 5 de dezembro e ocorrerá diariamente durante 12 dias da semana com uma transmissão ao vivo apresentando um lançamento ou demonstração. Os lançamentos serão “grandes” ou “recheios”, segundo Altman.

O que foi descartado até agora?

Quinta-feira, 12 de dezembro

Quando a transmissão ao vivo começou, a OpenAI abordou o elefante na sala – o fato de a transmissão ao vivo da empresa ter sido interrompida no dia anterior. A OpenAI pediu desculpas pelo inconveniente e disse que sua equipe está trabalhando em uma autópsia que será publicada ainda hoje.

Então foi direto para o noticiário – outro anúncio altamente aguardado:

  • O Modo de voz avançado agora possui recursos visuais e de compartilhamento de tela, o que significa que pode ajudar no contexto do que está sendo visualizado, seja na câmera do telefone ou no que está na tela.
  • Esses recursos se baseiam no que o Advanced Voice já poderia fazer muito bem – envolver-se em conversas casuais como um ser humano faria. As conversas naturais podem ser interrompidas, ter vários turnos e compreender linhas de pensamento não lineares.
  • Na demonstração, o usuário recebe instruções do Advanced Voice do ChatGPT sobre como fazer uma xícara de café. À medida que o demonstrador segue as etapas, o ChatGPT oferece verbalmente insights e orientações.
  • Há outro bônus para a época de Natal: os usuários podem acessar uma nova voz do Papai Noel. Para ativá-lo, basta o usuário clicar no ícone do floco de neve. O Papai Noel está sendo lançado hoje em todos os lugares onde os usuários podem acessar o modo de voz ChatGPT. Na primeira vez que você fala com o Papai Noel, seus limites de uso são redefinidos, mesmo que você já tenha atingido o limite, para que você possa conversar com ele.
  • O compartilhamento de vídeo e tela será lançado nos aplicativos móveis mais recentes a partir de hoje e durante a próxima semana para todos os usuários do Team e para a maioria dos assinantes Pro e Plus. Os assinantes Pro e Plus na Europa terão acesso “assim que pudermos”, e os usuários Enterprise e Edu terão acesso no início do próximo ano.

Quarta-feira, 11 de dezembro

A Apple lançou o iOS 18.2 hoje. A versão inclui integrações com ChatGPT em Siri, Ferramentas de escrita e Inteligência Visual. Como resultado, a transmissão ao vivo de hoje se concentrou em percorrer a integração.

  • Siri agora pode reconhecer quando você faz perguntas fora de seu escopo que poderiam se beneficiar se fossem respondidas pelo ChatGPT. Nesses casos, ele perguntará se você deseja processar a consulta usando ChatGPT. Antes de qualquer solicitação ser enviada ao ChatGPT, sempre aparecerá uma mensagem notificando o usuário e pedindo permissão, colocando o controle nas mãos do usuário tanto quanto possível.
  • Inteligência Visual refere-se a um novo recurso da linha do iPhone 16 que os usuários podem acessar tocando no botão Controle da Câmera. Assim que a câmera estiver aberta, os usuários podem apontá-la para algo e pesquisar na web com o Google, ou usar o ChatGPT para saber mais sobre o que estão visualizando ou realizar outras tarefas, como traduzir ou resumir texto.
  • As Ferramentas de Escrita agora apresentam uma nova ferramenta “Escrever”, que permite aos usuários criar texto do zero aproveitando o ChatGPT. Com o recurso, os usuários podem até gerar imagens usando o DALL-E.

Todos os recursos acima estão sujeitos aos limites de uso diário do ChatGPT, da mesma forma que os usuários atingiriam os limites ao usar a versão gratuita do modelo no ChatGPT. Os usuários podem escolher se desejam ou não ativar a integração ChatGPT em Configurações.

Leia mais sobre isso aqui: iOS 18.2 é lançado para iPhones: experimente estes 6 novos recursos de IA hoje

Terça-feira, 10 de dezembro

  • O Canvas está chegando para todos os usuários da web, independentemente do plano, em GPT-4o, o que significa que não está mais disponível apenas na versão beta para usuários do ChatGPT Plus.
  • O Canvas foi integrado ao GPT-4o nativamente, o que significa que você pode simplesmente chamar o Canvas em vez de alternar no seletor de modelo.
  • A interface do Canvas é a mesma que os usuários viram na versão beta do ChatGPT Plus, com uma tabela no lado esquerdo que mostra a troca de perguntas e respostas e uma guia à direita que mostra seu projeto, exibindo todas as edições à medida que avançam , bem como atalhos.
  • O Canvas também pode ser usado com GPTs personalizados. Ele é ativado por padrão ao criar um novo e há uma opção para adicionar Canvas a GPTs existentes.
  • O Canvas também tem a capacidade de executar código Python diretamente no Canvas, permitindo que o ChatGPT execute tarefas de codificação, como correção de bugs.

Leia mais sobre isso aqui: Sou um usuário avançado do ChatGPT – e o Canvas ainda é meu recurso de produtividade favorito um mês depois

Segunda-feira, 9 de dezembro

A OpenAI provocou o anúncio do terceiro dia como “algo que você estava esperando”, seguido pelo tão esperado lançamento de seu modelo de vídeo – Sora. Aqui está o que você precisa saber:

  • Conhecido como Sora Turbo, o modelo de vídeo é mais inteligente que o modelo de fevereiro que foi apresentado.
  • O acesso chegará aos EUA ainda hoje; os usuários precisam apenas do ChatGPT Plus e Pro.
  • Sora pode gerar vídeo para vídeo, texto para vídeo e muito mais.
  • Os usuários do ChatGPT Plus podem gerar até 50 vídeos por mês em resolução 480p ou menos vídeos em 720p. O Plano Pro oferece 10x mais uso.
  • O novo modelo é mais inteligente e mais barato que o modelo apresentado em fevereiro.
  • Sora apresenta uma página de exploração onde os usuários podem ver as criações uns dos outros. Os usuários podem clicar em qualquer vídeo para ver como ele foi criado.
  • Uma demonstração ao vivo mostrou o modelo em uso. Os demonstradores inseriram um prompt e escolheram a proporção, a duração e até as predefinições. Achei os resultados do vídeo de demonstração ao vivo realistas e impressionantes.
  • A OpenAI também revelou o Storyboard, uma ferramenta que permite aos usuários gerar entradas para cada quadro de uma sequência.

Sexta-feira, 6 de dezembro:

No segundo dia de “shipmas”, a OpenAI expandiu o acesso ao seu Programa de Pesquisa de Ajuste Fino de Reforço:

  • O programa Reinforcement Fine-Tuning permite que desenvolvedores e engenheiros de aprendizado de máquina ajustem os modelos OpenAI para “se destacarem em conjuntos específicos de tarefas complexas e específicas de domínio”, de acordo com a OpenAI.
  • O ajuste fino de reforço refere-se a uma técnica de personalização na qual os desenvolvedores podem definir o comportamento de um modelo inserindo tarefas e classificando a saída. O modelo então usa esse feedback como um guia para melhorar, tornando-se melhor no raciocínio através de problemas semelhantes e melhorando a precisão geral.
  • A OpenAI incentiva institutos de pesquisa, universidades e empresas a se inscreverem no programa, especialmente aqueles que realizam conjuntos restritos de tarefas complexas, podem se beneficiar da assistência da IA ​​e realizam tarefas que têm uma resposta objetivamente correta.
  • As vagas são limitadas; os candidatos interessados ​​​​podem se inscrever preenchendo este formulário.
  • A OpenAI pretende disponibilizar publicamente o Reinforcement Fine-Tuning no início de 2025.

Quinta-feira, 5 de dezembro:

A OpenAI começou com força, revelando duas atualizações importantes para seu chatbot: um novo nível de assinatura ChatGPT, ChatGPT Pro, e a versão completa do modelo o1 da empresa.

A versão completa do o1:

  • Será melhor para todos os tipos de instruções, além de matemática e ciências
  • Cometerá erros graves com cerca de 34% menos frequência do que a visualização o1, enquanto pensa cerca de 50% mais rápido
  • Lançado hoje, substituindo o1-preview para todos os usuários ChatGPT Plus e agora Pro
  • Permite que os usuários insiram imagens, como visto na demonstração, para fornecer raciocínio multimodal (raciocínio sobre texto e imagens)

Bate-papoGPT Pro:

  • Destina-se a superusuários do ChatGPT Plus, garantindo-lhes acesso ilimitado ao melhor que o OpenAI tem a oferecer, incluindo acesso ilimitado ao OpenAI o1-mini, GPT-4o e Modo Avançado
  • Apresenta o modo pro 1, que usa mais computação para raciocinar através dos problemas mais difíceis de ciências e matemática
  • Custa $ 200 por mês

Onde você pode acessar a transmissão ao vivo?

As transmissões ao vivo são realizadas no site da OpenAI e postadas em seu canal no YouTube imediatamente após. Para facilitar o acesso, a OpenAI também postará um link para a transmissão ao vivo em sua conta X 10 minutos antes de seu início, que será aproximadamente às 10h PT/13h ET diariamente.

O que você pode esperar?

Os lançamentos continuam sendo uma surpresa, mas muitos antecipam que Sora, o modelo de vídeo da OpenAI anunciado inicialmente em fevereiro passado, será lançado como parte de um dos maiores lançamentos. Desde o primeiro anúncio, o modelo está disponível para um seleto grupo de red teamers e testadores e vazou na semana passada por alguns testadores devido a queixas sobre “trabalho não remunerado”, segundo relatos.

Além disso: o o1 da OpenAI reside mais do que qualquer modelo importante de IA. Por que isso importa

Outros rumores de lançamentos incluem uma versão nova e mais completa do o1 LLM da empresa com recursos de raciocínio mais avançados e uma voz de Papai Noel para o Advanced Voice Mode da OpenAI por código detectado pelos usuários há apenas algumas semanas sob o codinome “Straw”.