À medida que mais empresas investem em IA generativa (gen AI) para casos de uso e produtos personalizados, os dados proprietários estão se tornando cada vez mais importantes para o treinamento de grandes modelos de linguagem (LLMs). Ao contrário do ChatGPT, que foi treinado em bilhões de pontos de dados públicos – e-mails, scripts, mídias sociais, documentos – extraídos da Internet, a IA de geração empresarial muitas vezes precisa ser especificada para os dados dos clientes dessa empresa.
No entanto, os dados de clientes reais podem conter informações de identificação pessoal (PII), tornando seu uso um risco de privacidade. É aí que entra a empresa de dados sintéticos estruturados, principalmente IA.
Além disso: a ferramenta de podcast de IA do Google transforma seu texto em áudio incrivelmente realista – de graça
Na terça-feira, a empresa lançou uma funcionalidade de texto sintético que automatiza o processo de geração de dados sintéticos e preserva os padrões do conjunto de dados original do usuário.
Ao usar dados sintéticos para treinar modelos, a Mostly AI visa ajudar as empresas a evitar riscos de privacidade sem sacrificar os insights que os dados do cliente, como e-mails, transcrições de suporte e trocas de chatbot, podem revelar. Segundo a empresa, os dados sintéticos também podem representar mais diversidade do que os dados originais.
Além da privacidade, outros casos de uso incluem o reequilíbrio de um conjunto de dados para adaptá-lo a um modelo ou remover preconceitos e gerar dados simulados para testes de software.
Como funciona
As empresas carregam seu conjunto de dados proprietário para geradores Mostly AI, que são pacotes reutilizáveis protegidos pela privacidade que incluem metadados dos dados originais. Os usuários podem fazer upload de dados de seu dispositivo local ou de outra fonte externa e ajustar seu gerador na plataforma da Mostly AI.
Depois de confirmarem a configuração correta e os tipos de codificação, os usuários selecionam entre os modelos de IA que gostariam de usar e, em seguida, escolhem entre vários modelos de linguagem, incluindo opções pré-treinadas do HuggingFace.
Além disso: todos os novos recursos do Microsoft Copilot e atualizações de IA em breve no seu PC com Windows
O que emerge é uma versão sintetizada e protegida pela privacidade dos dados que preserva seus padrões estatísticos originais.
Essa configuração ajuda a treinar o gerador de uma empresa. Os usuários podem então comparar dados sintéticos e reais usando os relatórios do modelo para garantir a precisão.
Principalmente a IA afirma que seus conjuntos de dados parecem “tão reais quanto os dados originais dos clientes de uma empresa, com tantos detalhes, mas sem os pontos de dados pessoais originais – ajudando as empresas a cumprir os regulamentos de proteção de privacidade, como GDPR e CCPA”. A empresa acrescentou que seu texto sintético “oferece melhoria de desempenho de até 35% em comparação com o texto gerado pelo prompt GPT-4o-mini, fornecendo nenhum ou apenas alguns exemplos do mundo real”.
Além disso: Os melhores chatbots de IA de 2024: ChatGPT, Copilot e alternativas valiosas
Então, os dados sintéticos são realmente o futuro da IA?
Um relatório do Gartner de abril concluiu que os dados sintéticos têm um potencial não realizado na engenharia de software, mas recomenda que sejam implementados com cuidado. A criação de dados sintéticos pode consumir muitos recursos, pois seu uso eficaz requer estágios de teste específicos para cada caso de uso.
“Hoje, o treinamento em IA está atingindo um patamar à medida que os modelos esgotam as fontes de dados públicos e geram retornos decrescentes”, disse o CEO da Mostly AI, Tobias Hann, no comunicado. “Para aproveitar dados proprietários de alta qualidade, que oferecem muito maior valor e potencial do que os dados públicos residuais actualmente utilizados, as empresas globais devem dar o salto e aproveitar dados sintéticos estruturados e não estruturados para treinar e implementar com segurança futuras soluções generativas de IA. “
Uma preocupação comum é que a bolha da IA esteja prestes a estourar, em parte porque os modelos estão ficando sem dados disponíveis publicamente para serem ingeridos. Embora isso não seja tecnicamente verdade – qualquer atividade humana pode ser um dado, mas pode simplesmente não ser codificada, recolhida, estruturada e gratuita – a necessidade de dados mais utilizáveis para treinar modelos é real. Afinal, é muito mais fácil (e mais barato) ser realmente bom na geração de dados sintéticos do que digitalizar páginas confusas de anotações manuscritas. Até Meta usou dados humanos e sintéticos para treinar o Llama 3.1 405B.
Além disso: A jornada para agentes de IA totalmente autônomos e os capitalistas de risco que os financiam
Mas e quanto ao colapso do modelo – a ideia de que os modelos se deterioram quando ingerem demasiados dados sintéticos?
Principalmente a AI disse em um e-mail para ZDNET que evita essa possibilidade porque “os dados sintéticos são gerados uma vez e aplicados diretamente às tarefas posteriores”, em vez de serem usados para treinar repetidamente os modelos.
Ainda não se sabe se o aumento do uso de dados sintéticos em todos os setores cria uma ameaça mais ampla de colapso do modelo. Até então, as empresas interessadas na ferramenta da Mostly AI podem visitar seu site.