O Google tem trabalhado duro para fazer com que seu novo assistente Gemini AI pareça mais humano, mas isso poderia levar as pessoas a projetar preconceitos de raça e gênero no que ouvem?
Quando o Google se preparou para dar ao seu novo assistente Gemini AI a capacidade de falar, a empresa decidiu nomear suas 10 opções de voz com nomes de corpos celestes. Vozes como Orbit, Vega e Pegasus não são apenas uma homenagem à herança da marca da própria constelação de Gêmeos, mas também uma forma de contornar noções preconcebidas sobre gênero.
“Queríamos evitar vozes de gênero”, explica Françoise Beaufays, diretora sênior de discursos do Gemini Live do Google. “Se você observar as configurações, nunca fazemos declarações sobre gênero.”
É uma abordagem louvável, mas também não impede os usuários do Gemini de antropomorfizar o assistente de IA em sua mente. E à medida que os assistentes de IA se parecem cada vez mais com humanos, é preciso perguntar-se: serão os nomes de outro mundo realmente suficientes para nos impedir de projectar neles os nossos próprios preconceitos sobre raça e género?
Tentando evitar a armadilha de Alexa
Desde que as empresas de tecnologia lançaram os seus primeiros assistentes de voz, têm lutado contra os estereótipos de género. As primeiras versões de Alexa, Siri e Google Assistant usavam vozes femininas por padrão, levando a críticas de que essas assistentes estavam aproveitando as noções existentes sobre as mulheres como ajudantes subservientes.
“Muitos desses (assistentes) não estão necessariamente se libertando dos estereótipos externos que existem em nossa sociedade”, diz Nicol Turner Lee, diretor do Centro de Inovação Tecnológica da Brookings Institution. “Eles estão apenas replicando alguns dos mesmos problemas que temos.”
Assistentes como Alexa há muito dizem a seus usuários que eles não têm gênero, mas o público em geral os vê claramente como mulheres – e também tem um palpite de como isso é problemático. Depois que a Amazon lançou seu alto-falante inteligente Echo em 2014, muito menos pais chamaram suas filhas de Alexa, em parte para evitar um nome associado a receber ordens.
Os rápidos avanços na inteligência artificial nos últimos anos tornaram os assistentes muito mais comunicativos. O Gemini do Google, por exemplo, parece muito mais uma pessoa do que um robô, devido à sua capacidade de ter conversas esclarecedoras sobre questões complexas.
Quando questionado sobre a tensão entre as vozes da IA e os estereótipos de género, Gemini disse o seguinte: “A resposta curta é: é complicado. Por um lado, você deseja que seu assistente de IA pareça amigável e acessível e, às vezes, isso significa usar características de voz que podem inclinar-se para os estereótipos de gênero tradicionais. Por outro lado, você também não quer reforçar esses estereótipos. Uma solução possível é oferecer uma gama mais ampla de vozes para que as pessoas possam escolher aquela com a qual se sintam confortáveis.”
Como o Google construiu e escolheu as vozes de Gemini
Não é novidade que Beaufays concorda – e ela sabe em primeira mão como pode ser complicado selecionar essas opções. Quando seu chefe pediu que ela desenvolvesse uma série de vozes para Gêmeos, o pedido foi simplesmente fazer com que essas vozes soassem “incríveis”.
“Isso foi um pouco assustador”, admite Beaufays. As vozes anteriores do assistente do Google foram otimizadas para clareza e instruções fáceis de digerir, e não para momentos de admiração. “Tivemos que realmente repensar (eles) do zero”, diz ela.
A empresa desenvolveu uma nova tecnologia de geração de voz baseada em grandes modelos de linguagem e depois passou inúmeras horas em estúdios de gravação profissionais para capturar amostras de fala de uma variedade de dubladores. O que se seguiu foi uma longa fase de tentativa e erro na tentativa de transformar essas gravações em modelos de IA. “Muitos dos modelos que treinamos foram jogados no lixo imediatamente”, diz Beaufays.
A seleção final das opções de voz foi feita, em parte, tendo em mente a diversidade. “Tínhamos o pressentimento de que as vozes são muito pessoais”, diz Beaufays. “Se construirmos (apenas) duas grandes vozes, podem não ser as duas que importam para uma pessoa específica.” Em vez disso, a equipe Gemini decidiu oferecer um total de 10 vozes, com uma variedade de tons, texturas e outras características.
“Queríamos ter certeza de que cada usuário encontraria sua voz”, diz Beaufays.
Por que a IA precisa de vozes negras
Isso também inclui o reconhecimento de outra questão complexa: a raça. “Sou negro e, desde que me lembro, a IA (assistentes) tem vozes brancas”, escreveu um usuário do Reddit no início deste ano.
Mais recentemente, isso mudou. Tanto a OpenAI quanto o Gemini do Google oferecem opções de voz que foram treinadas em dubladores negros; A voz Orbit de Gêmeos, por exemplo, é facilmente identificável como uma voz negra. Turner diz que isso é inteligente, observando: “As pessoas querem ver-se representadas nestas tecnologias. A voz dá alguma aparência de representação.”
No entanto, o uso de vozes racialmente diversas também pode revelar preconceitos existentes. No início deste ano, a OpenAI foi forçada a descontinuar uma de suas vozes devido a alegações de que ela se parecia muito com Scarlett Johansson. Os usuários que escolheram essa voz foram substituídos por uma voz negra, levando alguns a alegar que a empresa havia optado por uma substituição “acordada”.
“Eu entendo que as pessoas perderam o acesso à sua (voz de) escolha, mas isso não desculpa o racismo”, escreveu o usuário do Reddit mencionado acima. “Já vi tantas pessoas chamarem (a voz negra) de atrevida, ou de gueto, ou chamá-la de substituta de ‘DEI’.”
Optando por uma voz cotidiana em vez de uma celebridade
A primeira vez que o Google adotou diversas vozes para seu Assistente foi em 2019, embora com uma abordagem um pouco diferente. Para promover o uso de seus alto-falantes inteligentes, a empresa ofereceu brevemente aos usuários a possibilidade de transformar diversas celebridades, incluindo John Legend, na voz padrão de seu assistente.
Para Gemini, a empresa não queria depender de celebridades. “Nós (tentamos) encontrar vozes que representassem as pessoas comuns em toda a sua beleza como pessoas comuns”, diz Beaufays. “Vozes que você poderia encontrar no metrô, eu acho.”
Aceitar as vozes cotidianas parece ser um bom primeiro passo para lidar com os preconceitos na IA. No entanto, Turner adverte que usar apenas um dublador negro não torna um assistente de IA inclusivo, ou mesmo reflexivo da diversidade dentro dessa comunidade.
“Se as empresas tecnológicas pretendem representar autenticamente as capacidades e atributos linguísticos de determinadas populações, então precisam de envolvê-las na mesa e na concepção e implementação destes produtos”, diz ela. “Eles precisam encarar isso como algo que realmente faz parte de seu negócio, em vez de tentar adivinhar ou presumir o que as pessoas querem como uma escolha superficial das vozes que usam.”