Um uso verdadeiramente único para modelos generativos de IA é digitalizar um documento longo e fornecer instruções com base nisso. De certa forma, você está conversando com o PDF. Quero mostrar como você pode fazer exatamente isso no Google Drive.
Por que conversar com PDFs?
Você pode perguntar qualquer coisa a um chatbot, e ele fornecerá informações específicas e precisas extraídas do PDF fornecido.
Por exemplo, você pode dar a ele um livro didático e pedir que ele resuma um capítulo, explique um diagrama, resolva um problema, desenhe uma tabela, crie uma folha de dicas, elabore um plano de estudo ou faça cartões. Talvez você possa até pedir para criar um teste prático. O chatbot pode atuar como um tutor e ensinar você com base no livro didático. As possibilidades são infinitas.
Parece algo saído da ficção científica porque esses bots são surpreendentemente bons nisso. Ao conversar com um PDF, é menos provável que o bot apenas fabrique informações, e você sempre pode pedir que ele o indique ao número da página para verificar os detalhes.
Geralmente, esses bots não funcionam bem com grandes arquivos PDF. Eles têm um limite no tamanho do arquivo ou estão bloqueados por um acesso pago. Mesmo que eles permitam que você carregue um arquivo grande, eles podem perder o contexto após alguns textos. Isso ocorre porque os bots, alimentados por grandes modelos de linguagem, dependem de algo chamado tokens para reter o “contexto” de uma conversa. Um token é uma unidade composta por aproximadamente quatro caracteres de texto. Um bot de IA tem apenas um número limitado de tokens para jogar.
Em termos gerais, quanto mais tokens um bot suportar, mais tempo ele poderá “lembrar” da conversa em andamento sem perder o contexto. Quando um bot perde o contexto, ele “esquece” a conversa anterior, o que significa que você terá que alimentá-lo com as mesmas informações novamente. E quanto mais longo for o documento, mais rápido você chegará a esse ponto.
O Gemini do Google não perderá contexto facilmente porque suporta cerca de 1 milhão de tokens para a janela de contexto de análise de documentos. Segundo o Google, é melhor do que qualquer outro bot comercial. Se você estiver trabalhando com documentos extensos, o Gemini fará um trabalho melhor do que o ChatGPT.
Gemini integrado ao Google Drive é a melhor maneira que encontrei para trabalhar com PDFs. Você pode fazer perguntas ao Gemini sobre os PDFs, solicitar que ele gere conteúdo com base no PDF ou combinar PDFs com outros arquivos em seu Google Drive para criar um contexto melhor. Digo PDF, mas os bate-papos funcionam com qualquer tipo de documento, incluindo Google Docs.
Os chatbots de IA são uma tecnologia incrivelmente inteligente, mas também cospem informações inventadas ou incorretas (às vezes podem até ser informações prejudiciais). Você não deve procurar aconselhamento financeiro, jurídico ou médico deles. O Google alerta contra qualquer conselho profissional da Gemini. Eu nem recomendaria o upload de um PDF confidencial (por exemplo, seus registros médicos ou dados bancários) para esses serviços.
Gêmeos no Google Drive é poderoso
Não importa com que tipo de PDF você está trabalhando. Gemini lida muito bem com PDFs digitalizados e PDFs longos e complicados. Até enviei para ele um PDF de partituras, e ele conseguiu entender o que era e me explicar. Mesmo formatações e imagens complicadas não atrapalharam.
Para ser claro, não quero dizer que ele responderá a todas as perguntas sobre uma partitura – você ainda pode ouvir ocasionalmente “Ainda estou aprendendo e não posso ajudar com isso”, mas funciona surpreendentemente bem.
Gemini for Google Drive vem com contas premium do Google. Se quiser usá-lo gratuitamente em uma conta pessoal, você precisará ativar o Google Workspace Labs. O Google bloqueou o Workspace Labs por trás de um sistema somente para convidados, então você só pode ativá-lo quando o Google o convidar para participar do programa de testes beta. Você deve ter visto um convite para ativar a IA no Google Docs ou em outros aplicativos do Workspace. Se você ativar o Labs em qualquer lugar, também deverá ver imediatamente o Gemini no seu Google Drive.
O aplicativo móvel não possui esse recurso. Em vez do aplicativo Google Drive, você pode usar o aplicativo Gemini para Android com as extensões do Google Workspaces ativadas. Porém, isso é apenas uma solução alternativa e não funciona muito bem.
Para obter a melhor experiência, faça login em seu Google Drive no navegador do desktop.
Gemini no Google Drive oferece suporte a estes sete idiomas: espanhol, francês, alemão, italiano, japonês, coreano e português.
Como conversar com seus PDFs no Gemini
Você pode acessar um PDF no Gemini de duas maneiras:
Clique no botão Gemini no Google Drive (o ícone de brilho no canto superior). Uma caixa de bate-papo deve abrir solicitando uma solicitação. Tipo “@”aqui, seguido pelo nome do arquivo PDF. Gemini lhe dará sugestões de preenchimento automático enquanto você digita. Depois de selecionar o arquivo correto, digite sua pergunta ou solicitação e envie-a.
Alternativamente, você pode clicar com o botão direito do mouse no arquivo e escolher “Perguntar ao Gemini” no menu de contexto. O Gemini preencherá automaticamente o nome do arquivo com a mensagem “Conte-me sobre este arquivo” para você. Isso gerará uma visão geral detalhada do PDF. PDFs mais longos receberão resumos longos e detalhados. Se o arquivo ainda não estiver no Google Drive, você terá que arrastá-lo e soltá-lo do armazenamento do seu computador.
Se você precisar trazer outro arquivo (não precisa ser um PDF) para adicionar contexto, digite “@”Novamente e dê ao Gemini o nome do arquivo. Cada arquivo deve ter seu próprio chip.
A partir daqui, você pode responder a quaisquer dúvidas ou solicitações que tiver. Se Gemini perder o contexto, você pode, mais uma vez, digitar “@”Seguido pelo nome do arquivo para trazer o bot de volta aos trilhos. Você também encontrará uma guia de fontes na parte inferior das respostas do Gemini. Dependendo de quantos arquivos você está trabalhando, você pode ter uma única fonte ou várias fontes.
Levando Gêmeos para dar uma volta no Google Drive
Permita-me mostrar como é tudo isso com um exemplo do mundo real. Comecei uma conversa com Gemini perguntando sobre um livro de biologia de 400 páginas, pesando cerca de 50 MB. Pedi a Gêmeos que me ensinasse uma seção e isso me deu um resumo de tudo. Ele lê o texto e até “vê” o visual.
Eu continuei com mais perguntas e ele respondeu esplendidamente. Pedi que organizasse as informações em uma tabela para melhor clareza. Fez isso lindamente também. Até pedi que explicasse gráficos e diagramas apenas especificando o número da página e o número da figura. Encontrou exatamente o que eu precisava e explicou com bastante detalhes. Encerrei a conversa com um pedido de flashcards e um teste simulado. Ambos pareciam úteis e livres de erros.
O Gemini no Google Drive faz um ótimo trabalho auxiliando com PDFs. E a melhor parte é que você não precisa se preocupar em enviar vários arquivos ou perder contexto. Já está tudo no seu Drive. Enfatizei os PDFs, mas funciona igualmente bem para outros tipos de documentos. Se você já trabalha com o Google Docs há algum tempo, agora pode pesquisar e interagir com toda a biblioteca usando o Gemini.