Meta lançou uma implementação “aberta” do recurso viral gerar um podcast no NotebookLM do Google.
Chamado NotebookLlama, o projeto usa os próprios modelos Llama do Meta para grande parte do processamento, sem surpresa. Como o NotebookLM, ele pode gerar resumos em estilo podcast de arquivos de texto enviados para ele.
NotebookLlama primeiro cria uma transcrição de um arquivo – por exemplo, um PDF de um artigo de notícias ou postagem de blog. Em seguida, adiciona “mais dramatização” e interrupções antes de alimentar a transcrição para abrir modelos de conversão de texto em fala.
Os resultados não parecem tão bons quanto o NotebookLM. Nos samples do NotebookLlama que ouvi, as vozes têm uma qualidade obviamente robótica e tendem a conversar umas com as outras em momentos estranhos.
Mas os pesquisadores da Meta por trás do projeto dizem que a qualidade poderia ser melhorada com modelos mais fortes.
“O modelo de conversão de texto em fala é a limitação de quão natural isso soará”, escreveram eles na página GitHub do NotebookLlama. “(Além disso) outra abordagem para escrever o podcast seria ter dois agentes debatendo o tópico de interesse e escrevendo o esboço do podcast. No momento, usamos um único modelo para escrever o esboço do podcast.”
NotebookLlama não é a primeira tentativa de replicar o recurso de podcast do NotebookLM. Alguns projetos tiveram mais sucesso do que outros. Mas nenhum – nem mesmo o próprio NotebookLM – conseguiu resolver o problema de alucinação que persegue toda a IA. Ou seja, os podcasts gerados por IA certamente contêm algumas coisas inventadas.