RADAR
Radar
Busca
Tópicos
Timeline

Scribe v2: modelo de transcrição de voz para texto da ElevenLabs ganha precisão e funcionalidades

22/02/2026 | Inteligência Artificial, Tecnologia

Em fevereiro de 2025, a startup de inteligência artificial ElevenLabs apresentou o Scribe, seu primeiro modelo de reconhecimento automático de voz (ASR – Automatic Speech Recognition). A proposta inicial era oferecer transcrição de áudio para texto com alta precisão em ambientes reais, incluindo gravações com ruído, intervenções de múltiplas pessoas e variações de entonação. Desde o lançamento, o sistema passou a atender 99 idiomas e a fornecer saídas estruturadas com tags de marcação temporal por palavra, identificação de locutores e indicação de eventos sonoros não verbais, como risadas ou pausas.

A plataforma foi concebida tanto para uso direto por criadores e empresas, por meio de interface web, quanto para integração em aplicações de terceiros via API de fala-para-texto. Entre os usos previstos estavam a geração de atas de reuniões, legendas para vídeo e transcrição de conteúdos diversos.

Segundo a empresa, testes comparativos em conjuntos de dados multilíngues amplamente utilizados no setor indicaram desempenho superior do Scribe em relação a outros modelos de transcrição automática.

Agora, em fevereiro de 2026, a ElevenLabs anunciou o Scribe v2, uma atualização voltada principalmente a fluxos de trabalho em larga escala e a transcrições de maior duração e complexidade. De acordo com a empresa, a nova versão apresenta ganhos de estabilidade e precisão em comparação ao modelo original, especialmente em arquivos longos, com pausas extensas ou mudanças de ritmo e tom de voz. A empresa afirma também que o Scribe v2 alcança taxas de erro de palavras inferiores às registradas em benchmarks do setor.

A atualização introduz ainda um recurso chamado “Keyterm Prompting”, que vai além de um simples vocabulário de palavras tradicional ao considerar o contexto da transcrição. O usuário pode definir até 100 termos ou frases e o modelo decide automaticamente quando aplicar essas referências durante a transcrição, o que pode favorecer a correta identificação de vocabulário técnico, nomes próprios ou marcas.

Por exemplo, se for definido o termo [“QuintoAndar”] para se referir ao aplicativo de compra e venda de imóveis, uma fala como “Eu falei com o pessoal do quinto andar.” seria transcrita como “Eu falei com o pessoal do QuintoAndar”. Mas, em outro contexto, uma fala como “Estou falando com todos aqui no prédio. Na verdade, já falei com o pessoal do quinto andar.” não seria alterada e manteria corretamente as palavras separadas e em minúsculas “quinto andar”.

Outra novidade é a detecção de “entidades”, informações categorizadas que podem demandar ações de moderação como, por exemplo, menções a dados pessoais, de saúde ou financeiros. O Scribe v2 identifica automaticamente essas informações e seus respectivos momentos no áudio, facilitando a revisão, remoção ou tratamento de dados sensíveis em escala.

O Scribe v2 passou também a aceitar arquivos com múltiplos idiomas em um único fluxo de áudio, reconhecendo e transcrevendo cada trecho no idioma correspondente sem a necessidade de segmentação manual. Esse tipo de transcrição multilíngue automatizada é apresentado pela empresa como adequado a ambientes globais ou a produções com alternância de idioma.

A ElevenLabs oferece ainda o Scribe v2 Realtime, um modelo diferenciado de baixa latência – a transcrição ocorre em menos de 150 milissegundos – voltado para aplicações em conversas ao vivo, reuniões e agentes de IA.

Mais informações sobre o Scribe v2 podem ser obtidas aqui.

Fonte: ElevenLabs

Posts Relacionados
Mídia Clipping 2026 2
Mídia Clipping 2026 2

Mídia Clipping é um clipping de tecnologia e negócios com o que ocorrre de estratégico e mais relevante na indústria do conteúdo de áudio. Rádio, podcasts e streaming são o nosso foco. IAB Tech Lab apresenta plano de...

Marketplace de Projetos

Aqui, você encontrará um portfólio de projetos comerciais publicados pelos veículos da indústria do conteúdo de áudio. Este é o marketplace de oportunidades para as marcas criarem parcerias em eventos, datas comemorativas, programas especiais e de linha.