Em fevereiro de 2025, a startup de inteligência artificial ElevenLabs apresentou o Scribe, seu primeiro modelo de reconhecimento automático de voz (ASR – Automatic Speech Recognition). A proposta inicial era oferecer transcrição de áudio para texto com alta precisão em ambientes reais, incluindo gravações com ruído, intervenções de múltiplas pessoas e variações de entonação. Desde o lançamento, o sistema passou a atender 99 idiomas e a fornecer saídas estruturadas com tags de marcação temporal por palavra, identificação de locutores e indicação de eventos sonoros não verbais, como risadas ou pausas.
A plataforma foi concebida tanto para uso direto por criadores e empresas, por meio de interface web, quanto para integração em aplicações de terceiros via API de fala-para-texto. Entre os usos previstos estavam a geração de atas de reuniões, legendas para vídeo e transcrição de conteúdos diversos.
Segundo a empresa, testes comparativos em conjuntos de dados multilíngues amplamente utilizados no setor indicaram desempenho superior do Scribe em relação a outros modelos de transcrição automática.
Agora, em fevereiro de 2026, a ElevenLabs anunciou o Scribe v2, uma atualização voltada principalmente a fluxos de trabalho em larga escala e a transcrições de maior duração e complexidade. De acordo com a empresa, a nova versão apresenta ganhos de estabilidade e precisão em comparação ao modelo original, especialmente em arquivos longos, com pausas extensas ou mudanças de ritmo e tom de voz. A empresa afirma também que o Scribe v2 alcança taxas de erro de palavras inferiores às registradas em benchmarks do setor.
A atualização introduz ainda um recurso chamado “Keyterm Prompting”, que vai além de um simples vocabulário de palavras tradicional ao considerar o contexto da transcrição. O usuário pode definir até 100 termos ou frases e o modelo decide automaticamente quando aplicar essas referências durante a transcrição, o que pode favorecer a correta identificação de vocabulário técnico, nomes próprios ou marcas.
Por exemplo, se for definido o termo [“QuintoAndar”] para se referir ao aplicativo de compra e venda de imóveis, uma fala como “Eu falei com o pessoal do quinto andar.” seria transcrita como “Eu falei com o pessoal do QuintoAndar”. Mas, em outro contexto, uma fala como “Estou falando com todos aqui no prédio. Na verdade, já falei com o pessoal do quinto andar.” não seria alterada e manteria corretamente as palavras separadas e em minúsculas “quinto andar”.
Outra novidade é a detecção de “entidades”, informações categorizadas que podem demandar ações de moderação como, por exemplo, menções a dados pessoais, de saúde ou financeiros. O Scribe v2 identifica automaticamente essas informações e seus respectivos momentos no áudio, facilitando a revisão, remoção ou tratamento de dados sensíveis em escala.
O Scribe v2 passou também a aceitar arquivos com múltiplos idiomas em um único fluxo de áudio, reconhecendo e transcrevendo cada trecho no idioma correspondente sem a necessidade de segmentação manual. Esse tipo de transcrição multilíngue automatizada é apresentado pela empresa como adequado a ambientes globais ou a produções com alternância de idioma.
A ElevenLabs oferece ainda o Scribe v2 Realtime, um modelo diferenciado de baixa latência – a transcrição ocorre em menos de 150 milissegundos – voltado para aplicações em conversas ao vivo, reuniões e agentes de IA.
Mais informações sobre o Scribe v2 podem ser obtidas aqui.
Fonte: ElevenLabs














