RADAR
Radar
Busca
Tópicos
Timeline

OpenAI lança modelos de voz text-to-speech e speech-to-text avançados

11/05/2025 | Inteligência Artifical

A OpenAI lançou novos modelos de áudio de fala para texto (speech-to-text) e de texto para fala (text-to-speech) na API – tornando possível a criação de agentes de voz mais poderosos, personalizáveis e inteligentes que oferecem valor real.

Segundo a OpenAI, os novos modelos de fala para texto estabelecem um novo padrão de referência, superando soluções existentes em precisão e confiabilidade – especialmente em cenários desafiadores, como sotaques, ambientes barulhentos e variações de velocidade da fala. Essas melhorias aumentam a confiabilidade da transcrição, tornando os modelos especialmente adequados para casos de uso como centrais de atendimento ao cliente, transcrição de reuniões, entre outros. Vale notar que, nos testes realizados pela OpenAI, as transcrições em português tiveram uma taxa de erro (WER) muito baixa, atrás apenas do inglês e do espanhol.

Já os modelos de texto para fala, permitem que desenvolvedores especifiquem não apenas o conteúdo da fala, mas também o estilo com que ela é transmitida – como, por exemplo, instruir o modelo a falar com o “tom de um atendente simpático de atendimento ao cliente”. Esse avanço amplia significativamente o potencial de personalização dos agentes de voz, viabilizando aplicações que exigem vozes mais empáticas e dinâmicas em contextos de atendimento, além de narrações expressivas para experiências criativas de storytelling.

Os novos modelos são uma evolução da primeira versão lançada em 2022 e apresentam melhorias na inteligência, precisão e confiabilidade. Com eles, os desenvolvedores podem criar sistemas de fala para texto mais precisos e robustos e vozes de texto para fala mais expressivas e com personalidade – tudo acessível via API.

Ouça os exemplos a seguir de produção text-to-speech com o novo modelo:

Calmo

Surfista

Profissional

Cavaleiro medieval

Fã de crimes reais

História de ninar

É interessante notar como essas diferentes vozes são construídas a partir de prompts. Por exemplo, veja a seguir as descrições utilizadas para os estilos de voz Profissional e Calmo e note as diferenças:

Profissional

  • Voz: Clara, autoritária e serena, transmitindo confiança e profissionalismo.
  • Tom: Neutro e informativo, mantendo um equilíbrio entre formalidade e acessibilidade.
  • Pontuação: Estruturada com vírgulas e pausas para dar clareza, garantindo que a informação seja compreensível e bem ritmada.
  • Entonação: Constante e controlada, com leve ênfase em números-chave e prazos para destacar os pontos mais importantes.

Calmo

  • Afeto na voz: Calma, serena e tranquilizadora; transmita uma autoridade silenciosa e confiante.
  • Tom: Sincero, empático e gentilmente autoritário — expresse um pedido de desculpas genuíno enquanto demonstra competência.
  • Ritmo: Constante e moderado; sem pressa para transmitir cuidado, mas eficiente o suficiente para demonstrar profissionalismo.
  • Emoção: Empatia e compreensão autênticas; fale com calor, especialmente ao pedir desculpas (“Sinto muito por qualquer transtorno…”).
  • Pronúncia: Clara e precisa, com ênfase em palavras-chave de tranquilização (“sem problemas”, “rapidamente”, “prontamente”) para reforçar a confiança.
  • Pausas: Pequenas pausas após oferecer ajuda ou solicitar informações, destacando a disposição para ouvir e apoiar.

Embora o lançamento dos novos modelos da OpenAI tenha enfatizado experiências conversacionais e agentes de voz, as ferramentas têm grande aplicação também na indústria do conteúdo de áudio em geral. Aqui, o fato importante é que a precisão e a qualidade estão subindo de patamar.

Experimente a plataforma seguindo o link OpenAI. Observe que, para cada situação, é possível ver o código utilizado para acionar a API clicando botão no canto superior direito da tela.

Tela de experimentação das plataformas de voz da OpenAI

Fonte: OpenAI

Posts Relacionados

Marketplace de Projetos

Aqui, você encontrará um portfólio de projetos comerciais publicados pelos veículos da indústria do conteúdo de áudio. Este é o marketplace de oportunidades para as marcas criarem parcerias em eventos, datas comemorativas, programas especiais e de linha.