RADAR

Radar

Busca

Tópicos

Timeline

OpenAI lança modelos de voz text-to-speech e speech-to-text avançados

11/05/2025 | Inteligência Artificial

A OpenAI lançou novos modelos de áudio de fala para texto (speech-to-text) e de texto para fala (text-to-speech) na API – tornando possível a criação de agentes de voz mais poderosos, personalizáveis e inteligentes que oferecem valor real.

Segundo a OpenAI, os novos modelos de fala para texto estabelecem um novo padrão de referência, superando soluções existentes em precisão e confiabilidade – especialmente em cenários desafiadores, como sotaques, ambientes barulhentos e variações de velocidade da fala. Essas melhorias aumentam a confiabilidade da transcrição, tornando os modelos especialmente adequados para casos de uso como centrais de atendimento ao cliente, transcrição de reuniões, entre outros. Vale notar que, nos testes realizados pela OpenAI, as transcrições em português tiveram uma taxa de erro (WER) muito baixa, atrás apenas do inglês e do espanhol.

Já os modelos de texto para fala, permitem que desenvolvedores especifiquem não apenas o conteúdo da fala, mas também o estilo com que ela é transmitida – como, por exemplo, instruir o modelo a falar com o “tom de um atendente simpático de atendimento ao cliente”. Esse avanço amplia significativamente o potencial de personalização dos agentes de voz, viabilizando aplicações que exigem vozes mais empáticas e dinâmicas em contextos de atendimento, além de narrações expressivas para experiências criativas de storytelling.

Os novos modelos são uma evolução da primeira versão lançada em 2022 e apresentam melhorias na inteligência, precisão e confiabilidade. Com eles, os desenvolvedores podem criar sistemas de fala para texto mais precisos e robustos e vozes de texto para fala mais expressivas e com personalidade – tudo acessível via API.

Ouça os exemplos a seguir de produção text-to-speech com o novo modelo:

Calmo

Surfista

Profissional

Cavaleiro medieval

Fã de crimes reais

História de ninar

É interessante notar como essas diferentes vozes são construídas a partir de prompts. Por exemplo, veja a seguir as descrições utilizadas para os estilos de voz Profissional e Calmo e note as diferenças:

Profissional

Voz: Clara, autoritária e serena, transmitindo confiança e profissionalismo.
Tom: Neutro e informativo, mantendo um equilíbrio entre formalidade e acessibilidade.
Pontuação: Estruturada com vírgulas e pausas para dar clareza, garantindo que a informação seja compreensível e bem ritmada.
Entonação: Constante e controlada, com leve ênfase em números-chave e prazos para destacar os pontos mais importantes.

Calmo

Afeto na voz: Calma, serena e tranquilizadora; transmita uma autoridade silenciosa e confiante.
Tom: Sincero, empático e gentilmente autoritário — expresse um pedido de desculpas genuíno enquanto demonstra competência.
Ritmo: Constante e moderado; sem pressa para transmitir cuidado, mas eficiente o suficiente para demonstrar profissionalismo.
Emoção: Empatia e compreensão autênticas; fale com calor, especialmente ao pedir desculpas (“Sinto muito por qualquer transtorno…”).
Pronúncia: Clara e precisa, com ênfase em palavras-chave de tranquilização (“sem problemas”, “rapidamente”, “prontamente”) para reforçar a confiança.
Pausas: Pequenas pausas após oferecer ajuda ou solicitar informações, destacando a disposição para ouvir e apoiar.

Embora o lançamento dos novos modelos da OpenAI tenha enfatizado experiências conversacionais e agentes de voz, as ferramentas têm grande aplicação também na indústria do conteúdo de áudio em geral. Aqui, o fato importante é que a precisão e a qualidade estão subindo de patamar.

Experimente a plataforma seguindo o link OpenAI. Observe que, para cada situação, é possível ver o código utilizado para acionar a API clicando botão no canto superior direito da tela.

Tela de experimentação das plataformas de voz da OpenAI

Fonte: OpenAI

Posts Relacionados

WPP Media apresenta modelo para avaliar plataformas de marketing na era da IA

08/03/2026

A transformação provocada pela inteligência artificial no mercado publicitário levou a WPP Media a desenvolver um novo modelo de análise para ajudar empresas a entender como diferentes plataformas tecnológicas se...

YouTube amplia dublagem automática e impulsiona alcance global de podcasts em vídeo

01/03/2026

O YouTube anunciou que a dublagem automática de vídeos está agora disponível para todos, com suporte a 27 idiomas. Além disto, o português e mais sete idiomas – inglês, francês, alemão, hindi, indonésio, italiano e...

Scribe v2: modelo de transcrição de voz para texto da ElevenLabs ganha precisão e funcionalidades

22/02/2026

Em fevereiro de 2025, a startup de inteligência artificial ElevenLabs apresentou o Scribe, seu primeiro modelo de reconhecimento automático de voz (ASR - Automatic Speech Recognition). A proposta inicial era oferecer...

Produção de podcasts alcança maior nível desde a pandemia e entra em novo patamar

15/02/2026

O número de podcasts ativos avançou de forma significativa em 2025, consolidando o ano como um marco para a indústria global de áudio sob demanda. Dados da Listen Notes mostram que 362.047 podcasts publicaram ao menos...

Marketplace de Projetos

Aqui, você encontrará um portfólio de projetos comerciais publicados pelos veículos da indústria do conteúdo de áudio. Este é o marketplace de oportunidades para as marcas criarem parcerias em eventos, datas comemorativas, programas especiais e de linha.

Conheça as Rádios

Atlântida FM Florianópolis

Luís Eduardo Magalhães - BA

Rádio Imprensa

Anápolis - GO

Sudoeste FM

São Pedro da Aldeia - RJ

Rádio Cultura

Guaíra - SP

Pesquisar

Escolha um Tópico

Audiobooks
Carro Conectado
Casa Conectada
Comercialização
Conteúdo
Direitos
Dispositivos
Geral
Inteligência Artificial
Mercado
Métricas
Mídias Digitais
Mobile
Negócios
Podcasting
Publicidade
Rádio Híbrido
Rádio Online
Rádio OTA
Rádio por Assinatura
Redes Sociais
Serviços de Música
Smart Speakers
Tecnologia
TV
Wearable

Cookie	Duração	Descrição
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.