RADAR

Radar

Busca

Tópicos

Timeline

AudioShake usa IA para separar instrumentos e até vozes sobrepostas em áudios

25/05/2025 | Conteúdo, Inteligência Artificial, Tecnologia

A AudioShake é uma plataforma que utiliza tecnologia de inteligência artificial para separar os elementos que compõem um áudio como, por exemplo, vocais, instrumentos, música, diálogo e efeitos sonoros.

Esses elementos, quando separados, são os chamados “stems”, termo usado em música para se referir às diferentes trilhas de uma gravação.

Recursos da plataforma AudioShake

A AudioShake oferece diferentes funcionalidades para separação de áudio:

Separação de stems de instrumentos: Esta funcionalidade divide gravações de músicas em stems instrumentais como vocais, bateria, guitarra, baixo, sopros, piano e outros. Este recurso é utilizado na indústria musical para fins como mixagem, masterização (incluindo gravações ao vivo ou produções sem stems originais), criação de mixes imersivos (como Dolby Atmos e Sony 360), áudio interativo e análise de conteúdo.
Separação de diálogo, música e efeitos: Esta capacidade permite isolar diálogo, música e efeitos sonoros. É utilizada em conteúdo de cinema, TV e conteúdos gerados por usuários. Permite extrair stems de diálogo para potencialmente melhorar a precisão da transcrição e legendagem. Também pode ser usada para reter ou remover áudio de fundo para localização ou conformidade com direitos autorais. A tecnologia pode remover ou isolar música de ambientes ruidosos, como eventos esportivos, ou ajustar o ruído da multidão.
Transcrição e alinhamento de letras: Este recurso envolve isolar o vocal de uma faixa, transcrever a letra e alinhá-la palavra por palavra com marcações de tempo. É descrito como facilitador de análise de conteúdo, experiências interativas e criação de vídeos com letras ou serviços de karaokê.

O modelo Multi-Speaker para separação de vozes superpostas

Agora, a AudioShake está lançando o modelo Multi-Speaker, um recurso projetado para abordar o desafio da separação de falas superpostas.

O Multi-Speaker é descrito como o primeiro modelo do seu tipo que faz a separação de múltiplos interlocutores com áudio de alta resolução. Sua função é separar um número ilimitado de interlocutores em trilhas de áudio individuais.

Demonstração da separação de vozes superpostas

A tecnologia de IA da AudioShake permite que o Multi-Speaker processe ambientes de áudio que incluem diálogos em multidões, discussões em painéis e entrevistas rápidas, separando-os em fluxos individuais por falante.

Fabian-Robert Stotter, Head de Pesquisa da AudioShake, observa que a separação de múltiplas vozes superpostas é um dos desafios considerados difíceis na separação de áudio, e a solução foi desenvolvida para ser robusta e precisa, mesmo em ambientes altamente desafiadores. Jessica Powell, CEO da AudioShake, indicou que o modelo visa facilitar o trabalho com vozes que, em situações complexas, poderiam ser difíceis de isolar.

Casos de uso do Multi-Speaker

O modelo Multi-Speaker é apresentado como uma ferramenta para profissionais nas indústrias de mídia e conteúdo, visando aprimorar a eficiência do fluxo de trabalho e a clareza do áudio em diversas aplicações:

Mídia e entretenimento: Permite obter trilhas de diálogo mais limpas, mesmo em paisagens sonoras complexas.
Localização e dublagem: Profissionais de tradução e dublagem podem utilizar trilhas de fala isoladas, o que pode facilitar a realização de dublagens, incluindo em cenários de diálogo rápido ou superposto.
Serviços de transcrição e legendagem: Fornece transcrições de conversas que podem ser mais claras e precisas para usos como jornalismo, acessibilidade e sumarização automatizada.
Transmissões ao vivo e eventos: Emissoras podem extrair vozes individuais para maior clareza durante entrevistas, comentários esportivos e painéis de discussão.
Síntese de voz por IA e pesquisa: A separação pode ser utilizada para potencialmente gerar vozes sintetizadas mais realistas e naturais, beneficiando aplicações em reconhecimento de voz e atendimento ao cliente.

Acesso à tecnologia

A tecnologia da AudioShake, incluindo o modelo Multi-Speaker, está disponível através de sua plataforma web e API. Opções como AudioShake LIVE e API são oferecidas para empresas maiores e desenvolvedores.

Fonte: AudioShake / Podnews

Posts Relacionados

Audacy: rádio supera a TV no engajamento de fãs de esportes

08/03/2026

Um estudo divulgado pela Audacy aponta que os fãs de esportes demonstram níveis mais altos de engajamento quando consomem conteúdo em áudio do que quando assistem às transmissões pela televisão. O levantamento...

WPP Media apresenta modelo para avaliar plataformas de marketing na era da IA

08/03/2026

A transformação provocada pela inteligência artificial no mercado publicitário levou a WPP Media a desenvolver um novo modelo de análise para ajudar empresas a entender como diferentes plataformas tecnológicas se...

Mídia Clipping 2026 2

05/03/2026

Mídia Clipping é um clipping de tecnologia e negócios com o que ocorrre de estratégico e mais relevante na indústria do conteúdo de áudio. Rádio, podcasts e streaming são o nosso foco. IAB Tech Lab apresenta plano de...

Tempo de consumo de podcasts supera o rádio falado no mercado americano

01/03/2026

A pesquisa Share of Ear, realizada pela Edison Research, é um estudo contínuo sobre os hábitos de consumo de áudio nos Estados Unidos. Ela mede a participação de diferentes formatos de áudio no tempo total que as...

Marketplace de Projetos

Aqui, você encontrará um portfólio de projetos comerciais publicados pelos veículos da indústria do conteúdo de áudio. Este é o marketplace de oportunidades para as marcas criarem parcerias em eventos, datas comemorativas, programas especiais e de linha.

Conheça as Rádios

Executiva FM Brasília

Brasília - DF

Alternativa FM

São Brás do Suaçuí - MG

Pesquisar

Escolha um Tópico

Audiobooks
Carro Conectado
Casa Conectada
Comercialização
Conteúdo
Direitos
Dispositivos
Geral
Inteligência Artificial
Mercado
Métricas
Mídias Digitais
Mobile
Negócios
Podcasting
Publicidade
Rádio Híbrido
Rádio Online
Rádio OTA
Rádio por Assinatura
Redes Sociais
Serviços de Música
Smart Speakers
Tecnologia
TV
Wearable

Cookie	Duração	Descrição
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.