RADAR
Radar
Busca
Tópicos
Timeline

AudioShake usa IA para separar instrumentos e até vozes sobrepostas em áudios

25/05/2025 | Conteúdo, Inteligência Artifical, Tecnologia

A AudioShake é uma plataforma que utiliza tecnologia de inteligência artificial para separar os elementos que compõem um áudio como, por exemplo, vocais, instrumentos, música, diálogo e efeitos sonoros.

Esses elementos, quando separados, são os chamados “stems”, termo usado em música para se referir às diferentes trilhas de uma gravação.

Recursos da plataforma AudioShake

A AudioShake oferece diferentes funcionalidades para separação de áudio:

  • Separação de stems de instrumentos: Esta funcionalidade divide gravações de músicas em stems instrumentais como vocais, bateria, guitarra, baixo, sopros, piano e outros. Este recurso é utilizado na indústria musical para fins como mixagem, masterização (incluindo gravações ao vivo ou produções sem stems originais), criação de mixes imersivos (como Dolby Atmos e Sony 360), áudio interativo e análise de conteúdo.
  • Separação de diálogo, música e efeitos: Esta capacidade permite isolar diálogo, música e efeitos sonoros. É utilizada em conteúdo de cinema, TV e conteúdos gerados por usuários. Permite extrair stems de diálogo para potencialmente melhorar a precisão da transcrição e legendagem. Também pode ser usada para reter ou remover áudio de fundo para localização ou conformidade com direitos autorais. A tecnologia pode remover ou isolar música de ambientes ruidosos, como eventos esportivos, ou ajustar o ruído da multidão.
  • Transcrição e alinhamento de letras: Este recurso envolve isolar o vocal de uma faixa, transcrever a letra e alinhá-la palavra por palavra com marcações de tempo. É descrito como facilitador de análise de conteúdo, experiências interativas e criação de vídeos com letras ou serviços de karaokê.

O modelo Multi-Speaker para separação de vozes superpostas

Agora, a AudioShake está lançando o modelo Multi-Speaker, um recurso projetado para abordar o desafio da separação de falas superpostas.

O Multi-Speaker é descrito como o primeiro modelo do seu tipo que faz a separação de múltiplos interlocutores com áudio de alta resolução. Sua função é separar um número ilimitado de interlocutores em trilhas de áudio individuais.

Demonstração da separação de vozes superpostas

A tecnologia de IA da AudioShake permite que o Multi-Speaker processe ambientes de áudio que incluem diálogos em multidões, discussões em painéis e entrevistas rápidas, separando-os em fluxos individuais por falante.

Fabian-Robert Stotter, Head de Pesquisa da AudioShake, observa que a separação de múltiplas vozes superpostas é um dos desafios considerados difíceis na separação de áudio, e a solução foi desenvolvida para ser robusta e precisa, mesmo em ambientes altamente desafiadores. Jessica Powell, CEO da AudioShake, indicou que o modelo visa facilitar o trabalho com vozes que, em situações complexas, poderiam ser difíceis de isolar.

Casos de uso do Multi-Speaker

O modelo Multi-Speaker é apresentado como uma ferramenta para profissionais nas indústrias de mídia e conteúdo, visando aprimorar a eficiência do fluxo de trabalho e a clareza do áudio em diversas aplicações:

  • Mídia e entretenimento: Permite obter trilhas de diálogo mais limpas, mesmo em paisagens sonoras complexas.
  • Localização e dublagem: Profissionais de tradução e dublagem podem utilizar trilhas de fala isoladas, o que pode facilitar a realização de dublagens, incluindo em cenários de diálogo rápido ou superposto.
  • Serviços de transcrição e legendagem: Fornece transcrições de conversas que podem ser mais claras e precisas para usos como jornalismo, acessibilidade e sumarização automatizada.
  • Transmissões ao vivo e eventos: Emissoras podem extrair vozes individuais para maior clareza durante entrevistas, comentários esportivos e painéis de discussão.
  • Síntese de voz por IA e pesquisa: A separação pode ser utilizada para potencialmente gerar vozes sintetizadas mais realistas e naturais, beneficiando aplicações em reconhecimento de voz e atendimento ao cliente.

Acesso à tecnologia

A tecnologia da AudioShake, incluindo o modelo Multi-Speaker, está disponível através de sua plataforma web e API. Opções como AudioShake LIVE e API são oferecidas para empresas maiores e desenvolvedores.

Fonte: AudioShake / Podnews

Posts Relacionados

Marketplace de Projetos

Aqui, você encontrará um portfólio de projetos comerciais publicados pelos veículos da indústria do conteúdo de áudio. Este é o marketplace de oportunidades para as marcas criarem parcerias em eventos, datas comemorativas, programas especiais e de linha.