RADAR
Radar
Busca
Tópicos
Timeline

AudioShake usa IA para separar instrumentos e até vozes sobrepostas em áudios

25/05/2025 | Conteúdo, Inteligência Artifical, Tecnologia

A AudioShake é uma plataforma que utiliza tecnologia de inteligência artificial para separar os elementos que compõem um áudio como, por exemplo, vocais, instrumentos, música, diálogo e efeitos sonoros.

Esses elementos, quando separados, são os chamados “stems”, termo usado em música para se referir às diferentes trilhas de uma gravação.

Recursos da plataforma AudioShake

A AudioShake oferece diferentes funcionalidades para separação de áudio:

  • Separação de stems de instrumentos: Esta funcionalidade divide gravações de músicas em stems instrumentais como vocais, bateria, guitarra, baixo, sopros, piano e outros. Este recurso é utilizado na indústria musical para fins como mixagem, masterização (incluindo gravações ao vivo ou produções sem stems originais), criação de mixes imersivos (como Dolby Atmos e Sony 360), áudio interativo e análise de conteúdo.
  • Separação de diálogo, música e efeitos: Esta capacidade permite isolar diálogo, música e efeitos sonoros. É utilizada em conteúdo de cinema, TV e conteúdos gerados por usuários. Permite extrair stems de diálogo para potencialmente melhorar a precisão da transcrição e legendagem. Também pode ser usada para reter ou remover áudio de fundo para localização ou conformidade com direitos autorais. A tecnologia pode remover ou isolar música de ambientes ruidosos, como eventos esportivos, ou ajustar o ruído da multidão.
  • Transcrição e alinhamento de letras: Este recurso envolve isolar o vocal de uma faixa, transcrever a letra e alinhá-la palavra por palavra com marcações de tempo. É descrito como facilitador de análise de conteúdo, experiências interativas e criação de vídeos com letras ou serviços de karaokê.

O modelo Multi-Speaker para separação de vozes superpostas

Agora, a AudioShake está lançando o modelo Multi-Speaker, um recurso projetado para abordar o desafio da separação de falas superpostas.

O Multi-Speaker é descrito como o primeiro modelo do seu tipo que faz a separação de múltiplos interlocutores com áudio de alta resolução. Sua função é separar um número ilimitado de interlocutores em trilhas de áudio individuais.

Demonstração da separação de vozes superpostas

A tecnologia de IA da AudioShake permite que o Multi-Speaker processe ambientes de áudio que incluem diálogos em multidões, discussões em painéis e entrevistas rápidas, separando-os em fluxos individuais por falante.

Fabian-Robert Stotter, Head de Pesquisa da AudioShake, observa que a separação de múltiplas vozes superpostas é um dos desafios considerados difíceis na separação de áudio, e a solução foi desenvolvida para ser robusta e precisa, mesmo em ambientes altamente desafiadores. Jessica Powell, CEO da AudioShake, indicou que o modelo visa facilitar o trabalho com vozes que, em situações complexas, poderiam ser difíceis de isolar.

Casos de uso do Multi-Speaker

O modelo Multi-Speaker é apresentado como uma ferramenta para profissionais nas indústrias de mídia e conteúdo, visando aprimorar a eficiência do fluxo de trabalho e a clareza do áudio em diversas aplicações:

  • Mídia e entretenimento: Permite obter trilhas de diálogo mais limpas, mesmo em paisagens sonoras complexas.
  • Localização e dublagem: Profissionais de tradução e dublagem podem utilizar trilhas de fala isoladas, o que pode facilitar a realização de dublagens, incluindo em cenários de diálogo rápido ou superposto.
  • Serviços de transcrição e legendagem: Fornece transcrições de conversas que podem ser mais claras e precisas para usos como jornalismo, acessibilidade e sumarização automatizada.
  • Transmissões ao vivo e eventos: Emissoras podem extrair vozes individuais para maior clareza durante entrevistas, comentários esportivos e painéis de discussão.
  • Síntese de voz por IA e pesquisa: A separação pode ser utilizada para potencialmente gerar vozes sintetizadas mais realistas e naturais, beneficiando aplicações em reconhecimento de voz e atendimento ao cliente.

Acesso à tecnologia

A tecnologia da AudioShake, incluindo o modelo Multi-Speaker, está disponível através de sua plataforma web e API. Opções como AudioShake LIVE e API são oferecidas para empresas maiores e desenvolvedores.

Fonte: AudioShake / Podnews

Posts Relacionados
Mídia Clipping 2025 12
Mídia Clipping 2025 12

ElevenLabs lança o Iconic Marketplace para licenciamento de vozes históricas O marketplace é uma plataforma que conecta empresas e criadores interessados em licenciar vozes icônicas aos detentores de direitos de imagem...

Marketplace de Projetos

Aqui, você encontrará um portfólio de projetos comerciais publicados pelos veículos da indústria do conteúdo de áudio. Este é o marketplace de oportunidades para as marcas criarem parcerias em eventos, datas comemorativas, programas especiais e de linha.