A AudioShake é uma plataforma que utiliza tecnologia de inteligência artificial para separar os elementos que compõem um áudio como, por exemplo, vocais, instrumentos, música, diálogo e efeitos sonoros.
Esses elementos, quando separados, são os chamados “stems”, termo usado em música para se referir às diferentes trilhas de uma gravação.
Recursos da plataforma AudioShake
A AudioShake oferece diferentes funcionalidades para separação de áudio:
- Separação de stems de instrumentos: Esta funcionalidade divide gravações de músicas em stems instrumentais como vocais, bateria, guitarra, baixo, sopros, piano e outros. Este recurso é utilizado na indústria musical para fins como mixagem, masterização (incluindo gravações ao vivo ou produções sem stems originais), criação de mixes imersivos (como Dolby Atmos e Sony 360), áudio interativo e análise de conteúdo.
- Separação de diálogo, música e efeitos: Esta capacidade permite isolar diálogo, música e efeitos sonoros. É utilizada em conteúdo de cinema, TV e conteúdos gerados por usuários. Permite extrair stems de diálogo para potencialmente melhorar a precisão da transcrição e legendagem. Também pode ser usada para reter ou remover áudio de fundo para localização ou conformidade com direitos autorais. A tecnologia pode remover ou isolar música de ambientes ruidosos, como eventos esportivos, ou ajustar o ruído da multidão.
- Transcrição e alinhamento de letras: Este recurso envolve isolar o vocal de uma faixa, transcrever a letra e alinhá-la palavra por palavra com marcações de tempo. É descrito como facilitador de análise de conteúdo, experiências interativas e criação de vídeos com letras ou serviços de karaokê.
O modelo Multi-Speaker para separação de vozes superpostas
Agora, a AudioShake está lançando o modelo Multi-Speaker, um recurso projetado para abordar o desafio da separação de falas superpostas.
O Multi-Speaker é descrito como o primeiro modelo do seu tipo que faz a separação de múltiplos interlocutores com áudio de alta resolução. Sua função é separar um número ilimitado de interlocutores em trilhas de áudio individuais.
A tecnologia de IA da AudioShake permite que o Multi-Speaker processe ambientes de áudio que incluem diálogos em multidões, discussões em painéis e entrevistas rápidas, separando-os em fluxos individuais por falante.
Fabian-Robert Stotter, Head de Pesquisa da AudioShake, observa que a separação de múltiplas vozes superpostas é um dos desafios considerados difíceis na separação de áudio, e a solução foi desenvolvida para ser robusta e precisa, mesmo em ambientes altamente desafiadores. Jessica Powell, CEO da AudioShake, indicou que o modelo visa facilitar o trabalho com vozes que, em situações complexas, poderiam ser difíceis de isolar.
Casos de uso do Multi-Speaker
O modelo Multi-Speaker é apresentado como uma ferramenta para profissionais nas indústrias de mídia e conteúdo, visando aprimorar a eficiência do fluxo de trabalho e a clareza do áudio em diversas aplicações:
- Mídia e entretenimento: Permite obter trilhas de diálogo mais limpas, mesmo em paisagens sonoras complexas.
- Localização e dublagem: Profissionais de tradução e dublagem podem utilizar trilhas de fala isoladas, o que pode facilitar a realização de dublagens, incluindo em cenários de diálogo rápido ou superposto.
- Serviços de transcrição e legendagem: Fornece transcrições de conversas que podem ser mais claras e precisas para usos como jornalismo, acessibilidade e sumarização automatizada.
- Transmissões ao vivo e eventos: Emissoras podem extrair vozes individuais para maior clareza durante entrevistas, comentários esportivos e painéis de discussão.
- Síntese de voz por IA e pesquisa: A separação pode ser utilizada para potencialmente gerar vozes sintetizadas mais realistas e naturais, beneficiando aplicações em reconhecimento de voz e atendimento ao cliente.
Acesso à tecnologia
A tecnologia da AudioShake, incluindo o modelo Multi-Speaker, está disponível através de sua plataforma web e API. Opções como AudioShake LIVE e API são oferecidas para empresas maiores e desenvolvedores.
Fonte: AudioShake / Podnews