Uma startup de reprodução de voz com IA em Dubai desafia a Eleven Labs… “Suporta 140 idiomas”



A startup de IA de voz com sede em Dubai, KamAI, lançou um modelo de reprodução de voz que suporta mais de 140 idiomas. O maior nível de realismo que imita não apenas sons, mas também ritmo, emoção e entonação é o que o diferencia.


A Venture Beat informou no dia 11 (horário local) que a startup CalmAI lançou seu modelo de transcrição de voz “Mars5”.


Assim, o Mars 5 suporta mais de 140 idiomas, três vezes mais do que os 36 idiomas suportados pela Eleven Labs, pioneira em IA de voz. Com apenas alguns segundos de entrada, ele replica não apenas sua voz, mas também sua cadência, emoção e tom. A versão somente em inglês está disponível como código aberto no GitHub, e a versão com suporte expandido ao idioma está disponível mediante o pagamento de uma taxa. Estúdio calmoPode ser usado em


A transcrição de áudio e a conversão de texto em fala geralmente são dois serviços separados. A clonagem de fala extrai parâmetros de uma determinada amostra de fala para criar um clone de fala, enquanto a conversão de texto em fala usa esse clone para converter o texto selecionado em fala sintética.


CalmAI combinou duas funções em uma plataforma integrada com Mars 5. Tudo o que o usuário precisa fazer é enviar um arquivo de áudio com duração de alguns segundos a um minuto e fornecer conteúdo de texto. O modelo faz referência à voz do locutor no arquivo de áudio, captura detalhes relevantes, incluindo voz original, estilo de fala, emoção, pronúncia e significado, e os utiliza para sintetizar o texto apresentado no discurso.

READ  Guia de Alimentação Saudável para Idosos para uma Alimentação Saudável - Lanches - Tudo | Cartão/One Shot | Multimídia


Eles afirmam que o Mars 5 pode captar uma variedade de tons e camadas emocionais, lidando com todos os cenários complexos de fala, como quando uma pessoa está frustrada, controlada, calma ou até enérgica.


Esses recursos são “adequados para conteúdo que tradicionalmente é difícil de converter em áudio, como comentários esportivos, filmes e animações”, disse Akshat Prakash, CTO da KamAI.



Para conseguir isso, o Mars 5 combina um modelo de transformação Mistral com aproximadamente 750 milhões de parâmetros e um novo modelo de difusão com aproximadamente 450 milhões de parâmetros para processar símbolos codificados a 6.000 bits por segundo.


Embora os resultados de benchmark específicos ainda não tenham sido revelados, parece que o Mars 5 teve um desempenho geral melhor do que os modelos de código aberto “Metavoice” e de síntese de áudio da Eleven Labs. Também está claro que os produtos concorrentes sintetizaram os sons, mas o Mars 5 parecia mais parecido com o original.


Além disso, “Boli”, um modelo de tradução que apresenta compreensão do contexto, gramática precisa e coloquialismo apropriado, também está programado para ser lançado como código aberto.


“Boli é um modelo de tradução único que supera motores tradicionais como Google Translate e DeepL na captura de nuances e aspectos coloquiais da linguagem, proporcionando uma experiência de tradução mais consistente e natural, especialmente em idiomas de recursos baixos e médios”, disse o CTO. “O feedback mostrou que as traduções do Boli superam as ferramentas convencionais, incluindo modelos generativos modernos como o ChatGPT.”


Atualmente, Mars5 e Boli trabalham em 140 idiomas na plataforma KamAI, Kam Studio. Além disso, essas funções são fornecidas como interfaces de programação de aplicativos (APIs) para empresas, PMEs e desenvolvedores. O CTO Prakash não revelou o número exato de clientes, mas disse que a empresa “trabalha com a Major League Soccer, Tennis Australia, Maple Leaf Sports & Entertainment, grandes estúdios de cinema e música e várias agências governamentais”.

READ  c


Para a Major League Soccer, a Calm AI foi a primeira a transmitir jogos ininterruptos por mais de duas horas seguidas, dublados ao vivo em quatro idiomas. Ele também traduziu a coletiva de imprensa que se seguiu ao jogo do Aberto da Austrália para vários idiomas e também traduziu o filme de suspense psicológico “Três” do árabe para o chinês.


Repórter Park Chan cpark@aitimes.com




Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *