A Amazon anunciou nesta terça-feira (8) o Nova Sonic, novo modelo de inteligência artificial especializado em voz, que promete transformar a forma como humanos interagem com máquinas. Segundo a empresa, o sistema é capaz de compreender e gerar fala com naturalidade, proporcionando conversas mais fluidas e realistas.
De acordo com testes divulgados pela Amazon, o Nova Sonic supera modelos de grandes concorrentes como OpenAI e Google em reconhecimento de fala, qualidade da conversação e velocidade de resposta. A tecnologia chega como uma evolução frente a assistentes como Alexa e Siri, que hoje são consideradas limitadas em termos de naturalidade.
Um dos principais atrativos do Nova Sonic é o custo: ele é cerca de 80% mais barato do que o modelo GPT-4o, da OpenAI, tornando-se uma opção mais acessível para aplicações em larga escala. O modelo está disponível por meio da plataforma Bedrock, voltada ao desenvolvimento de soluções de IA no setor corporativo.
Segundo Rohit Prasad, vice-presidente sênior e cientista-chefe de IA Geral da Amazon, o Nova Sonic se baseia na experiência acumulada com a Alexa e oferece recursos mais avançados, como a capacidade de acionar APIs em tempo real para buscar dados e executar comandos com mais precisão.
O modelo também já está parcialmente implementado na Alexa+, nova versão da assistente de voz da Amazon. Entre os destaques técnicos, o Nova Sonic detecta pausas e interrupções naturais durante as conversas, gera transcrições automáticas e apresenta alta taxa de acerto mesmo em ambientes ruidosos.
Em avaliações de desempenho, o modelo obteve uma taxa de erro de apenas 4,2% no teste Multilingual LibriSpeech — que mede reconhecimento de fala em idiomas como inglês, francês, italiano, alemão e espanhol — e foi 46,7% mais preciso que o GPT-4o-transcribe no teste Augmented Multi Party Interaction, que simula ambientes com múltiplos falantes e ruídos.
Com o Nova Sonic, a Amazon se posiciona com força no competitivo mercado de IA por voz, mirando não só consumidores finais, mas também empresas que buscam soluções de conversação mais eficientes e acessíveis.