Amazon выпустила ИИ-модель для общения голосом

Amazon AI Амазон ИИ

Компания Amazon представила новую генеративную ИИ-модель Nova Sonic для общения голосом. Ее производительность сопоставима с передовыми решениями от OpenAI и Google по скорости, распознаванию речи и качеству разговора, утверждают в компании. 

Amazon назвала Nova Sonic «самой экономичной» голосовой моделью ИИ на рынке — примерно на 80% дешевле GPT-4o от OpenAI. Она доступна через платформу для разработчиков Bedrock. 

«Компоненты» нейросети уже используются в обновленном помощнике Alexa+. Она в ходе двустороннего диалога способна говорить «в подходящий момент», учитывая паузы и прерывания со стороны говорящего. 

Nova Sonic использует «архитектуру единой модели», которая якобы лучше подхода, подразумевающего объединение отдельных решений для распознавания речи, ее преобразования в текст, генерации ответа и превращения его в аудио. 

Утверждается, что Nova Sonic меньше ошибается в распознавании речи по сравнению с конкурентами. Она хорошо понимает намерения пользователя даже в том случае, если тот бормочет, неправильно произносит слова или находится в шумной обстановке. 

В бенчмарке Multilingual LibriSpeech, измеряющем распознавание речи на разных языках и диалектах, Nova Sonic достигла коэффициента ошибок 4,2% по английскому, французскому, итальянскому, немецкому и испанскому языкам. Это означает, что примерно четыре из каждых 100 слов она понимала неправильно.

В Augmented Multi Party Interaction, измеряющем взаимодействие с несколькими участниками, Nova Sonic оказалась на 46,7% точнее GPT-4o-transcribe от OpenAI. Она также обладает лучшей в индустрии скоростью: средняя задержка восприятия составляет 1,09 секунды. 

Компания считает, что с помощью ее нового решения можно создавать различные инструменты вроде ботов для обслуживания клиентов или ИИ-агентов для туристической отрасли.

Напомним, в апреле Amazon обновила видеогенератор Nova Reel до версии 1.1. Пользователи могут создавать «многокадровые» ролики длительностью до двух минут с «последовательностью стиля».

В декабре 2024 года компания представила новое поколение ИИ-моделей Amazon Nova для широкого спектра задач. Нейросети способны обрабатывать текст, изображения и видео.

Подписывайтесь на ForkLog в социальных сетях

Telegram (основной канал) Discord Instagram
Нашли ошибку в тексте? Выделите ее и нажмите CTRL+ENTER

Рассылки ForkLog: держите руку на пульсе биткоин-индустрии!

*Ежедневная рассылка — краткая сводка наиболее важных новостей предыдущего дня. Чтение занимает не больше двух минут. Выходит в рабочие дни в 06:00 (UTC)
*Еженедельная рассылка — объясняем, кто и как изменил индустрию за неделю. Идеально подходит для тех, кто не успевает за новостным потоком в течение дня. Выходит в пятницу в 16:00 (UTC).

Мы используем файлы cookie для улучшения качества работы.

Пользуясь сайтом, вы соглашаетесь с Политикой приватности.

OK
Exit mobile version