OpenAI представила систему распознавания речи Whisper

22.09.2022 Богдан Каминский

Организация OpenAI представила систему распознавания речи с открытым исходным кодом Whisper, обеспечивающую транскрипцию на нескольких языках.

We've trained a neural net called Whisper that approaches human-level robustness and accuracy on English speech recognition. It performs well even on diverse accents and technical language. Whisper is open source for all to use. https://t.co/ueVywYPEkK
— OpenAI (@OpenAI) September 21, 2022

Согласно анонсу, для обучения модели использовали 680 000 часов многоязычных и мультизадачных данных, собранных из интернета. Благодаря этому система распознает уникальные акценты, фоновый шум и технический жаргон, заявили исследователи.

Whisper транскрибирует аудиодорожку на английском языке с выраженным акцентом. Данные: OpenAI.

По словам разработчиков, Whisper продемонстрировала хорошие результаты распознавания речи примерно на 10 языках.

В компании считают, что модель пригодится исследователям ИИ, изучающим надежность, возможности, ограничения и предубеждения современных моделей.

«Whisper также потенциально весьма полезен в качестве решения для автоматического распознавания речи для разработчиков, особенно для распознавания английской речи», — заявили в OpenAI.

Исследователи признали, что модель имеет свои ограничения, особенно в области предсказания текста. Из-за использования «зашумленных» данных в наборе для обучения Whisper может включать в транскрипцию слова, которые на самом деле не были произнесены. Разработчики предположили, что это связано с попыткой системы предугадать следующее слово в аудио и расшифровать сам звук.

Также Whisper не одинаково хорошо работает на разных языках. Система подвержена большему числу ошибок для тех носителей, чья речь недостаточно представлена в наборе обучающих данных.

Исходный код модели доступен на GitHub.

Напомним, в сентябре OpenAI разрешила редактировать лица в DALL-E 2. Однако разработчики запретили загружать в систему изображения известных людей.

В январе организация представила менее токсичную версию GPT-3, которая производит меньше оскорбительных выражений, дезинформации и ошибок в целом.

Подписывайтесь на новости ForkLog в Telegram: ForkLog AI — все новости из мира ИИ!

Подписывайтесь на ForkLog в социальных сетях

Telegram (основной канал) Facebook X

Нашли ошибку в тексте? Выделите ее и нажмите CTRL+ENTER

Рассылки ForkLog: держите руку на пульсе биткоин-индустрии!

Материалы по теме

Perplexity представила конкурента OpenClaw — Personal Computer

Исследование подтвердило рост рабочей нагрузки после массового внедрения ИИ

Бум ИИ лишил криптоиндустрию больше половины активных разработчиков

Высечь в камне

Google добавила новые ИИ-функции в Docs, Sheets, Slides и Drive

OpenAI добавила Shazam в ChatGPT

Глава Nvidia отверг тезис об ИИ как «убийце рабочих мест»

Инвесторы разочаровались в SoftBank из-за агрессивной ставки на OpenAI

Microsoft запустила ИИ-агента Cowork в Microsoft 365