OpenAI представила систему распознавания речи Whisper
Организация OpenAI представила систему распознавания речи с открытым исходным кодом Whisper, обеспечивающую транскрипцию на нескольких языках.
Согласно анонсу, для обучения модели использовали 680 000 часов многоязычных и мультизадачных данных, собранных из интернета. Благодаря этому система распознает уникальные акценты, фоновый шум и технический жаргон, заявили исследователи.
По словам разработчиков, Whisper продемонстрировала хорошие результаты распознавания речи примерно на 10 языках.
В компании считают, что модель пригодится исследователям ИИ, изучающим надежность, возможности, ограничения и предубеждения современных моделей.
«Whisper также потенциально весьма полезен в качестве решения для автоматического распознавания речи для разработчиков, особенно для распознавания английской речи», — заявили в OpenAI.
Исследователи признали, что модель имеет свои ограничения, особенно в области предсказания текста. Из-за использования «зашумленных» данных в наборе для обучения Whisper может включать в транскрипцию слова, которые на самом деле не были произнесены. Разработчики предположили, что это связано с попыткой системы предугадать следующее слово в аудио и расшифровать сам звук.
Также Whisper не одинаково хорошо работает на разных языках. Система подвержена большему числу ошибок для тех носителей, чья речь недостаточно представлена в наборе обучающих данных.
Исходный код модели доступен на GitHub.
Напомним, в сентябре OpenAI разрешила редактировать лица в DALL-E 2. Однако разработчики запретили загружать в систему изображения известных людей.
В январе организация представила менее токсичную версию GPT-3, которая производит меньше оскорбительных выражений, дезинформации и ошибок в целом.
Подписывайтесь на новости ForkLog в Telegram: ForkLog AI — все новости из мира ИИ!
Рассылки ForkLog: держите руку на пульсе биткоин-индустрии!