OpenAI выпустила альфа-версию продвинутого голосового помощника

OpenAI-min
OpenAI-min

OpenAI представила альфа-версию продвинутого голосового режима GPT-4o для небольшой группы пользователей ChatGPT Plus. Для всех владельцев подписки он станет доступен осенью. 

Участники альфа-группы получат оповещение в приложении и электронное письмо с инструкцией по использованию нового режима. Пользователи могут общаться с ChatGPT голосом и получать ответы в реальном времени без задержек, а также перебивать искусственный интеллект во время его речи. 

В мае OpenAI представила последнюю модель чат-бота GPT-4o и анонсировала добавление специального режима Voice Mode для общения голосом. Запуск альфа-версии планировался к концу июня, но его перенесли на месяц. 

Некоторые продемонстрированные в мае возможности ИИ не вошли в запущенную альфа-версию, включая совместное использование экрана и поддержку видео. Они будут представлены позже. 

Расширенный голосовой режим

Стандартный голосовой режим ChatGPT использует три отдельные модели:

  • одну для преобразования голоса в текст;
  • другую для обработки запроса;
  • третью для конвертации текста в голос.

Новое решение мультимодального GPT-4o отличается, поскольку не использует вспомогательные модели. Благодаря этому разговор ведется с меньшей задержкой. По словам OpenAI, чат-бот может улавливать эмоциональные интонации в голосе вроде грусти или волнения. 

ChatGPT может общаться на четырех голосах, записанных в сотрудничестве с актерами озвучивания. Он не будет имитировать речь других людей. Дополнительно добавлены фильтры для отклонения некоторых запросов на создание музыки или других форм защищенного авторским правом контента. 

Напомним, в июле OpenAI сообщила о тестировании новых функций поиска на базе ИИ — SearchGPT. 

В том же месяце СМИ узнали о работе компании Сэма Альтмана над новой технологией Strawberry, которая «значительно улучшит процесс рассуждения ИИ-моделей и даст им возможность планировать действия наперед». 

Подписывайтесь на ForkLog в социальных сетях

Telegram (основной канал) Discord Instagram
Нашли ошибку в тексте? Выделите ее и нажмите CTRL+ENTER

Рассылки ForkLog: держите руку на пульсе биткоин-индустрии!

*Ежедневная рассылка — краткая сводка наиболее важных новостей предыдущего дня. Чтение занимает не больше двух минут. Выходит в рабочие дни в 06:00 (UTC)
*Еженедельная рассылка — объясняем, кто и как изменил индустрию за неделю. Идеально подходит для тех, кто не успевает за новостным потоком в течение дня. Выходит в пятницу в 16:00 (UTC).

Мы используем файлы cookie для улучшения качества работы.

Пользуясь сайтом, вы соглашаетесь с Политикой приватности.

OK