Что такое компьютерное зрение? (машинное обучение)

Computer_vision-min
ПродвинутыйИскусственный интеллект
Computer_vision-min
ПродвинутыйИскусственный интеллект

Что такое компьютерное зрение?

Компьютерное зрение (Computer Vision, CV) — это область машинного обучения и компьютерных наук, помогающая вычислительным машинам понимать мир путем распознавания визуальных образов и обнаружения объектов, как это делают люди.

Технология является одним из подразделов искусственного интеллекта.

Для создания алгоритмов компьютерного зрения используются как классические методы машинного обучения, так и глубокие нейронные сети, включая сверточные (CNN).

Когда появилось компьютерное зрение?

В конце 1960 годов пионеры в области искусственного интеллекта начали интенсивнее обсуждать вопросы распознавания образов с помощью компьютерных алгоритмов. Тогда ученые считали, что имитация зрительной системы человека поможет наделить роботов разумным поведением.

В 1966 году они предложили подключить камеру к компьютеру и заставить машину «описывать увиденное», однако технологии того времени не позволили реализовать задуманное.

Исследования 1970 годов заложили ранние основы для многих алгоритмов компьютерного зрения, существующих сегодня, включая выделение границ на изображениях, маркировку линий, оценку движения и прочее.

В следующем десятилетии ученые работали над более строгим математическим анализом и количественными аспектами технологии.

К концу 1990 годов произошли значительные изменения с усилением взаимодействия между областями компьютерной графики и компьютерного зрения. Это включало рендеринг на основе изображения, интерполяцию вида, сшивание панорамных кадров и прочее.

Это десятилетие также ознаменовалось первым использованием методов статистического обучения на практике для распознавания лиц на фотографиях.

В начале XXI века наблюдалось возрождение основанных на функциях методов, которые начали использовать в сочетании с машинным обучением и сложными структурами оптимизации. Однако настоящая революция произошла лишь с развитием области глубокого обучения, точность которого превзошла все существующие на тот момент подходы.

В 2012 году на конкурсе ImageNet сверточная нейронная сеть AlexNet вошла в топ-5 алгоритмов с уровнем ошибок 15,3%. В 2015 году нейросеть победила в конкурсе. Именно это событие считается отправной точкой в современной истории компьютерного зрения.

Как работает компьютерное зрение?

Миссия компьютерного зрения — научить вычислительную машину видеть и понимать окружение с помощью цифровых фотографий и видеозаписей. Для достижения этой цели используются три компонента:

  • получение изображений;
  • обработка информации;
  • анализ данных.

Получение изображений — это процесс превращения аналогового мира в цифровой вид. Для этого используются веб-камеры, цифровые и зеркальные фотоаппараты, а также профессиональные 3D-камеры и лазерные дальномеры.

Полученные такими способами данные необходимо в дальнейшем обработать и проанализировать для извлечения максимальной выгоды.

Следующий этап компьютерного зрения — это низкоуровневая обработка данных. Она необходима для определения краев, точек и сегментов изображения, являющихся простыми геометрическими фигурами.

Как правило, обработка данных осуществляется с помощью сложных математических алгоритмов. Популярными методами низкоуровневого анализа являются:

  • выделение границ, или edge detection;
  • сегментация;
  • классификация и обнаружение объектов.

Выделение границ предполагает разнообразие математических методов, цель которых идентифицировать точки в изображениях. Алгоритм анализирует рисунок и переводит его в набор изогнутых отрезков и линий. Этот метод используется для выделения наиболее важных частей изображения, что позволяет уменьшить количество обрабатываемых данных.

Что такое компьютерное зрение? (машинное обучение)
Изображение, обработанное методом выделения границ. Данные: Towards Data Science.

Сегментация обычно используется для определения местоположения объектов и границ на изображениях. В процессе обработки алгоритм присваивает метку каждому пикселю, чтобы в дальнейшем их можно было объединить по определенным характеристикам.

В результате получается набор сегментов, охватывающих все части изображения или извлеченные из него контуры.

Что такое компьютерное зрение? (машинное обучение)
Сегментация изображений с использованием глубокого обучения. Данные: Towards Data Science.

Классификация изображений предполагает извлечение информации об их содержании. В качестве примера часто приводится задача по определению наличия кота на фотографии: модель анализирует данные и пытается ответить на этот вопрос «да» или «нет».

Классификация изображений лежит в основе другого, более сложного алгоритма в компьютерном зрении — обнаружение объектов. Это позволяет, например, отличить на одном изображении кота от собаки и других известных ему предметов.

Что такое компьютерное зрение? (машинное обучение)
Классификация и обнаружение объектов. Данные: LaptrinhX.

Анализ и понимание изображений — это последний шаг в компьютерном зрении, позволяющий машинам принимать собственные решения. На этом этапе используются высокоуровневые данные, полученные из предыдущего шага. Примером высокоуровневого анализа может быть отображение трехмерной сцены, распознавание или отслеживание объектов.

Где используется компьютерное зрение?

На сегодня методы компьютерного зрения используются во многих областях.

Безопасность

Приложения с компьютерным зрением позволяют в режиме реального времени обрабатывать потоки с камер видеонаблюдения, распознавать объекты, определять вторжение в запретные зоны, автоматически пропускать автомобили по номерному знаку и многое другое.

Распознавание лиц

Технология активно используется для аутентификации пользователей в различных ситуациях, начиная от предоставления доступа к охраняемому объекту, заканчивая разблокировкой смартфона.

В последнее время подобные системы часто критикуют некоторые правозащитные организации и политики. Они считают, что широкое распространение систем распознавания лиц угрожает правам и свободам человека, а использование технологии следует ограничить.

Беспилотные автомобили

Набор камер и алгоритмов позволяет робомобилю ориентироваться в пространстве, различать движущиеся и статичные объекты, реагировать на их внезапное появление. На сегодня множество автопроизводителей, среди которых GM, Toyota, BMW и другие активно работают над созданием полностью автономного транспорта.

Значительных успехов добилась компания Tesla, выпустив программы помощи водителю Autopilot и Full Self-Driving. Они позволяют автомобилю контролировать скорость, распознавать светофоры, дорожные знаки, другие автомобили, самостоятельно поворачивать на перекрестках и перестраиваться из полосы в полосу. При этом вмешательство водителя не требуется, однако он должен присутствовать за рулем.

Робототехника

Аналогично беспилотным автомобилям, компьютерное зрение помогает роботам ориентироваться в пространстве, определять объекты и препятствия, а также взаимодействовать с предметами и людьми.

На сегодня не существует универсального алгоритма, позволяющего умным устройствам видеть и понимать любую среду, в которую их помещают. Каждого робота, созданного под определенную задачу, обучают выполнять именно ее.

Дополненная реальность

AR-технологии активно используют алгоритмы компьютерного зрения для распознавания объектов реального мира. Это позволяет определять поверхности и их размеры, чтобы 3D-модели могли правильно на них расположиться. 

Например, в 2017 году IKEA выпустила приложение, позволяющее пользователю через дополненную реальность посмотреть, как будет выглядеть мебель в комнате. Виртуальную копию изделия можно осмотреть со всех сторон в натуральную величину.

Распознавание движений и жестов

Алгоритмы компьютерного зрения также нашли применение в кинопроизводстве, создании видеоигр, распознавании паттернов поведения посетителей магазина, анализе активности спортсменов и прочее.

Восстановление и обработка изображений

Технология активно используется для реставрации старых изображений, колоризации черно-белых снимков, апскейлинге видеозаписей до формата 4К, а также увеличение разрешения в видеоиграх.

Какие проблемы в области компьютерного зрения?

На сегодня разработчики алгоритмов компьютерного зрения сталкиваются с рядом трудностей. Одна из них — это малое количество исходных данных. 

Несмотря на широкое распространение и удешевление фото и видеоаппаратуры, дата сайентисты не всегда имеют в своем распоряжении достаточное количество материалов для обучения алгоритмов. Это может быть связано с законодательными регулированием, этическими соображениями и географическими барьерами.

Например, разработчику алгоритма распознавания видов посевных культур на сельскохозяйственных полях не всегда удается самостоятельно собрать необходимые фото-, видеоматериалы для обучения высокоточного алгоритма. Ему приходится пользоваться данными из открытых источников или полученными от третьих лиц.

Отсюда вытекает другая проблема — низкое качество обучающих материалов. Сюда относятся как фото и видео в низком разрешении, так и ошибки в датасетах, которые сильно влияют на конечный результат.

Разметка данных — это сложный, долгий и монотонный ручной труд. В данном процессе людям свойственно ошибаться, поэтому часто встречаются случаи, когда датасеты содержат неправильные подписи, не до конца выделенные объекты и прочие артефакты.

В апреле 2021 года ученые из Массачусетского технологического института выяснили, что 5,8% изображений одного из самых популярных тестовых наборов данных ImageNet подписаны неправильно. Среди самых распространенных ошибок — неправильные подписи объектов: на фотографиях гриб может быть отмечен как ложка, а лягушка — кошкой.

Такие оплошности в тестовых датасетах влияют на качество работы алгоритмов машинного обучения. Исследователи призвали разработчиков алгоритмов ИИ тщательнее соблюдать «гигиену» при работе с данными, создавая свои модели.

Еще одно ограничение — вычислительные ресурсы. Для обработки больших объемов медиаданных требуется дорогое и мощное «железо». Частично проблему решают облачные сервисы, однако для передачи огромных объемов данных необходимо стабильное широкополосное интернет-соединение, особенно если говорить про обработку видеопотоков в режиме реального времени.

Решить эту проблему могут граничные вычисления, или edge computing. Это парадигма, согласно которой обработка данных происходит непосредственно в местах их сбора. Производить соответствующие вычисления можно как на одноплатных компьютерах вроде Raspberry Pi или Nvidia Jetson, так и видеокамерах, оборудованных вычислительным процессором и ИИ-алгоритмами. 

При использовании устройств для граничных вычислений на центральный сервер передаются уже высокоуровневые данные, которые позволяют аналитическим инструментам делать какие-либо выводы.

Тем не менее до реализации данной концепции еще далеко: несмотря на дешевизну одноплатных компьютеров, они все еще не обладают достаточными мощностями для обработки больших массивов данных, особенно видео в режиме реального времени.

Какие тренды в области компьютерного зрения?

Одним из главных направлений в области компьютерного зрения являются генеративно-состязательные нейросети (GAN). В последнее время эти алгоритмы используются не просто для стилизации фотографий и видео под картины известных художников, но и для создания качественных подделок.

Например, проект This Person Does not Exist использует GAN для генерирования фотореалистичных изображений людей, которых на самом деле не существует. По схожему принципу работают и другие проекты: алгоритм по созданию ненастоящих котов This Cat Does not Exist, или кроссовок — This Sneaker Does not Exist.

Подобные алгоритмы позволяют исследователям и разработчикам создавать синтетические наборы данных для обучения моделей. Такие датасеты легче собрать и они решают некоторые правовые и этические вопросы использования изображений.

Стартапы из области генерирования данных уже успешно реализовывают данную концепцию. В октябре 2021 года Gretel.ai привлекла $50 млн на поддержку платформы для генерации синтетических датасетов. В июле 2021 года Британская компания Mindtech получила $3,25 млн на развитие сервиса для обучения алгоритмов компьютерного зрения с помощью сгенерированных данных.

Другим важным направлением в области является моделирование 3D-сцен. Для реализации данной задумки разрабатываются специальные алгоритмы, которые, используя серию фотографий с разных ракурсов, способны воссоздать сцену в трехмерном пространстве.

Эту технологию активно используют в строительстве, робототехнике, анимации, дизайне интерьеров и военном деле.

Исследователи отмечают, что на сегодня алгоритмам тяжело воспроизводить сложные текстуры, например, листьев на деревьях. Тем не менее в ближайшем будущем такие инструменты смогут значительно упростить работу 3D-дизайнерам.

Какова роль компьютерного зрения в метавселенной?

Для метавселенной компьютерное зрение может оказаться одной из главных технологий: начиная от задач в области виртуальной и дополненной реальностей и заканчивая распознаванием объектов, людей и пространств.

Компания Meta (ранее Facebook) во время мероприятия, посвященного ребрендингу, показала реалистичные аватары, среду для их существования, а также нейроинтерфейс, позволяющий ими управлять. При их создании использовались, в том числе и технологии компьютерного зрения.

На конференции Ignite 2021 корпорация Microsoft продемонстрировала свое видение метавселенной. Компания представила инструмент для совместной работы Mesh for Teams для VR-гарнитур, смартфонов, планшетов и ПК.

На осенней конференции GTC 2021 производитель чипов NVIDIA анонсировал платформу Omniverse Avatar для создания интерактивных трехмерных персонажей. Она объединяет компьютерное зрение, обработку естественного языка и рекомендательные системы.

Какие угрозы несет компьютерное зрение?

Несмотря на очевидные преимущества и пользу компьютерного зрения для бизнеса и общественности, технология может быть использована в недобросовестных целях.

На сегодня активно развиваются инструменты для создания дипфейков. Методы создания фото и видеоподделок существуют давно, однако с развитием глубокого обучения процесс их создания значительно упростился, а сами фейки стали гораздо правдоподобнее.

Мошенники могут использовать дипфейки для создания фальшивых порнографических видео, выступлений политиков и других знаменитостей.

В 2017 году пользователь Reddit с ником DeepFake опубликовал несколько поддельных видеороликов для взрослых с использованием лиц таких знаменитостей, как Галь Гадот, Скарлетт Йоханссон, Тейлор Свифт и Кэти Перри.

В том же году дипфейки стали чаще использовать для подмены политиков: в интернете появились ролики, где лицо президента Аргентины Маурисио Макри заменили на Адольфа Гитлера, а канцлера Германии Ангелы Меркель — на Дональда Трампа.

Системы компьютерного зрения часто критикуют за дискриминацию по признаку пола и расы. Зачастую, причиной этому является недостаточное разнообразие наборов данных.

В 2019 году темнокожий житель Нью-Джерси провел в тюрьме 10 суток из-за ошибки распознавания лиц. С подобными проблемами сталкивались и другие афроамериканцы в других городах США.

Также технологию критикуют из-за чрезмерного вмешательства в частную жизнь граждан. По мнению правозащитников, распознавание лиц в публичных местах и отслеживание перемещений людей с помощью уличных камер видеонаблюдения нарушает права человека на неприкосновенность частной жизни.

Разработчики и общественность предлагают различные способы решения вышеупомянутых проблем, начиная от создания систем распознавания дипфейков до законодательного запрета на использование систем биометрической идентификации. Однако консенсус в данных вопросах все еще не достигнут.

Подписывайтесь на новости ForkLog в Telegram: ForkLog AI — все новости из мира ИИ!

Подписывайтесь на ForkLog в социальных сетях

Telegram (основной канал) Discord Instagram
Нашли ошибку в тексте? Выделите ее и нажмите CTRL+ENTER

Рассылки ForkLog: держите руку на пульсе биткоин-индустрии!

*Ежедневная рассылка — краткая сводка наиболее важных новостей предыдущего дня. Чтение занимает не больше двух минут. Выходит в рабочие дни в 06:00 (UTC)
*Еженедельная рассылка — объясняем, кто и как изменил индустрию за неделю. Идеально подходит для тех, кто не успевает за новостным потоком в течение дня. Выходит в пятницу в 16:00 (UTC).

Мы используем файлы cookie для улучшения качества работы.

Пользуясь сайтом, вы соглашаетесь с Политикой приватности.

OK