
Высечь в камне
Как ИИ-чипы преодолевают «стену памяти»
Традиционно потребительские GPU предназначены для видеоигр и рендеринга. Однако им под силу выполнять и другие задачи, требующие параллельных вычислений
На графическом процессоре можно запустить, например, PoW-майнер для добычи криптовалют, но в условиях конкуренции со специализированным оборудованием GPU-фермы стали решением для нишевых проектов.
Похожая ситуация складывается в сфере ИИ. Видеокарты стали основным вычислительным инструментом для нейронных сетей. Но по мере развития индустрии возник спрос на специализированные решения для работы с ИИ. ForkLog разобрался в новом витке гонки в области искусственного интеллекта.
Оптимизация кремния для ИИ
Существует несколько подходов к созданию специализированного оборудования для задач искусственного интеллекта.
Потребительские GPU можно считать отправной точкой на пути специализации. Их способность работать с параллельными матричными вычислениями пригодилась для развертывания нейросетей и особенно глубокого обучения, но пространства для улучшений оставалось достаточно.
Одна из главных проблем ИИ на видеокарте — необходимость постоянно перемещать большие объемы данных между системной памятью и GPU. Эти сопроводительные процессы могут отнимать больше времени и энергии, чем сами полезные вычисления.
Другая проблема GPU проистекает из их универсальности. Архитектура видеокарт рассчитана на широкий спектр задач — от рендеринга графики до вычислений общего назначения. В результате часть аппаратных блоков оказывается избыточной для специализированных ИИ-нагрузок.
Отдельным ограничением выступает формат данных. Исторически графические процессоры оптимизировались под операции с FP32 — 32-битными числами с плавающей запятой. Для инференса и обучения обычно применяют форматы меньшей точности: 16-битные FP16 и BF16, целочисленные INT4 и INT8.
Nvidia H200 и B200
Одни из популярнейших продуктов для инференса и обучения — чипы H200 и серверные системы DGX B200 — по большому счету представляют собой «усиленные» GPU для дата-центров.
Основной ИИ-ориентированный элемент этих ускорителей — тензорные ядра, предназначенные для сверхбыстрых матричных операций вроде обучения моделей и пакетного инференса.
Чтобы сократить задержки при доступе к данным, Nvidia оборудует свои карты огромным объемом высокопроизводительной памяти (HBM, High Bandwidth Memory). В H200 встроено 141 ГБ HBM3e с пропускной способностью 4,8 ТБ/с, в B200 эти показатели еще больше в зависимости от конфигурации.
Tensor Processing Unit
К 2015 году в Google разработали Tensor Processing Unit (TPU) — ASIC-процессор на основе систолических массивов, предназначенный для машинного обучения.
В архитектуре конвенциональных процессоров — CPU и GPU — каждая операция предусматривает считывание, обработку и запись промежуточных данных в память.
TPU пропускает данные через массив блоков, каждый из которых проводит математическую операцию и передает результат следующему. Обращение к памяти происходит только в начале и в конце последовательности вычислений.
Такой подход позволяет тратить меньше времени и энергии на ИИ-вычисления, чем неспециализированный графический процессор, однако работа с внешней памятью остается сдерживающим фактором.
Cerebras
Американская компания Cerebras нашла способ использовать в качестве процессора цельную пластину кремния, которую обычно нарезают на меньшие элементы для производства чипов.
В 2019 году разработчики представили свой первый 300-мм Wafer-Scale Engine. В 2024 компания выпустила усовершенствованный процессор WSE-3 с 460-мм чипом на 900 000 ядер.
Архитектура Cerebras подразумевает распределение блоков памяти SRAM в непосредственной близости от модулей логики на той же пластине кремния. При этом каждое ядро работает с собственными 48 КБ локальной памяти и не конкурирует с другими ядрами за доступ.
По словам разработчиков, многим моделям для инференса хватает одного WSE-3. Для более масштабных задач предусмотрена возможность собрать кластер из нескольких таких чипов.
Groq LPU
Компания Groq (не путать с Grok от xAI) предлагает собственные ASIC для инференса на основе архитектуры Language Processing Unit (LPU).
Одна из ключевых особенностей чипов Groq заключается в оптимизации под последовательные операции.
Инференс полагается на поочередную генерацию токенов: каждый шаг требует финализации предыдущего. В таких условиях производительность в большей степени зависит от скорости работы одного потока, нежели от их количества.
В отличие от привычных процессоров общего назначения и некоторых ИИ-специализированных устройств, Groq не формирует машинные инструкции по ходу выполнения задачи. Каждая операция заранее спланирована в своеобразном «расписании» и привязана к конкретному моменту в работе процессора.
При этом, как и ряд других ИИ-акселераторов, LPU совмещает модули логики и памяти на одном чипе для минимизации затрат на перенос данных.
Taalas
Все перечисленные выше примеры подразумевают высокую степень программируемости. Модель и необходимые веса загружаются в перезаписываемую память. В любой момент оператор может загрузить абсолютно другую модель или внести коррективы.
С таким подходом производительность зависит от доступности, скорости и объема памяти.
Разработчики из Taalas пошли дальше, решив «зашить» конкретную модель с готовыми весами прямо в чип на уровне архитектуры транзисторов.
Модель, которая обычно выступает программным обеспечением, реализуется на аппаратном уровне, что позволяет отказаться от отдельного универсального хранилища данных и связанных с ним затрат.
В своем первом решении — инференс-карте HC1 — компания использовала открытую модель Llama 3.1 8B.
Карта поддерживает низкобитовую точность вплоть до 3-битных и 6-битных параметров, что позволяет ускорить обработку. Согласно собственным заявлениям Taalas, HC1 обрабатывает до 17 000 токенов в секунду, оставаясь сравнительно дешевым устройством с низким энергопотреблением.
Фирма заявляет о тысячекратном приросте производительности в сравнении с GPU в пересчете на энергопотребление и стоимость.
Однако у такого метода есть фундаментальный недостаток — невозможность обновить модель без полной замены чипа.
В то же время HC1 снабдили поддержкой LoRA — метода «донастройки» LLM через добавление дополнительных весов. С правильной LoRA-конфигурацией модель можно превратить в специалиста в конкретной области.
Другая сложность связана с процессом дизайна и производства таких «физических моделей». Разработка ASIC стоит больших денег и может занимать годы. В условиях высокой конкуренции ИИ-индустрии это существенное ограничение.
В Taalas заявляют о новом методе генерации архитектуры процессора, призванном решить эту проблему. Автоматическая система превращает модель и набор весов в готовый дизайн чипа в течение недели.
По собственным оценкам компании, производственный цикл от получения новой ранее неизвестной модели до выпуска готовых чипов с ее физическим воплощением будет занимать около 2 месяцев.
Будущее локального инференса
Новые специализированные ИИ-чипы прежде всего занимают места в массивных установках дата-центров, обеспечивая облачные услуги за плату. Нетривиальные решения вплоть до «физических моделей», реализованных прямо в кремнии, не исключение.
Для потребителя революционный инженерный прорыв выразится в удешевлении услуг и ускорении работы.
В то же время появление более простых, дешевых и энергоэффективных чипов создает предпосылки для популяризации локальных решений для инференса.
Уже сейчас специализированные ИИ-чипы есть в смартфонах и ноутбуках, камерах наблюдения и даже дверных звонках. Они позволяют выполнять задачи локально, обеспечивая низкую задержку, автономность и приватность.
Радикальная оптимизация, пусть и за счет гибкости в выборе и замене модели, существенно расширяет возможности таких устройств и позволяет интегрировать простые ИИ-компоненты в дешевые массовые продукты.
Если большинство пользователей начнет направлять свои запросы на модели, работающие на локальных устройствах, нагрузка на мощности дата-центров может снизиться, уменьшая риск перегрузки отрасли. Быть может, тогда не придется искать радикальные пути увеличения вычислительных мощностей — вроде их запуска на орбиту.
Рассылки ForkLog: держите руку на пульсе биткоин-индустрии!