ИИ в слуховом аппарате. ИИ в дроне. ИИ в камере на столбе. Новый чип только что сделал это реальным

Весь мир гонится за мощностью. Они пошли в другую сторону — и, кажется, победили.

Исследователи из Мичиганского университета предложили архитектуру, которая может заметно упростить жизнь периферийному ИИ, то есть моделям, работающим прямо на устройстве, а не в облаке. Речь о системах, которые должны без пауз обрабатывать поток данных с камеры, микрофона, датчиков или медицинских сенсоров. Для такой техники важны сразу три вещи: низкое энергопотребление, минимальная задержка и способность работать с длинной последовательностью сигналов без провалов по памяти. Авторы новой работы утверждают, что нашли сочетание железа и модели, которое помогает закрыть все три проблемы сразу.

Команда пишет, что новый подход позволяет запускать достаточно мощный ИИ непосредственно на телефонах, слуховых аппаратах, носимой электронике и камерах автономного транспорта. Для таких устройств задача давно упирается в фундаментальное ограничение современной вычислительной техники: данные приходится постоянно гонять между блоком памяти и вычислительным блоком. На каждой такой пересылке теряются энергия и время. Когда поток идет непрерывно, например в видеоанализе или в обработке сигналов с сенсоров, потери быстро становятся критичными.

Именно поэтому исследователи сделали ставку на вычисления прямо в памяти . В такой схеме хранение данных и обработка происходят в одном месте. Подход давно привлекает разработчиков высокой энергоэффективностью и пропускной способностью, но у него есть и слабое место. Большинство популярных нейросетевых архитектур плохо ложатся на такую аппаратную базу. Сверточные сети и трансформеры требуют математики и структуры вычислений, которые неудобно переносить на подобное железо без заметных компромиссов.

Команда из Мичигана пошла с другой стороны и подобрала не железо под готовую модель, а модель под физику железа. В центре работы оказались state space models, или модели пространства состояний . Сейчас их часто обсуждают как одну из самых интересных альтернатив трансформерам. Главное преимущество здесь связано с длинными последовательностями. Трансформер по мере роста входа требует все больше памяти. Для длинного разговора, многочасового видео или непрерывного сенсорного потока нагрузка растет слишком быстро. У state space models другая логика работы, поэтому они лучше подходят для задач, где данные поступают без остановки.

Мы в MAX. Простите. Читайте нас хотя бы там.

На практике одного выбора новой архитектуры мало. Модели пространства состояний в производительных вариантах тоже создают серьезную нагрузку на железо. Многие такие схемы используют комплексные числа. Для чипа это неудобно: приходится отдельно обрабатывать действительную и мнимую части каждого вычисления. Лишняя сложность сразу означает лишние операции, дополнительный расход энергии и более тяжелую реализацию. Исследователи убрали этот барьер и переделали модель так, чтобы она работала только с вещественными числами. После этого каждая ячейка памяти смогла напрямую хранить часть данных без дополнительной математической обвязки.

Второй важный шаг касается краткосрочной памяти модели. У state space models есть параметр, который определяет, как быстро система забывает старую информацию. Без такого механизма непрерывный поток сигналов быстро переполнил бы внутреннее состояние модели. Но если задавать отдельную скорость забывания для каждого нейрона, аппаратная реализация снова становится тяжелой. Авторы выбрали более жесткую, но удобную для железа схему: они задали фиксированную скорость затухания не для отдельных элементов, а для целых блоков. В результате модель сохранила способность работать с последовательностями в реальном времени и не уперлась в новый узкий участок по памяти и вычислениям.

Аппаратную часть собрали на массиве Resistive RAM, или RRAM, изготовленном по стандартному 65-нм CMOS-процессу. Сама структура представляет собой кроссбар-массив: решетку, в узлах которой стоят мемристоры. Такая схема особенно хорошо подходит для векторно-матричных операций, а именно они лежат в основе большинства нейросетевых вычислений. Вместо того чтобы таскать данные между памятью и отдельным вычислительным модулем, массив выполняет нужные операции на месте. За счет этого уменьшаются и задержка, и энергозатраты.

Но и здесь исследователи не ограничились переносом модели на уже готовую платформу. Они подстроили сами свойства материала под нужды алгоритма. Для работы использовали мемристоры из оксида вольфрама WOx разной толщины. Толщину меняли при окислении вольфрамового электрода в кислородной атмосфере при 400 °C: один слой формировали за 20 секунд, другой за 80. Более тонкий слой быстрее терял краткосрочную память, более толстый делал затухание медленнее. Иначе говоря, физика устройства начала напрямую задавать поведение модели во времени. Такой ход и делает работу именно аппаратно-программным со-дизайном, а не просто запуском нейросети на необычном чипе.

Смысл всей конструкции лучше виден на фоне других подходов. Спайковые нейросети тоже пытаются экономить ресурсы и активируются только при появлении новых событий, но часто проигрывают по точности. Трансформеры хорошо справляются со множеством задач, но слишком прожорливы для локальных устройств, особенно если поток длинный и непрерывный. Новая схема занимает промежуточную позицию: она остается достаточно выразительной по возможностям модели, но при этом лучше соответствует аппаратуре с вычислениями в памяти.

Проверка показала, что идея работает не только на бумаге. В физических экспериментах и симуляциях кроссбар-массивы RRAM выполняли векторно-матричное умножение с отклонением всего на 4,6 бита от идеального математического результата. Для аналоговых и нейроморфных систем такой показатель важен, потому что перевод модели из программной среды в реальное устройство почти всегда приносит шум, нестабильность и потерю точности. Здесь деградация оказалась контролируемой.

Отдельные тесты на затухание подтвердили, что мемристоры из оксида вольфрама ведут себя так, как ожидала модель. Заложенная скорость забывания действительно воспроизводилась на уровне физического элемента, а не существовала только в коде. В итоге система смогла обрабатывать непрерывные последовательности событий с высокой энергоэффективностью и при малой задержке. Авторы отдельно подчеркивают, что по этим двум параметрам новая схема заметно обошла обычное цифровое железо.

Практический смысл работы вполне прикладной. Чем больше вычислений удастся оставить на самом устройстве, тем реже придется отправлять данные в облако. Для пользователя это означает более быстрый отклик, лучшую приватность и меньшую зависимость от сети. Для носимой электроники и транспорта есть еще один плюс: экономия энергии. В слуховом аппарате, медицинском сенсоре или автомобильной камере борьба идет не за абстрактную эффективность, а за часы и дни автономной работы, за стабильную реакцию в реальном времени и за возможность не терять сигнал на краю сети.

До коммерческих продуктов еще нужно пройти этап масштабирования, интеграции и сравнения с быстро развивающимися цифровыми ИИ-ускорителями. Но важный результат уже есть: исследователи показали, что проблема не всегда решается наращиванием мощности. Иногда более сильный ход состоит в том, чтобы подобрать модель, которой подходит сама физика чипа. В этом случае state space models и вычисления в памяти, похоже, действительно совпали удачно.