85% мощности суперкомпьютеров сгорало впустую. Но крошечная нейросеть одолела простои видеокарт и ускорила тренировку ИИ в 3 раза

Проект MIT и NVIDIA сломал старые правила обучения нейросетей.


ujbpk5kl98tumcwyb9lkhmdvngbp0in5.png

Большие языковые модели, которые специально учат рассуждать шаг за шагом, ценят за умение держать сложную задачу в памяти и не срываться на многоходовых запросах. Такой подход помогает в продвинутом программировании и планировании, где важны промежуточные проверки и исправление ошибок по ходу решения. Но обучение этих моделей обходится дорого: оно требует много вычислений и энергии, а в распределённых кластерах часть ускорителей нередко простаивает, ожидая самых длинных расчётов.

Исследователи из Массачусетского технологического института вместе с коллегами из компании NVIDIA, Швейцарской высшей технической школы Цюриха, лаборатории MIT–IBM Watson AI Lab и Университета Массачусетса в Амхерсте предложили способ использовать этот простой для ускорения обучения. Метод ориентирован на модели рассуждения, которые тренируют через обучение с подкреплением . По словам авторов, система ускоряет процесс без потери точности. Результаты планируют представить на конференции ASPLOS 2026, которая пройдёт в Питтсбурге 22–26 марта.

Узкое место скрыто в самой схеме обучения с подкреплением. Чтобы развить у модели привычку проверять свои шаги, ей дают запрос и просят сгенерировать несколько вариантов ответа. Затем система выбирает лучший вариант, начисляет ему награду и обновляет параметры модели с учётом результата. Такой цикл повторяется тысячи раз, постепенно смещая модель к более надёжным стратегиям рассуждения.

Авторы отмечают, что основное время уходит не на обновление параметров, а на получение множества вариантов ответа. В статье эту стадию называют rollout, по сути это многократный прогон генерации, когда модель разворачивает ответы на один и тот же запрос, чтобы затем было из чего выбирать. По оценке исследователей, на этот этап может приходиться до 85% времени выполнения при обучении с подкреплением, тогда как пересчёт весов занимает сравнительно небольшую долю.