апр

2025

Большие языковые модели теперь не требуют мощных серверов

Ученые «Яндекса», НИУ ВШЭ, MIT, KAUST и ISTA совершили прорыв в оптимизации LLM. Лаборатория исследований искусственного интеллекта Yandex Research совместно с ведущими научно-технологическими вузами разработала метод быстрого сжатия больших языковых моделей (LLM) без потери качества. Теперь для работы с моделями достаточно смартфона или ноутбука и не нужно использовать дорогие серверы и мощные GPU.

Метод позволяет быстро тестировать и внедрять новые решения на основе нейросетей, экономить время и деньги на разработку. Это делает LLM доступнее не только для крупных, но и для небольших компаний, некоммерческих лабораторий и институтов, индивидуальных разработчиков и исследователей.

Ранее для запуска языковой модели на смартфоне или ноутбуке требовалось провести ее квантизацию на дорогостоящем сервере, что занимало от нескольких часов до несколько недель. Теперь квантизацию можно выполнить прямо на телефоне или ноутбуке за считанные минуты.

Трудности в применении LLM

Сложность в использовании больших языковых моделей заключается в том, что они требуют значительных вычислительных ресурсов. Это касается и опенсорс-моделей. Например, одна из них, популярная DeepSeek-R1, не помещается даже на дорогостоящих серверах, предназначенных для работы с искусственным интеллектом и машинным обучением. Это означает, что использовать большие модели может только ограниченный круг компаний, даже если сама модель находится в открытом доступе.

Новый метод позволяет уменьшить размер модели, сохранив ее качество, и запустить на более доступных устройствах. Например, с помощью этого метода можно сжимать даже такие большие модели, как DeepSeek-R1 на 671 млрд параметров и Llama 4 Maverick на 400 млрд параметров, которые до сих пор удавалось квантовать только самыми простыми методами со значительной потерей в качестве.

Новый способ квантизации дает больше возможностей для использования LLM в различных областях, особенно в тех, где ресурсы ограничены, — например, в образовании или социальной сфере. Теперь стартапы и независимые разработчики могут использовать сжатые модели для создания инновационных продуктов и сервисов, не тратя деньги на дорогое оборудование. «Яндекс» уже сам применяет новый метод для прототипирования — создания рабочих версий продуктов и быстрой проверки идей: сжатые модели проходят тестирование быстрее, чем их исходные версии.

Подробнее о новом методе

Новый метод квантизации называется HIGGS (от англ. Hadamard Incoherence with Gaussian MSE-optimal GridS). Он позволяет сжимать нейросети без использования дополнительных данных и без вычислительно сложной оптимизации параметров. Это особенно полезно в ситуациях, когда недостаточно подходящих данных для дообучения модели. Метод обеспечивает баланс между качеством, размером модели и сложностью квантизации, что позволяет использовать модели на самых разных устройствах.

Метод уже проверили на популярных моделях Llama 3 и Qwen2.5. Эксперименты показали, что HIGGS — это лучший способ квантизации по соотношению качества и размера модели среди всех существующих методов квантизации без использования данных, в том числе NF4 (4-bit NormalFloat) и HQQ (Half-Quadratic Quantization).

В разработке метода участвовали ученые из НИУ ВШЭ, Массачусетского технологического института (MIT), Австрийского института науки и технологий (ISTA) и Научно-технологического университета имени короля Абдаллы (KAUST, Саудовская Аравия).

Метод HIGGS уже доступен разработчикам и исследователям на Hugging Face и GitHub, а научную статью о нем можно прочитать на arXiv.

Реакция научного сообщества, другие методы

Научную статью, в которой описан новый метод, приняли на одну из крупнейших в мире конференций по искусственному интеллекту — NAACL (The North American Chapter of the Association for Computational Linguistics), которая пройдет с 29 апреля по 4 мая 2025 года в Альбукерке, Нью-Мексико, США. Наряду с «Яндексом» в ней будут участвовать такие компании и вузы, как Google, Microsoft Research, Гарвардский университет и другие. Статью уже цитировали американская компания Red Hat AI, Пекинский университет, Гонконгский университет науки и технологии, Фуданьский университет и другие.

Ранее ученые «Яндекса» представили 12 научных исследований в области квантизации больших языковых моделей. Таким образом компания стремится сделать применение этих моделей более эффективным, менее энергозатратным и доступным для всех разработчиков и исследователей. Например, ранее команда Yandex Research разработала методы сжатия больших языковых моделей, помогающие сократить расходы на вычислительные ресурсы почти в восемь раз без значительной потери качества ответов нейросети. Также команда создала сервис, позволяющий запускать модель с 8 млрд параметров на обычном компьютере или смартфоне через интерфейс браузера даже без больших вычислительных мощностей.

Дата

11 апреля

Рубрики

Наука

Темы

исследования и аналитика международное сотрудничество