FlexGen, движок для запуска ботов с искусственным интеллектом на одном графическом процессоре.

ФлексГен

FlexGen — это механизм, созданный с целью сокращения требований к ресурсам логического вывода для больших языковых моделей до одного графического процессора.

Недавно появилась новость, что группа исследователей из Стэнфордского университета, Калифорнийского университета в Беркли, ETH Zurich, Высшей школы экономики, Университета Карнеги-Меллона, а также Яндекс и Мета опубликовали исходный код un движок для запуска больших языковых моделей в системах с ограниченными ресурсами.

с кодовым названием «FlexGen», это проект, который направлен на значительное снижение требование ресурсы для операций логического вывода LLM. Размещенный на GitHub, FlexGen требует только Python и PyTorch, но в основном его можно использовать с одним графическим процессором, таким как NVIDIA Tesla T4 или GeForce RTX 3090.





Например, движок дает возможность создавать функционал, напоминающий ChatGPT и Copilot запуск предварительно обученной модели OPT-175B, охватывающей 175 миллиардов параметров, на обычном компьютере с игровой видеокартой NVIDIA RTX3090, оснащенной 24 ГБ видеопамяти.





Упоминается, что модели (LLM) поддерживают работу таких инструментов, как ChatGPT и Copilot. Это большие модели, которые используют миллиарды параметров и обучаются на огромном количестве данных.

Высокие требования к вычислительным ресурсам и памяти для задач логического вывода LLM обычно требуют использования высокопроизводительных ускорителей.





Мы рады, что общественность в восторге от FlexGen. Однако наша работа все еще находится в стадии подготовки и еще не готова к публичному выпуску/объявлению. Из ранних отзывов об этом проекте мы поняли, что в ранних версиях этого README и нашего документа неясно было назначение FlexGen. Это предварительная попытка уменьшить требования LLM к ресурсам, но она также имеет много ограничений и не предназначена для замены вариантов использования при наличии достаточных ресурсов.

Вывод LLM — это процесс, в котором языковая модель используется для генерирования прогнозов относительно входного текста: он включает использование языковой модели, такой как генеративная модель, такая как GPT (Generative Pretrained Transformer), для прогнозирования того, что наиболее вероятно. произойдет. предоставляться в качестве ответа после ввода захваченного текста.

О FlexGen

В пакет входит пример скрипта для создания ботов. что позволяет пользователю скачать одну из общедоступных языковых моделей и сразу начать общение.

В качестве базы предлагается использовать большую языковую модель, опубликованную Facebook, обученную на коллекциях BookCorpus (10 тыс. книг), CC-Stories, Pile (OpenSubtitles, Wikipedia, DM Mathematics, HackerNews и др.), Pushshift.io (по данным Reddit)) и CCNewsV2 (архив новостей).





Модель охватывает около 180 миллиардов токенов (800 ГБ данных). Для обучения модели потребовалось 33 дня запуска кластера с 992 графическими процессорами NVIDIA A100 80 ГБ.

Запустив OPT-175B в системе с одним графическим процессором NVIDIA T4 (16 ГБ), движок FlexGen продемонстрировал до 100 раз более высокую производительность по сравнению с ранее предлагаемыми решениями, что сделало использование больших языковых моделей более доступным и позволило запускать их в системах без специализированных ускорителей.





В то же время FlexGen может масштабироваться для распараллеливания вычислений при наличии нескольких графических процессоров. Для уменьшения размера модели используется дополнительная схема сжатия параметров и механизм кэширования модели.

В настоящее время, FlexGen поддерживает только языковые модели OPT., но в будущем разработчики также обещают добавить поддержку BLOOM (176 миллиардов параметров, поддерживает 46 языков и 13 языков программирования), CodeGen (может генерировать код на 22 языках программирования) и GLM.

Наконец, стоит отметить, что код написан на Python, использует фреймворк PyTorch и распространяется под лицензией Apache 2.0.

Для Интересно узнать об этом больше, вы можете проверить подробности По следующей ссылке.




2023-02-26T03:23:04
новости