
FlexGen — это механизм, созданный с целью сокращения требований к ресурсам логического вывода для больших языковых моделей до одного графического процессора.
Недавно появилась новость, что группа исследователей из Стэнфордского университета, Калифорнийского университета в Беркли, ETH Zurich, Высшей школы экономики, Университета Карнеги-Меллона, а также Яндекс и Мета опубликовали исходный код un движок для запуска больших языковых моделей в системах с ограниченными ресурсами.
с кодовым названием «FlexGen», это проект, который направлен на значительное снижение требование ресурсы для операций логического вывода LLM. Размещенный на GitHub, FlexGen требует только Python и PyTorch, но в основном его можно использовать с одним графическим процессором, таким как NVIDIA Tesla T4 или GeForce RTX 3090.
