Недавно Обнародован стабильный ИИ через сообщение в блоге вторая редакция системы автоматическое обучение Стабильная диффузия, способный синтезировать и изменять изображения на основе предложенного шаблона или текстового описания на естественном языке.
Стабильная диффузия модель машинного обучения разработан Стабильностью ИИ для создания высококачественных цифровых изображений из описаний на естественном языке. Модель можно использовать для различных задач, таких как генерация перевода изображения в изображение с текстовым сопровождением и улучшение изображения.
В отличие от конкурирующих моделей, таких как DALL-E, Stable Diffusion имеет открытый исходный код1 и не ограничивает искусственно создаваемые изображения. Критики выразили обеспокоенность по поводу этичности ИИ, утверждая, что эту модель можно использовать для создания дипфейков.
Динамичная команда Робина Ромбаха (Stability AI) и Патрика Эссера (Runway ML) из CompVis Group в LMU Munich во главе с профессором доктором Бьёрном Оммером возглавила первоначальный выпуск Stable Diffusion V1. Они опирались на свою предыдущую лабораторную работу с моделями скрытой диффузии и получили критическую поддержку от LAION и Eleuther AI. Вы можете узнать больше об оригинальном выпуске Stable Diffusion V1 в нашем предыдущем сообщении в блоге. В настоящее время Робин вместе с Кэтрин Кроусон в Stability AI возглавляет усилия по созданию медиа-моделей следующего поколения с нашей более широкой командой.
Stable Diffusion 2.0 предлагает ряд значительных улучшений и функций по сравнению с исходной версией V1.
Главные новости Stable Diffusion 2.0
В этой новой версии, которая представлена создана новая модель синтеза изображений на основе текстового описания «SD2.0-v», который поддерживает создание изображений с разрешением 768×768. Новая модель была обучена с использованием коллекции LAION-5B из 5850 миллиардов изображений с текстовыми описаниями.
Модель использует тот же набор параметров, что и модель Stable Diffusion 1.5, но отличается переходом на использование принципиально другого кодировщика OpenCLIP-ViT/H, что позволило значительно улучшить качество получаемых изображений.
был подготовлен упрощенная версия базы SD2.0, обученный на изображениях 256×256 с использованием классической модели прогнозирования шума и поддерживающий генерацию изображений с разрешением 512×512.
В дополнение к этому также подчеркивается, что предусмотрена возможность использования технологии суперсэмплинга (Суперразрешение) для увеличения разрешения исходного изображения без снижения качества с использованием алгоритмов пространственного масштабирования и реконструкции деталей.
Из других изменений которые выделяются из этой новой версии:
- Предоставленная модель обработки изображений (SD20-апскейлер) поддерживает 4-кратное увеличение, что позволяет создавать изображения с разрешением 2048×2048.
- Stable Diffusion 2.0 также включает модель Upscaler Diffusion, которая улучшает разрешение изображения в 4 раза.
- Предлагается модель SD2.0-depth2img, учитывающая глубину и пространственное расположение объектов. Система MiDaS используется для оценки монокулярной глубины.
- Новая модель внутренней окраски, управляемая текстом, точно настроенная на новой базе преобразования текста в изображение Stable Diffusion 2.0.
- Модель позволяет синтезировать новые изображения, используя в качестве шаблона другое изображение, которое может кардинально отличаться от исходного, но сохраняет общую композицию и глубину. Например, вы можете использовать позу человека на фотографии, чтобы сформировать другого персонажа в той же позе.
- Обновленная модель модификации изображений: SD 2.0-inpainting, которая позволяет использовать текстовые подсказки для замены и изменения частей изображения.
- Модели были оптимизированы для использования в основных системах с графическим процессором.
Наконец да вы заинтересованы в возможности узнать об этом больше, вы должны знать, что код для обучения нейронных сетей и инструментов визуализации написан на Python с использованием фреймворка PyTorch и выпущен под лицензией MIT.
Предварительно обученные модели открыты под разрешающей лицензией Creative ML OpenRAIL-M, которая разрешает коммерческое использование.
источник: https://stability.ai