Во время саммита Data + AI Представлены блоки данных через рекламу, что освободит всю структуру хранилища Delta Lake с открытым исходным кодом под контролем Linux Foundation.
Стоит отметить, что Delta Lake является проектом Linux Foundation с октября 2019 года. и именно открытый уровень хранения обеспечивает надежность и производительность озер данных за счет «архитектуры озер», лучших хранилищ данных и озер данных под одной крышей.
За последние три года Lakehouses стал привлекательным решением для дата-инженеров, аналитиков и специалистов по данным, которым нужна гибкость для запуска различных рабочих нагрузок с одними и теми же данными с минимальной сложностью и без дублирования, от аналитики данных до разработки обучающихся машин. . Delta Lake — самый популярный формат для домов у озера в мире, и в настоящее время его загружают более 7 миллионов раз в месяц (и этот показатель продолжает расти).
«С самого начала Databricks была привержена открытым стандартам и сообществу открытого исходного кода. Мы создали, внесли свой вклад, способствовали росту и пожертвовали некоторые из наиболее эффективных инноваций в современных технологиях с открытым исходным кодом», — сказал Али Годс.
Это означает, что Больше не будет функциональных различий между Databricks марки Delta Lake и версией с открытым исходным кодом.. Компания заявила, что аналогичным образом выпустит свои последние усовершенствования для операционной платформы машинного обучения MLflow и аналитической среды Apache Spark с открытым исходным кодом. Databricks также внедрила несколько новых функций в свое основное озеро данных Lakehouse.
«До Delta Lake такие технологии, как Spark, обрабатывали огромные объемы данных; Delta Lake позволяет обрабатывать небольшие дельты со всеми изменениями, хранящимися в истории, чтобы вы могли переходить туда и обратно», — сказал Али Годси, соучредитель Databricks и генеральный директор Databricks. «Это важно для контрольных журналов и соответствия требованиям, чтобы вы могли вернуться и найти решения, которые вы приняли год назад».
Кроме того, следует отметить, что новая версия 2.0 Delta Lake отличается улучшенной производительностью запросов и основа, основанная на открытых стандартах. Релиз-кандидат теперь доступен и, как ожидается, выйдет в общий релиз в конце этого года.
Databricks сказал, что обновление отражает вклад более 6400 разработчиков и отметил, что общее количество коммитов выросло на 95%, при этом среднее количество строк кода на каждый коммит увеличилось на 900% по сравнению с прошлым годом.
компания также анонсирует версию 2.0 MLflow, платформа для управления проектами машинного обучения. Запуск включает конвейеры, новую функцию для ускорения и упрощения развертывания моделей машинного обучения.. Конвейеры предоставляют специалистам по данным предопределенные, готовые к производству шаблоны на основе типа модели, которую они создают, чтобы обеспечить более быструю и надежную разработку моделей без вмешательства инженеров-технологов.
По словам компании, пользователи могут определять элементы конвейера в файле конфигурации, а MLflow Pipelines автоматически управляет выполнением. Databricks также добавила бессерверные терминалы моделей для прямой поддержки размещения производственных моделей, а также встроенные панели мониторинга моделей, которые помогают командам анализировать производительность модели в реальном мире.
«Проект Delta Lake демонстрирует феноменальную активность и тенденции роста, которые указывают на то, что сообщество разработчиков хочет стать частью проекта. Сила участников увеличилась на 60% по сравнению с прошлым годом, рост общего количества фиксаций увеличился на 95%, а средняя строка кода на фиксацию увеличилась на 900%. Мы наблюдаем этот рост скорости благодаря таким организациям, как Uber Technologies, Walmart и CloudBees, Inc., среди прочих». — Исполнительный директор Linux Foundation Джим Землин.
Если вы интересно узнать больше об этом вы можете проверить подробности По следующей ссылке.