Видеолекции курса Технологии хранения и обработки больших объёмов данных.
Лекторы: Дмитрий Барашев, Александр Дольник.
Курс посвящён теоретическим и практическим аспектам технологий, связанных с хранением, обработкой и анализом больших объёмов данных. В основном будут рассматриваться технологии, ставшие массовыми относительно недавно, такие как распределённые файловые системы и NoSQL СУБД, но будут также затронуты возможности, предоставляемые привычными реляционных СУБД.
В материалах курса используются примеры программ на языке Python; кроме того, домашние задания тоже предполагают программирование на этом языке. Поэтому от слушателей требуется понимание элементарных конструкций этого языка и способность писать несложные программы, а также знание алгоритмов вообще. Знание реляционных СУБД и языка SQL тоже существенно облегчит восприятие некоторых тем курса.
Лекция 1. Распределенные файловые системы.
Поговорим о распределенных файловых системах. Рассмотрим основные аспекты их функционирования, немного затронем историю, подробнее углубимся в архитектуру G(oogle)FS, Apache HDFS и в некоторые интересные алгоритмы.
Посмотреть видео на сайте Лекториума
Скачать: Презентация
Лекция 2. Распределенная параллельная обработка данных технологией Map-Reduce.
Поговорим о том, что такое Map-Reduce, к каким задачам эту технологию можно применять и при каких условиях она будет эффективной. Повертим в руках игрушечный (но работающий!) Map-Reduce.
Посмотреть видео на сайте Лекториума
Скачать: Презентация
Реализация среды выполнения MR на Питоне и примеры программ
Семинар 2. Алгоритм коррекции ошибок Рида-Соломона.
Небольшой рассказ о применении матриц Вандермонда, метода Гаусса и конечных полей к вполне практическим вещам. Рассказывают Григорий Рожков и Дмитрий Харьковский.
Скачать: Презентация
Лекция 3. Полнотекстовый поиск.
Как производить полнотекстовый поиск в большом корпусе документов; какие структуры данных и какие методы обработки могут помочь; какой документ лучше удовлетворяет запросу, а какой хуже.
Посмотреть видео на сайте Лекториума
Скачать: Презентация
Лекция 4. Статический ранг документов. Распределенные вычисления на графах.
Статический не зависимый от запроса ранг документов и его конкретный вариант PageRank. Вычисление PageRank при помощи Map-Reduce. Системы распределенного выполнения алгоритмов на графах.
Посмотреть видео на сайте Лекториума
Скачать: Презентация
Лекция 5. Введени
е в NoSQL. Google Bigtable.
Предпосылки появления NoSQL СУБД, их разновидности, основные отличия от реляционных СУБД, и основные используемые технологии. Подробнее о Google Bigtable.
Посмотреть видео на сайте Лекториума
Скачать: Презентация
Семинар 5. Вероятностная модель информационного поиска.
Антон Алексеев расскажет о вероятностной модели информационного поиска.
Скачать: Презентация
Лекция 6. Согласованность в распределенных системах. Percolator.
Скачать: Презентация
Лекция 7. Средства интеграции больших объёмов данных.
Александр Дольник рассказывает об интеграции данных из разнородных источников и последующем их анализе.
Посмотреть видео на сайте Лекториума
Скачать: Презентация
Лекция 8. Создание ETL процесса: Case Study.
Александр Дольник демонстрирует создание ETL процесса по обработке отчетов о продажах в торговой сети.
Посмотреть видео на сайте Лекториума
Скачать: Презентация
Лекция 9. Поиск похожих документов.
Посмотреть видео на сайте Лекториума
Скачать: Презентация
Лекция 10. Алгоритмы кластеризации.
Посмотреть видео на сайте Лекториума
Скачать: Презентация
Автор: Roman Brovko