You cannot select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
 
 
Vladimir Protsenko 1b3a359c2d how defend 9 months ago
L0 - Introduction to MapReduce data processing model Fixed ipynb file 2 years ago
L1 - Introduction to Apache Spark Update 'L1 - Introduction to Apache Spark/L1_interactive_bike_analysis_python_with_rdd.ipynb' 2 years ago
L2 - Reports with Apache Spark Clarification of lab 2 task. 3 years ago
L3 - Stream processing with Apache Flink Added link to more real-world exercises with Flink. 2 years ago
data Added DataFrame/SQL examples. Introduced two errors in first two rows of trips dataset to practice with non-available values. 3 years ago
.gitignore Added python path. 3 years ago
QnA.md Update QnA.md 4 years ago
README.md how defend 9 months ago

README.md

Материалы курса "Большие данные" 2024 (бакалавры)

График выполнения и форма отчётности

Время Лабораторная работа Форма отчётности
Февраль Введение в Mapreduce jupyter ноутбук с выполненными заданиями
Март Введение в Apache Spark jupyter ноутбук или проект с выполненными заданиями и отчёт
Апрель Формирование отчётов в Apache Spark jupyter ноутбук или скрипт/проект и отчёт
Май Потоковая обработка в Apache Flink проект с выполненными заданиями и отчёт (с зелёными тестами)

Spark лабораторные могут выполняться в Google Colab, наподобие того, как это сделано здесь https://colab.research.google.com/drive/1G894WS7ltIUTusWWmsCnF_zQhQqZCDOc.

В заданиях используйте выборки данных из папки data .

Для сдачи выкладывайте решения в репозиторий на github (или иной хостинг на основе системы контроля версий). Защита проходит онлайн в виде проверки выполнения заданий и 1-2 вопросов по каждой лабораторной.