Go to file
Vladimir Protsenko 1b3a359c2d how defend
L0 - Introduction to MapReduce data processing model Fixed ipynb file
L1 - Introduction to Apache Spark Update 'L1 - Introduction to Apache Spark/L1_interactive_bike_analysis_python_with_rdd.ipynb'
L2 - Reports with Apache Spark Clarification of lab 2 task.
L3 - Stream processing with Apache Flink Added link to more real-world exercises with Flink.
data Added DataFrame/SQL examples. Introduced two errors in first two rows of trips dataset to practice with non-available values.
.gitignore Added python path.
QnA.md Update QnA.md
README.md how defend

README.md

Материалы курса "Большие данные" 2024 (бакалавры)

График выполнения и форма отчётности

Время Лабораторная работа Форма отчётности
Февраль Введение в Mapreduce jupyter ноутбук с выполненными заданиями
Март Введение в Apache Spark jupyter ноутбук или проект с выполненными заданиями и отчёт
Апрель Формирование отчётов в Apache Spark jupyter ноутбук или скрипт/проект и отчёт
Май Потоковая обработка в Apache Flink проект с выполненными заданиями и отчёт (с зелёными тестами)

Spark лабораторные могут выполняться в Google Colab, наподобие того, как это сделано здесь https://colab.research.google.com/drive/1G894WS7ltIUTusWWmsCnF_zQhQqZCDOc.

В заданиях используйте выборки данных из папки data .

Для сдачи выкладывайте решения в репозиторий на github (или иной хостинг на основе системы контроля версий). Защита проходит онлайн в виде проверки выполнения заданий и 1-2 вопросов по каждой лабораторной.