You cannot select more than 25 topics
Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
6d5609574d | 4 years ago | |
---|---|---|
.. | ||
README.md | 4 years ago | |
example_of_runing_report_script_in_azure.png | 4 years ago | |
hints.md | 4 years ago |
README.md
Лабораторная 2. Формирование отчётов в Apache Spark
Задание
Сформировать отчёт с информацией о 10 наиболее популярных языках программирования по итогам года за период с 2010 по 2020 годы. Получившийся отчёт сохранить в формате Apache Parquet.
Для выполнения задания вы можете использовать любую комбинацию Spark API: RDD API, Dataset API, SQL API.
Набор данных
Архивы сайтов Stack Exchange доступны по адресу https://archive.org/details/stackexchange.
В папке data
данного репозитория вам доступны:
- выборка данных
posts_sample.xml
(из stackoverflow.com-Posts.7z), - файл со списком языков
programming-languages.csv
, собранных с вики-страницы https://en.wikipedia.org/wiki/List_of_programming_languages.
Рекомендуется отлаживать решение на небольшой выборке данных posts_sample.xml
. Данная выборка была получена следующим кодом:
sc.textFile("/user/mapr/posts.xml").mapPartitions(_.take(1000))