diff --git a/L2 - Reports with Apache Spark/README.md b/L2 - Reports with Apache Spark/README.md index a7f1afc..aefda13 100644 --- a/L2 - Reports with Apache Spark/README.md +++ b/L2 - Reports with Apache Spark/README.md @@ -2,11 +2,7 @@ ## Задание -1. Преобразовать любой файл набора данных **Stack Overflow** в parquet формат c помощью Apache Spark. - -2. Сформировать отчёт с информацией о частоте обсуждения 10 наиболее популярных языков программирования -в каждом году с 2010 года по сегодняшний день. Используйте теги входящие в список языков -перечисленных в википедии https://en.wikipedia.org/wiki/List_of_programming_languages. +Сформировать отчёт с информацией о 10 наиболее популярных языках программирования по итогам года за период с 2010 по 2020 годы. Получившийся отчёт сохранить в формате Apache Parquet. Для выполнения задания вы можете использовать любую комбинацию Spark API: **RDD API**, **Dataset API**, **SQL API**. @@ -16,11 +12,11 @@ В папке `data` данного репозитория вам доступны: - выборка данных `posts_sample.xml` (из stackoverflow.com-Posts.7z), -- файл со списком языков `programming-languages.csv`, собранных с вики-страницы. +- файл со списком языков `programming-languages.csv`, собранных с вики-страницы https://en.wikipedia.org/wiki/List_of_programming_languages. Рекомендуется отлаживать решение на небольшой выборке данных `posts_sample.xml`. Данная выборка была получена следующим кодом: ``` - sc.textFile("/user/mapr/posts.xml").mapPartitions(_.take(100)) + sc.textFile("/user/mapr/posts.xml").mapPartitions(_.take(1000)) ``` ## Ссылки на источники