You cannot select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
big_data/L2 - Reports with Apache Spark
Vladimir Protsenko 09582c9663 Clarification of lab 2 task. 3 years ago
..
README.md Clarification of lab 2 task. 3 years ago
example_of_runing_report_script_in_azure.png Changed lab folder names and task names. 4 years ago
hints.md Changed lab folder names and task names. 4 years ago

README.md

Лабораторная 2. Формирование отчётов в Apache Spark

Задание

Сформировать отчёт с информацией о 10 наиболее популярных языках программирования по итогам года за период с 2010 по 2020 годы. Отчёт будет отражать динамику изменения популярности языков программирования и представлять собой набор таблиц "топ-10" для каждого года.

Получившийся отчёт сохранить в формате Apache Parquet.

Для выполнения задания вы можете использовать любую комбинацию Spark API: RDD API, Dataset API, SQL API.

Набор данных

Архивы сайтов Stack Exchange доступны по адресу https://archive.org/details/stackexchange.

В папке data данного репозитория вам доступны:

Рекомендуется отлаживать решение на небольшой выборке данных posts_sample.xml.

Ссылки на источники

  1. https://spark.apache.org/docs/latest/sql-programming-guide.html
  2. http://timepasstechies.com/spark-dataset-api-examples-tutorial-20/
  3. https://jaceklaskowski.gitbooks.io/mastering-spark-sql/
  4. https://en.wikipedia.org/wiki/OLAP_cube
  5. http://homepage.cs.latrobe.edu.au/zhe/ZhenHeSparkRDDAPIExamples.html
  6. https://sparkbyexamples.com/