You cannot select more than 25 topics
			Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
		
		
		
		
		
			| 
				
					
						
							 | 
			4 years ago | |
|---|---|---|
| .. | ||
| README.md | 4 years ago | |
| example_of_runing_report_script_in_azure.png | 5 years ago | |
| hints.md | 5 years ago | |
		
			
				
				README.md
			
		
		
	
	Лабораторная 2. Формирование отчётов в Apache Spark
Задание
Сформировать отчёт с информацией о 10 наиболее популярных языках программирования по итогам года за период с 2010 по 2020 годы. Получившийся отчёт сохранить в формате Apache Parquet.
Для выполнения задания вы можете использовать любую комбинацию Spark API: RDD API, Dataset API, SQL API.
Набор данных
Архивы сайтов Stack Exchange доступны по адресу https://archive.org/details/stackexchange.
В папке data данного репозитория вам доступны:
- выборка данных 
posts_sample.xml(из stackoverflow.com-Posts.7z), - файл со списком языков 
programming-languages.csv, собранных с вики-страницы https://en.wikipedia.org/wiki/List_of_programming_languages. 
Рекомендуется отлаживать решение на небольшой выборке данных posts_sample.xml.
Ссылки на источники
- https://spark.apache.org/docs/latest/sql-programming-guide.html
 - http://timepasstechies.com/spark-dataset-api-examples-tutorial-20/
 - https://jaceklaskowski.gitbooks.io/mastering-spark-sql/
 - https://en.wikipedia.org/wiki/OLAP_cube
 - http://homepage.cs.latrobe.edu.au/zhe/ZhenHeSparkRDDAPIExamples.html
 - https://sparkbyexamples.com/