| 
						
						
							
								
							
						
						
					 | 
				
			
			 | 
			 | 
			
				@ -6,7 +6,7 @@ Apache Spark — программный каркас с открытым исх
 | 
			
		
		
	
		
			
				 | 
				 | 
			
			 | 
			 | 
			
				
 | 
			
		
		
	
		
			
				 | 
				 | 
			
			 | 
			 | 
			
				В папке с заданием содержатся следующие наборы данных:
 | 
			
		
		
	
		
			
				 | 
				 | 
			
			 | 
			 | 
			
				-	книга (warandpeace.txt),
 | 
			
		
		
	
		
			
				 | 
				 | 
			
			 | 
			 | 
			
				-	https://databank.illinois.edu/datasets/IDB-9610843 данные о такси Нью-Йорка за 2013 год (nycTaxiRides.gz),
 | 
			
		
		
	
		
			
				 | 
				 | 
			
			 | 
			 | 
			
				-	https://databank.illinois.edu/datasets/IDB-9610843 выборка данных о поездках такси Нью-Йорка за 2010-2013 годы (nyctaxi.csv),
 | 
			
		
		
	
		
			
				 | 
				 | 
			
			 | 
			 | 
			
				-	https://www.kaggle.com/benhamner/sf-bay-area-bike-share данные велопарковок Сан-Франциско (trips.csv, stations.csv).
 | 
			
		
		
	
		
			
				 | 
				 | 
			
			 | 
			 | 
			
				
 | 
			
		
		
	
		
			
				 | 
				 | 
			
			 | 
			 | 
			
				# Цель работы
 | 
			
		
		
	
	
		
			
				
					| 
						
							
								
							
						
						
							
								
							
						
						
					 | 
				
			
			 | 
			 | 
			
				@ -315,10 +315,10 @@ pair._2
 | 
			
		
		
	
		
			
				 | 
				 | 
			
			 | 
			 | 
			
				
 | 
			
		
		
	
		
			
				 | 
				 | 
			
			 | 
			 | 
			
				В первую очередь будет необходимо загрузить данные в MapR-FS. Создайте новую папку в MapR-FS:
 | 
			
		
		
	
		
			
				 | 
				 | 
			
			 | 
			 | 
			
				
 | 
			
		
		
	
		
			
				 | 
				 | 
			
			 | 
			 | 
			
				Создайте RDD на основе загруженных данных nycTaxiRides.gz:
 | 
			
		
		
	
		
			
				 | 
				 | 
			
			 | 
			 | 
			
				Создайте RDD на основе загруженных данных nyctaxi.csv:
 | 
			
		
		
	
		
			
				 | 
				 | 
			
			 | 
			 | 
			
				
 | 
			
		
		
	
		
			
				 | 
				 | 
			
			 | 
			 | 
			
				```scala
 | 
			
		
		
	
		
			
				 | 
				 | 
			
			 | 
			 | 
			
				val taxi = sc.textFile("nycTaxiRides.gz")
 | 
			
		
		
	
		
			
				 | 
				 | 
			
			 | 
			 | 
			
				val taxi = sc.textFile("nyctaxi.csv")
 | 
			
		
		
	
		
			
				 | 
				 | 
			
			 | 
			 | 
			
				```
 | 
			
		
		
	
		
			
				 | 
				 | 
			
			 | 
			 | 
			
				
 | 
			
		
		
	
		
			
				 | 
				 | 
			
			 | 
			 | 
			
				Выведите первые 5 строк из данной таблицы:
 | 
			
		
		
	
	
		
			
				
					| 
						
							
								
							
						
						
						
					 | 
				
			
			 | 
			 | 
			
				
 
 |