Update L1_Apache_Spark.md

5 years ago · 7364370b30
parent e02c4f1542
commit 7364370b30
1 changed files with 3 additions and 3 deletions
--- a/Spark/L1_Apache_Spark.md
+++ b/Spark/L1_Apache_Spark.md
@ -6,7 +6,7 @@ Apache Spark — программный каркас с открытым исх

 В папке с заданием содержатся следующие наборы данных:
 -	книга (warandpeace.txt),
-	https://databank.illinois.edu/datasets/IDB-9610843 данные о такси Нью-Йорка за 2013 год (nycTaxiRides.gz),
+-	https://databank.illinois.edu/datasets/IDB-9610843 выборка данных о поездках такси Нью-Йорка за 2010-2013 годы (nyctaxi.csv),
 -	https://www.kaggle.com/benhamner/sf-bay-area-bike-share данные велопарковок Сан-Франциско (trips.csv, stations.csv).

 # Цель работы
@ -315,10 +315,10 @@ pair._2

 В первую очередь будет необходимо загрузить данные в MapR-FS. Создайте новую папку в MapR-FS:

-Создайте RDD на основе загруженных данных nycTaxiRides.gz:
+Создайте RDD на основе загруженных данных nyctaxi.csv:

 ```scala
-val taxi = sc.textFile("nycTaxiRides.gz")
+val taxi = sc.textFile("nyctaxi.csv")
 ```

 Выведите первые 5 строк из данной таблицы: