diff --git a/L1 - Introduction to Apache Spark/L1_Apache_Spark.md b/L1 - Introduction to Apache Spark/L1_Apache_Spark.md index 15bd9ff..c887be5 100644 --- a/L1 - Introduction to Apache Spark/L1_Apache_Spark.md +++ b/L1 - Introduction to Apache Spark/L1_Apache_Spark.md @@ -6,7 +6,7 @@ Apache Spark — программный каркас с открытым исх В папке с заданием содержатся следующие наборы данных: - книга (warandpeace.txt), -- https://databank.illinois.edu/datasets/IDB-9610843 данные о такси Нью-Йорка за 2013 год (nycTaxiRides.gz), +- https://databank.illinois.edu/datasets/IDB-9610843 выборка данных о поездках такси Нью-Йорка за 2010-2013 годы (nyctaxi.csv), - https://www.kaggle.com/benhamner/sf-bay-area-bike-share данные велопарковок Сан-Франциско (trips.csv, stations.csv). # Цель работы @@ -315,10 +315,10 @@ pair._2 В первую очередь будет необходимо загрузить данные в MapR-FS. Создайте новую папку в MapR-FS: -Создайте RDD на основе загруженных данных nycTaxiRides.gz: +Создайте RDD на основе загруженных данных nyctaxi.csv: ```scala -val taxi = sc.textFile("nycTaxiRides.gz") +val taxi = sc.textFile("nyctaxi.csv") ``` Выведите первые 5 строк из данной таблицы: