|
|
|
@ -6,7 +6,7 @@ Apache Spark — программный каркас с открытым исх
|
|
|
|
|
|
|
|
|
|
В папке с заданием содержатся следующие наборы данных:
|
|
|
|
|
- книга (warandpeace.txt),
|
|
|
|
|
- https://databank.illinois.edu/datasets/IDB-9610843 данные о такси Нью-Йорка за 2013 год (nycTaxiRides.gz),
|
|
|
|
|
- https://databank.illinois.edu/datasets/IDB-9610843 выборка данных о поездках такси Нью-Йорка за 2010-2013 годы (nyctaxi.csv),
|
|
|
|
|
- https://www.kaggle.com/benhamner/sf-bay-area-bike-share данные велопарковок Сан-Франциско (trips.csv, stations.csv).
|
|
|
|
|
|
|
|
|
|
# Цель работы
|
|
|
|
@ -315,10 +315,10 @@ pair._2
|
|
|
|
|
|
|
|
|
|
В первую очередь будет необходимо загрузить данные в MapR-FS. Создайте новую папку в MapR-FS:
|
|
|
|
|
|
|
|
|
|
Создайте RDD на основе загруженных данных nycTaxiRides.gz:
|
|
|
|
|
Создайте RDD на основе загруженных данных nyctaxi.csv:
|
|
|
|
|
|
|
|
|
|
```scala
|
|
|
|
|
val taxi = sc.textFile("nycTaxiRides.gz")
|
|
|
|
|
val taxi = sc.textFile("nyctaxi.csv")
|
|
|
|
|
```
|
|
|
|
|
|
|
|
|
|
Выведите первые 5 строк из данной таблицы:
|
|
|
|
|