Update L1_Apache_Spark.md

master
Vladimir Protsenko 3 years ago
parent e02c4f1542
commit 7364370b30

@ -6,7 +6,7 @@ Apache Spark — программный каркас с открытым исх
В папке с заданием содержатся следующие наборы данных: В папке с заданием содержатся следующие наборы данных:
- книга (warandpeace.txt), - книга (warandpeace.txt),
- https://databank.illinois.edu/datasets/IDB-9610843 данные о такси Нью-Йорка за 2013 год (nycTaxiRides.gz), - https://databank.illinois.edu/datasets/IDB-9610843 выборка данных о поездках такси Нью-Йорка за 2010-2013 годы (nyctaxi.csv),
- https://www.kaggle.com/benhamner/sf-bay-area-bike-share данные велопарковок Сан-Франциско (trips.csv, stations.csv). - https://www.kaggle.com/benhamner/sf-bay-area-bike-share данные велопарковок Сан-Франциско (trips.csv, stations.csv).
# Цель работы # Цель работы
@ -315,10 +315,10 @@ pair._2
В первую очередь будет необходимо загрузить данные в MapR-FS. Создайте новую папку в MapR-FS: В первую очередь будет необходимо загрузить данные в MapR-FS. Создайте новую папку в MapR-FS:
Создайте RDD на основе загруженных данных nycTaxiRides.gz: Создайте RDD на основе загруженных данных nyctaxi.csv:
```scala ```scala
val taxi = sc.textFile("nycTaxiRides.gz") val taxi = sc.textFile("nyctaxi.csv")
``` ```
Выведите первые 5 строк из данной таблицы: Выведите первые 5 строк из данной таблицы:

Loading…
Cancel
Save