From d2cbabb01f71616ed891ca29757d4d13e2d5079f Mon Sep 17 00:00:00 2001 From: Vladimir Protsenko Date: Wed, 15 Dec 2021 12:46:17 +0000 Subject: [PATCH] Update L1 - Introduction to Apache Spark/L1_Apache_Spark.md --- L1 - Introduction to Apache Spark/L1_Apache_Spark.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/L1 - Introduction to Apache Spark/L1_Apache_Spark.md b/L1 - Introduction to Apache Spark/L1_Apache_Spark.md index 3e057cd..b02ccca 100644 --- a/L1 - Introduction to Apache Spark/L1_Apache_Spark.md +++ b/L1 - Introduction to Apache Spark/L1_Apache_Spark.md @@ -1,8 +1,8 @@ # Введение -Apache Spark — программный каркас с открытым исходным кодом для реализации распределённой обработки неструктурированных и слабоструктурированных данных, входящий в экосистему проектов Hadoop. В отличие от классического обработчика из ядра Hadoop, реализующего концепцию MapReduce с дисковым вводом и выводом, Spark использует специализируется на обработке в оперативной памяти, благодаря чему позволяет получать значительный выигрыш в скорости работы для некоторых классов задач. В частности, возможность многократного доступа к загруженным в память пользовательским данным делает библиотеку привлекательной для алгоритмов машинного обучения. +Apache Spark — программный каркас с открытым исходным кодом для реализации распределённой обработки неструктурированных и слабоструктурированных данных, входящий в экосистему проектов Hadoop. В отличие от классического обработчика из ядра Hadoop, реализующего концепцию MapReduce с дисковым вводом и выводом, Spark специализируется на обработке в оперативной памяти, благодаря чему позволяет получать значительный выигрыш в скорости работы для некоторых классов задач. В частности, возможность многократного доступа к загруженным в память пользовательским данным делает библиотеку привлекательной для алгоритмов машинного обучения. -Главной абстракцией Spark фреймворка является распределённая коллекция элементов Resilient Distributed Dataset (RDD). К RDD можно применить трансформации (transformation) и действия (action). В первом случае в качестве результата возвращается ссылка на новый RDD, а во втором, вычисленное значение цепочки трансформаций. +Главной абстракцией Spark фреймворка является распределённая коллекция элементов Resilient Distributed Dataset (RDD). К RDD можно применить трансформации (transformation) и действия (action). В первом случае в качестве результата возвращается ссылка на новый RDD, а во втором, вычисленное значение цепочки трансформаций. В папке с заданием содержатся следующие наборы данных: - книга (warandpeace.txt),