### С чего начать при первом знакомстве с Apache Spark?
Рекомендуется начать с установки IDEA Community Edition, создания sbt проекта и подключения Apache Spark библиотеки последней версии https://mvnrepository.com/artifact/org.apache.spark/spark-core. В среде разработки вы можете реализовать классическое приложение, создать scratch файл или запустить scala консоль для более интерактивной разработки.
После освоения Spark команд и обработки локальных данных, отработайте навыки импорта/экспорта данных в распределённую файловую систему и запуска Apache Spark приложений на одной из доступных виртуальных машин с Hadoop экосистемой:
В подготовленной администратором среде вам должны быть доступны команды `spark-shell` для интерактивного программного взаимодействия, `spark-shell` для запуска задачи, `spark-sql` для интерактивного выполнения Spark SQL запросов. Также доступен `spark-class` скрипт, который используется всеми вышеперечисленными командами, для более тонкой настройки запуска.
В подготовленной администратором среде вам должны быть доступны команды `spark-shell` для интерактивного программного взаимодействия, `spark-shell` для запуска задачи, `spark-sql` для интерактивного выполнения Spark SQL запросов. Также доступен `spark-class` скрипт, который используется всеми вышеперечисленными командами, для более тонкой настройки запуска.
Если вам требуется разработать программу, то вы можете подключить библиотеку spark в проект и работать с ним средствами IDE.
Для локальной работы со Spark требуется JRE с правильно сконфигурированной переменной среды `JAVA_HOME` и сам Spark, который можно скачать в виде архива. После распаковки, внутри папки bin будут присутствовать вышеперечисленные скрипты.
### Как подключить Apache Spark библиотеку к проекту на Java, Scala?
### Как подключить Apache Spark библиотеку к проекту на Java, Scala?
@ -172,8 +184,12 @@ e => print(e) или (a,b) => a + b
С помощью broadcast переменной. `val broadcastVar = sc.broadcast(Array(1,2,3)) `
С помощью broadcast переменной. `val broadcastVar = sc.broadcast(Array(1,2,3)) `
## Hive
## Hive
[содержание](#)
### Какие типы таблиц существуют в Hive?
### Какие типы таблиц существуют в Hive?
Существует два типа таблиц: управляемая (managed) и внешняя (external). Hive управляет и данными, и схемой управляемой таблицы. Данные внешней таблицы находятся за пределами ответственности Hive.
Существует два типа таблиц: управляемая (managed) и внешняя (external). Hive управляет и данными, и схемой управляемой таблицы. Данные внешней таблицы находятся за пределами ответственности Hive.
Chain репликация выполняется при параметре `dfs.replication` в `hdfs-size.xml` большим, чем 1. Данные записываются в локальный блок HDFS, затем транслируются в блок в соседнем узле той же стойки, затем в блок на узле из другой стойки. Запись заканчивается, когда, начиная с последнего узла цепочки до первого, проходит подтверждение об успешной записи.
Chain репликация выполняется при параметре `dfs.replication` в `hdfs-size.xml` большим, чем 1. Данные записываются в локальный блок HDFS, затем транслируются в блок в соседнем узле той же стойки, затем в блок на узле из другой стойки. Запись заканчивается, когда, начиная с последнего узла цепочки до первого, проходит подтверждение об успешной записи.