You cannot select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

4.5 KiB

Задания на обработку данных в bash

1

Вызовите "for f in seq 20; do echo $RANDOM >> rnds; done" и отсортируйте данные rnds, в алфавитном порядке, по возрастанию чисел.

2

Сохраните эти первые 10 записей датасета titanic в файл titanic.csv для последующих заданий:

PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,0,3,"Braund, Mr. Owen Harris",male,22,1,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Thayer)",female,38,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26,0,0,STON/O2. 3101282,7.925,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35,1,0,113803,53.1,C123,S
5,0,3,"Allen, Mr. William Henry",male,35,0,0,373450,8.05,,S
6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
7,0,1,"McCarthy, Mr. Timothy J",male,54,0,0,17463,51.8625,E46,S
8,0,3,"Palsson, Master. Gosta Leonard",male,2,3,1,349909,21.075,,S
9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27,0,2,347742,11.1333,,S
10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14,1,0,237736,30.0708,,C

3

Выведите первую колонку, используя awk.

4

Выведите содержимое файла без заголовка.

5

Выведите первую и третью колонку файла, используя awk.

6

Выведите только те строки, которые содержат строку male или female:

7

Отсортируйте значения titanic.csv по значению Ticket (9 колонка):

8

Уберите дублирующиеся строки на основании третьей колонки, используя awk.

9

Посчитайте сумму колонки Fare, используя awk.

10

Сконвертируйте файл из csv в json формат, используя jq.

11

Используя awk сконвертируйте строки со значениями из колонок PassengerId, Survived, Pclass файла в набор SQL INSERT утверждений, которые можно использовать для импорта в SQL базу данных. Используйте awk.

12

Конвейеры Unix позволяли организовывать сложные преобразования данных ещё до фреймворков обработки больших данных и сейчас иногда могут быть даже быстрее [Adam D. Command-line Tools can be 235x Faster than your Hadoop Cluster].

Найдите гистограмму слов по методу mapreduce с помощью утилит и операторов конвейера. Гистограмма должна быть отсортирована по частоте встречи слова в тексте.

MapReduce выполняет следующие действия в первой фазе: разбивает содержимое файла на слова, сортирует их, каждому слову сопоставляет 1. Во второй фазе складывает единицы каждого слова, что даёт конечный результат. Используйте любой набор утилит и конструкций bash. Одно из решений задействует: uniq, sort, cat, sed.

13

Повысьте права до пользователя root с помощью команды su - root. Найдите в системном логе /var/log/auth.log события "authentication failure", уберите начало строки до "authentication failure" и сохраните их в файл. Следуя правилам хорошего тона, после выполнения операций не забудьте выйти из аккаунта суперпользователя.

14

Выведите 10 самых больших открытых файлов в системе, используя lsof и awk.

Man страницы

man awk
man lsof
man sort
man uniq
man cat
man sed
man jq
man su

Ссылки

[Adam D. Command-line Tools can be 235x Faster than your Hadoop Cluster] https://adamdrake.com/command-line-tools-can-be-235x-faster-than-your-hadoop-cluster.html