GitHub - S-Dionis/SparkApp

Дано:

В распределенной файловой системе лежат json файлы с описанием работников.

Формат пути:

/data/emp/<код отдела>/.json

Пример:

/data/emp/developers/111.json

{ "name" : "Van Basten", "salary": "100" }

/data/emp/managers/777.json

{ "name" : "Rud Gulit", "salary": "150" }

/data/emp/hr/555.json

{ "name" : "Diego Maradona", "salary": "800" }

Представим себе, что каждый отдел лежит на отдельной датаноде в кластере.

В реале, в домашних условиях - просто в отдельных папках.

Задание:

Написать джоб(spark + scala), который на вход получает список путей к json и:

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
data/emp		data/emp
project		project
src/main		src/main
.gitignore		.gitignore
README.md		README.md
build.sbt		build.sbt

Provide feedback