Журнал «Современная Наука»

Russian (CIS)English (United Kingdom)
МОСКВА +7(495)-142-86-81

Методика модульно-конвейерной обработки данных на основе Spark SQL и Spark MLlib с интеграцией языков программирования

Монастырев Виталий Викторович  (Аспирант, Санкт-Петербургский политехнический университет Петра Великого)

Молодяков Сергей Александрович  (Д.т.н., профессор, Санкт-Петербургский политехнический университет Петра Великого)

Предлагается методика построения архитектуры обработки данных на основе Spark SQL и Spark MLlib с возможностью интеграции различных языков программирования. Благодаря использованию такой архитектуры можно модульно выстраивать процесс обработки данных, где каждый шаг является отдельной и независимой частью, которую можно добавлять или убирать из процесса обработки. Представлен пример конвейерно-модульной обработки. С использованием Spark MLlib организован конвейер обработки. Spark SQL применен для организации запросов и для обработки данных. Построение собственных классов обработки рассмотрено на языке Scala при помощи базовых классов Transform и Estimator библиотеки Spark MLlib. Приведен пример конвейера обработки, который начинается с подготовки данных и заканчивается обучением модели машинного обучения. На языке Python представлен пример реализации кода модели, к которой происходит обращение напрямую из конвейера. Показана возможность реализации обработки данных на одном языке, а обучение моделей на другом.

Ключевые слова:большие данные, машинное обучение, Spark, конвейер, Spark SQL, Spark MLlib.

 

Читать полный текст статьи …



Ссылка для цитирования:
Монастырев В. В., Молодяков С. А. Методика модульно-конвейерной обработки данных на основе Spark SQL и Spark MLlib с интеграцией языков программирования // Современная наука: актуальные проблемы теории и практики. Серия: Естественные и Технические Науки. -2022. -№06/2. -С. 119-124 DOI 10.37882/2223-2966.2022.06-2.26
ПРАВОВАЯ ИНФОРМАЦИЯ:
Перепечатка материалов допускается только в некоммерческих целях со ссылкой на оригинал публикации. Охраняется законами РФ. Любые нарушения закона преследуются в судебном порядке.
© ООО "Научные технологии"