Монастырев Виталий Викторович (Аспирант, Санкт-Петербургский политехнический университет Петра Великого)
Молодяков Сергей Александрович (Д.т.н., профессор, Санкт-Петербургский политехнический университет Петра Великого)
|
Предлагается методика построения архитектуры обработки данных на основе Spark SQL и Spark MLlib с возможностью интеграции различных языков программирования. Благодаря использованию такой архитектуры можно модульно выстраивать процесс обработки данных, где каждый шаг является отдельной и независимой частью, которую можно добавлять или убирать из процесса обработки. Представлен пример конвейерно-модульной обработки. С использованием Spark MLlib организован конвейер обработки. Spark SQL применен для организации запросов и для обработки данных. Построение собственных классов обработки рассмотрено на языке Scala при помощи базовых классов Transform и Estimator библиотеки Spark MLlib. Приведен пример конвейера обработки, который начинается с подготовки данных и заканчивается обучением модели машинного обучения. На языке Python представлен пример реализации кода модели, к которой происходит обращение напрямую из конвейера. Показана возможность реализации обработки данных на одном языке, а обучение моделей на другом.
Ключевые слова:большие данные, машинное обучение, Spark, конвейер, Spark SQL, Spark MLlib.
|
|
|
Читать полный текст статьи …
|
Ссылка для цитирования: Монастырев В. В., Молодяков С. А. Методика модульно-конвейерной обработки данных на основе Spark SQL и Spark MLlib с интеграцией языков программирования // Современная наука: актуальные проблемы теории и практики. Серия: Естественные и Технические Науки. -2022. -№06/2. -С. 119-124 DOI 10.37882/2223-2966.2022.06-2.26 |
|
|