LINUX.ORG.RU

Доступ к Spark из приложения C++

 , , ,


0

2

Привет. Понадобилось дёргать запуск скриптов Spark из приложения C++. Приложение можно запустить на том же кластере, где Spark, даже на том хосте, где Yarn. Гуглил-гуглил, но ничего не нашел без букв «Py». Всё, что пока знаю - установить драйвер odbc и попробовать дёрнуть UDF. Мне даже и данные не нужны, только запуск кода. Если кто видел варианты, подскажите, пожалуйста. ОС - RedHat.

Ответ на: комментарий от Reset

Необязательно даже на Java, можно взять любой JVM-язык, например, Groovy. Или даже какой-нибудь PySpark. Смотря на чём удобнее писать или для чего есть похожие примеры.

annulen ★★★★★
()
Ответ на: комментарий от annulen

С Java я попытаюсь не столкнуться, а вот питоном и PySpark пользовался. Просто решил использовать основное приложение, а оно на C++.

Интересно, а можно ли использовать не пайп, а вызвать питон как встроенный модуль и внутри него уже pyspark? И на всякий, в отдельном потоке.

Paka_RD
() автор топика
Последнее исправление: Paka_RD (всего исправлений: 1)
Ответ на: комментарий от snizovtsev

Уже обжегся с питоном - сделал приложение BI веб-морду к кластеру хадупа. По-первости всё классно, всё готовое, всё есть. Датасеты/датафреймы/пандасы работают. А потом получил нерешаемые проблемы с производительностью и многопоточностью. Как обработки так и веба. Может, конечно, неопытный, но я не понял как из одного процесса получить доступ к данным другого. Мультитрединг питона не катит- это асинхронщина в один поток.

Paka_RD
() автор топика
Последнее исправление: Paka_RD (всего исправлений: 1)