LINUX.ORG.RU

Pandas VS sql для аналитики сайта?

 , , ,


1

1

Друзья, такой вопрос. В рамках веб приложений, когда все данные хранятся в базе данных, например в postgresql. Какой будет шибко профит от питоновской библиотеки pandas, если sql тож могет в аналитику данных пользователей? Как часто вы применяли в своих веб проектах pandas?

Pandas не для продакшона. Pandas вообще не для программистов, а для «дата сайентистов», у которых только вчера указательный палец от мышки оторвался.

anonymous ()

Смотря какая аналитика. Можно и на стороне сервака делать расчеты с помощью CTE и Window-функций. Панду не юзал, ибо не перевариваю это дерьмо пайтоновское. Для расчетов подойдут Julia и R.

FilosofeM ★★ ()

Если хочется питон, то лучше использовать numpy/scipy/statsmodels, чем pandas. Последний более корявый (в духе абсолютно обязательных индексов, которые больше мешают) и очень жручий до памяти (в отличие от numpy/scipy копирует данные в большинстве случаев; перевод софтины с pandas+HDF5 на прямую работу с h5py и структурными массивами numpy уменьшил жор памяти с 20 ГБ до 2 ГБ, делайте выводы).

lu4nik ★★★ ()
Ответ на: комментарий от Jopich1

твой postgresql раком ляжет - используй pandas

Это зависит от конкретной аналитики (запросто может быть и наоборот).

Проблема с любой базой данных для этой задачи в том, что физическая оптимизация, подходящая для OLTP, обычно противоречит той, которая нужна для аналитики.

anonymous ()