LINUX.ORG.RU

История изменений

Исправление peregrine, (текущая версия) :

excel действительно годен, когда тебе надо быстро какие-то csv/tsv осмотреть и прикинуть что с данными в них, при условии что csv/tsv достаточно малы. Это быстрее и надёжнее чем возиться с питоном и pandas-ом. Если файлы велики, то лучше брать openrefine от гугла и пользоваться уже им - быстрее будет и удобнее. Ну а если они настолько велики что и туда не лезут/обрабатываются слишком долго, то всё равно нет смысла брать pandas и python, тогда надо расчехлять postgresql/mysql и обрабатывать данные там по большей части на sql, иногда вытягивая их в python если надо что-то библиотечное/то что на sql писать замучаешься. Вообще практический опыт показал что pandas годится разве что на дипломы студентам или на суперкомпах (ну и когда «специалисты» по большим данным не осилили sql). Потому как даже при всех оптимизациях память кушает как не в себя, простенький датасет на 1 гигабайт файлик он уже на машинке с 64 гигами оперативки очень хорошо память кушает или очень медленно работает, так что там копейки остаются, а ведь ещё сама моделька которую ты учишь тоже гигов 40 минимум на себя требует (про большие модели и говорить нечего, но там уже и машинки нужны с 512+ оперативки). Я тестировал на файликах 100 мегабайт, 500 мегабайт и 1 гигабайт, на 100 лучше всего exel, если столбцов и строк в пределах допустимого, на 500 openrefine, дальше postgresql. В теории есть ещё всякие апачи, но там уже совсем хорошее железо надо или когда данные в более сыром виде в даталейке лежат или их ещё больше, скажем 1 терабайт+, то там тоже понятно что инструменты нужны другие, вроде кассандры для сверхбольших сырых баз или хадупа/спарка.

Исправление peregrine, :

excel действительно годен, когда тебе надо быстро какие-то csv/tsv осмотреть и прикинуть что с данными в них, при условии что csv/tsv достаточно малы. Это быстрее и надёжнее чем возиться с питоном и pandas-ом. Если файлы велики, то лучше брать openrefine от гугла и пользоваться уже им - быстрее будет и удобнее. Ну а если они настолько велики что и туда не лезут/обрабатываются слишком долго, то всё равно нет смысла брать pandas и python, тогда надо расчехлять postgresql/mysql и обрабатывать данные там по большей части на sql, иногда вытягивая их в python если надо что-то библиотечное/то что на sql писать замучаешься. Вообще практический опыт показал что pandas годится разве что на дипломы студентам или на суперкомпах (ну и когда специалисты по большим данным не осилили sql). Потому как даже при всех оптимизациях память кушает как не в себя, простенький датасет на 1 гигабайт файлик он уже на машинке с 64 гигами оперативки очень хорошо память кушает или очень медленно работает, так что там копейки остаются, а ведь ещё сама моделька которую ты учишь тоже гигов 40 минимум на себя требует (про большие модели и говорить нечего, но там уже и машинки нужны с 512+ оперативки). Я тестировал на файликах 100 мегабайт, 500 мегабайт и 1 гигабайт, на 100 лучше всего exel, если столбцов и строк в пределах допустимого, на 500 openrefine, дальше postgresql. В теории есть ещё всякие апачи, но там уже совсем хорошее железо надо или когда данные в более сыром виде в даталейке лежат или их ещё больше, скажем 1 терабайт+, то там тоже понятно что инструменты нужны другие, вроде кассандры для сверхбольших сырых баз или хадупа/спарка.

Исходная версия peregrine, :

excel действительно годен, когда тебе надо быстро какие-то csv/tsv осмотреть и прикинуть что с данными в них, при условии что csv/tsv достаточно малы. Это быстрее и надёжнее чем возиться с питоном и pandas-ом. Если файлы велики, то лучше брать openrefine от гугла и пользоваться уже им - быстрее будет и удобнее. Ну а если они настолько велики что и туда не лезут/обрабатываются слишком долго, то всё равно нет смысла брать pandas и python, тогда надо расчехлять postgresql/mysql и обрабатывать данные там по большей части на sql, иногда вытягивая их в python если надо что-то библиотечное/то что на sql писать замучаешься. Вообще практический опыт показал что pandas годится разве что на дипломы студентам или на суперкомпах. Потому как даже при всех оптимизациях память кушает как не в себя, простенький датасет на 1 гигабайт файлик он уже на машинке с 64 гигами оперативки очень хорошо память кушает или очень медленно работает, так что там копейки остаются, а ведь ещё сама моделька которую ты учишь тоже гигов 40 минимум на себя требует (про большие модели и говорить нечего, но там уже и машинки нужны с 512+ оперативки). Я тестировал на файликах 100 мегабайт, 500 мегабайт и 1 гигабайт, на 100 лучше всего exel, если столбцов и строк в пределах допустимого, на 500 openrefine, дальше postgresql. В теории есть ещё всякие апачи, но там уже совсем хорошее железо надо или когда данные в более сыром виде в даталейке лежат или их ещё больше, скажем 1 терабайт+, то там тоже понятно что инструменты нужны другие, вроде кассандры для сверхбольших сырых баз или хадупа/спарка.