Откуда такая разница в производительности Matlab и numpy/python2 (в пользу первого)?

2

4

>>> setup = """
... 
... import numpy as np
... 
... N = 768
... P = 1024
... 
... A = np.random.random((P, N))
... """
>>> timeit.repeat('A.T.dot(A)', setup=setup, number=10, repeat=3)
[18.736198902130127, 18.66787099838257, 17.36500310897827]

Примерно 1.8 секунд на итерацию, аналог в матлабе:

N = 768;
P = 1024;

A = rand(P, N);

tic
A' * A;
toc

Elapsed time is 0.038807 seconds.

Инверсия матрицы:

>>> setup = """
... import numpy as np
... 
... N = 768
... P = 1024
...  
... A = np.random.random((P, N))
... H =  A.T.dot(A)
... """
>>> timeit.repeat('np.linalg.inv(H)', setup=setup, number=10, repeat=3)
[7.336957216262817, 7.3821821212768555, 7.418352127075195]

примерно 0.7 сеукнд на итераию, в матлабе:

N = 768;
P = 1024;

A = rand(P, N);
H = A' * A;
tic
inv(H);
toc

Elapsed time is 0.083018 seconds.

Итого: matlab обгоняет numpy на 1-2 порядка?! Наверное, я что-то делаю не так... что?

Ссылка

←	Ну что за манера такая?

Хоткеи в консоли и хоткеи в браузерах

→

← 1 2 →

numpy
py

Вот отсюда. Ты когда-то видел что-то на питоне не тормозящее? Ну кроме скриптов на пару сот строк.
Не видел. Так почему ты считаешь, что этот самый numpy будет такой программой?

~~Stahl~~ ★★☆
(11.04.15 12:26:22 MSK)

Ответ на: комментарий от Stahl 11.04.15 12:26:22 MSK

Ты когда-то видел что-то на питоне не тормозящее?

BitMessage же.

~~svobodka_fighter~~ ☆
(11.04.15 12:29:30 MSK)

Ссылка

Так пистон же! Нечему удивляться.

Meyer ★★★★★
(11.04.15 12:42:00 MSK)

Ссылка

Наверное, я что-то делаю не так... что?

Используешь numpy.
Серьёзно, за все 30 лет (или больше?) матлаб вылизан настолько, что блестит в закрытой комнате, стенки которой покрыты вантаблэком.

olibjerd ★★★★★
(11.04.15 12:42:31 MSK)

Ответ на: комментарий от olibjerd 11.04.15 12:42:31 MSK

Ну я думал, у numpy под капотом C/Fortran/Lapack и на большинстве матричных операций оверхед от самого python будет незначительным, т.к. мы однократно сказали, что мы хотим, а дальше под капотом работает C/LAPAC...

omegatype ★★★
(11.04.15 12:51:24 MSK) автор топика

Ссылка

Matlab точно параллелит задачу. 8 ядер моего проца сейчас загружены на максимум повторением этого скрипта. Касательно питона не знаю.

Ещё попробуй

A = gpuArray.rand(P,N);

Sadler ★★★
(11.04.15 12:53:19 MSK)
Последнее исправление: Sadler 11.04.15 12:54:52 MSK (всего исправлений: 1)

Интересно, все говорят, что виноват питон, а может в матлабе дело? Его уже сколько времени пилят? Наверняка там все сложные вычисления на асме... или еще как оптимизированы.

fjfalcon ★★★
(11.04.15 12:53:38 MSK)

Ссылка

или мне кажется, или ты что-то делаешь неправильно? каждый раз запускаешь новую сессию питона, при этом получая большой оверхед на старт?

Sahas ★★★★☆
(11.04.15 12:57:11 MSK)

Ответ на: комментарий от Sahas 11.04.15 12:57:11 MSK

Что такое «сессия питона»? У меня запущен один интерператор python2, в нем я использую ровно тот код, что привёл выше.

omegatype ★★★
(11.04.15 13:03:12 MSK) автор топика

Ответ на: комментарий от omegatype 11.04.15 13:03:12 MSK

я просто не знаю, как работает repeat, поэтому прошу уточнения

Sahas ★★★★☆
(11.04.15 13:06:30 MSK)

%%timeit
A.T.dot(A)
10 loops, best of 3: 73.1 ms per loop

Ты что-то не то делаешь.

anatoly ★
(11.04.15 13:06:44 MSK)

Ответ на: комментарий от Sadler 11.04.15 12:53:19 MSK

Сейчас специально програл скрипт на однопроцессорной виртуалке, порядок результата такой же.

omegatype ★★★
(11.04.15 13:07:23 MSK) автор топика

   A =: ? 1024 768 $ 0
   6!:2 'A +/ . * (|: A)'
0.765671

Сделай матрицу побольше

buddhist ★★★★★
(11.04.15 13:08:09 MSK)
Последнее исправление: buddhist 11.04.15 13:09:41 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от Sahas 11.04.15 13:06:30 MSK

Вот так работает.

omegatype ★★★
(11.04.15 13:08:55 MSK) автор топика

Ответ на: комментарий от omegatype 11.04.15 13:03:12 MSK

У тебя в тесте бОльшую часть времени сжирает import.

anatoly ★
(11.04.15 13:09:25 MSK)

Ответ на: комментарий от anatoly 11.04.15 13:06:44 MSK

А что такое «%%timeit»? У тебя код, который я предоставил показывает тоже меньший результат?

omegatype ★★★
(11.04.15 13:10:42 MSK) автор топика

Ответ на: комментарий от omegatype 11.04.15 13:10:42 MSK

Это директива из IPython.

A.T.dot(A) выполняется за 73 мс.

anatoly ★
(11.04.15 13:12:05 MSK)

Ссылка

Ответ на: комментарий от omegatype 11.04.15 13:08:55 MSK

там написано

It’s tempting to calculate mean and standard deviation from the result vector and report these. However, this is not very useful. In a typical case, the lowest value gives a lower bound for how fast your machine can run the given code snippet; higher values in the result vector are typically not caused by variability in Python’s speed, but by other processes interfering with your timing accuracy. So the min() of the result is probably the only number you should be interested in.

может, маловато статистики?

Sahas ★★★★☆
(11.04.15 13:14:17 MSK)
Последнее исправление: Sahas 11.04.15 13:15:45 MSK (всего исправлений: 1)

Ответ на: комментарий от Sahas 11.04.15 13:14:17 MSK

И? Вот repeat вернул ряд измерений, у всех одинаковый порядок. Зачем ты приводишь код, о том, как выбирать одно значение из результатов repeat? Ну берите min как советует мануал, порядок-то не поменяется.

omegatype ★★★
(11.04.15 13:17:30 MSK) автор топика

Ответ на: комментарий от anatoly 11.04.15 13:09:25 MSK

Как это? У меня import в setup-у repeat-а, а setup выполняется тольк один раз.

Вот пример, где setup идет 10 секунд, результирующие тайминги примерно такие же.

>>> setup = """
... import numpy as np
... import time
... 
... N = 768
... P = 1024
... 
... time.sleep(10)
... 
... A = np.random.random((P, N))
... """
>>> 
>>> 
>>> timeit.repeat('A.T.dot(A)', setup=setup, number=10, repeat=3)
[20.86553192138672, 21.162163019180298, 21.352187871932983]

omegatype ★★★
(11.04.15 13:22:35 MSK) автор топика
Последнее исправление: omegatype 11.04.15 13:23:43 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от omegatype 11.04.15 13:17:30 MSK

да, стормозил. Как ни считай, всё равно медленно получается...

Sahas ★★★★☆
(11.04.15 13:25:38 MSK)

Ссылка

Ответ на: комментарий от omegatype 11.04.15 13:07:23 MSK

У вас там в питоне нет профилировщика какого, чтоль? Я вот в матлабе вижу, на что у меня уходят ресурсы.

Sadler ★★★
(11.04.15 13:28:16 MSK)

Ответ на: комментарий от Sadler 11.04.15 13:28:16 MSK

Есть.... но, у меня тут всего одна строчка кода, что профилировать? Сам numpy? Мне такая задача не представляется возможнной.

omegatype ★★★
(11.04.15 13:31:22 MSK) автор топика

Ссылка

matlab обгоняет numpy на 1-2 порядка?!

Разница в 2 порядка наводит на подозрение, что Matlab просто не выполняет операцию, пока ее результат не понадобился.

tailgunner ★★★★★
(11.04.15 13:36:50 MSK)

Ответ на: комментарий от anatoly 11.04.15 13:06:44 MSK

Может, дело в версии python, я поправил ОП, речь о python2. У меня на ipython опять те же 2 секунды:

In [1]: import numpy as np
In [2]: N = 768
In [3]: P = 1024
In [4]: A = np.random.random((P, N))
In [5]: %%timeit
   ...: A.T.dot(A)
   ...: 
1 loops, best of 3: 1.83 s per loop

Вы у себя точно такой же код гоняете и получаете 72 мс?

omegatype ★★★
(11.04.15 13:41:32 MSK) автор топика

Ответ на: комментарий от Stahl 11.04.15 12:26:22 MSK

Не видел. Так почему ты считаешь, что этот самый numpy будет такой программой?

Потому, что в кишках у numpy вовсе не код на пистоне. Иногда лучше жевать.

ptarh ★★★★★
(11.04.15 13:42:22 MSK)

Ссылка

Ответ на: комментарий от omegatype 11.04.15 13:41:32 MSK

Да. Также попробовал с repeat — тот же самый результат (73 мс).

anatoly ★
(11.04.15 13:44:29 MSK)

Ответ на: комментарий от tailgunner 11.04.15 13:36:50 MSK

Разница в 2 порядка наводит на подозрение, что Matlab просто не выполняет операцию, пока ее результат не понадобился

Нет. Следующий код даёт приблизительно такое же время (с разницей на время mean2):

tic
    A = A' * A;
toc

mean2(A)

Sadler ★★★
(11.04.15 13:47:12 MSK)

Ответ на: комментарий от tailgunner 11.04.15 13:36:50 MSK

Гм.. вот такой код:

N = 768;
P = 1024;

A = rand(P, N);

tic
H = A' * A;
size(H)
sum(sum(H))
toc

Имеет тот же порядок, попытки менять rand на randn (что бы убедится в новых значениях) приводят (иногда, но не всегда) к возрастанию времни на конкретно моём окружении с 0.08 до 0.10 - 0.12, но все-равно примерно тоже.

omegatype ★★★
(11.04.15 13:47:41 MSK) автор топика

Ссылка

Реализация BLAS и JIT-компиляция?

dinn ★★★★★
(11.04.15 13:48:05 MSK)

Ответ на: комментарий от Sadler 11.04.15 13:47:12 MSK

Следующий код даёт приблизительно такое же время (с разницей на время mean2)

Если tic tac - это скобки для измерения времени, то результат и должен быть одинаковым.

tailgunner ★★★★★
(11.04.15 13:50:13 MSK)

Ответ на: комментарий от tailgunner 11.04.15 13:50:13 MSK

А, точно, вру, даже без mean2. То есть всё-таки питон чего-то больно тормозной у человека. А я ещё на матлаб обижаюсь за тормоза в расчётах.

Sadler ★★★
(11.04.15 13:51:46 MSK)
Последнее исправление: Sadler 11.04.15 13:53:12 MSK (всего исправлений: 1)

Ответ на: комментарий от dinn 11.04.15 13:48:05 MSK

Пример:
Стандартный BLAS

octave:1> test_1
Elapsed time is 0.310091 seconds.
octave:2> test_1
Elapsed time is 0.400823 seconds.
octave:3> test_1
Elapsed time is 0.309284 seconds.

OpenBLAS

octave:1> test_1
Elapsed time is 0.052923 seconds.
octave:2> test_1
Elapsed time is 0.0540769 seconds.
octave:3> test_1
Elapsed time is 0.050236 seconds.

dinn ★★★★★
(11.04.15 13:52:37 MSK)

Ответ на: комментарий от Sadler 11.04.15 13:51:46 MSK

А, точно, вру, даже без mean2

Еще раз - тест без mean2 бессмысленен, если Matlab вычисляет лениво.

tailgunner ★★★★★
(11.04.15 13:55:04 MSK)

Ответ на: комментарий от tailgunner 11.04.15 13:55:04 MSK

Ну вот я привел пример с занесением обращения к результатам вычисления под tic toc, результат такой же.

omegatype ★★★
(11.04.15 13:55:45 MSK) автор топика
Последнее исправление: omegatype 11.04.15 13:56:01 MSK (всего исправлений: 1)

Ссылка

Вместо того, чтобы тестить, я порылся в интернете. Нашел интересный тред.

ptarh ★★★★★
(11.04.15 13:57:33 MSK)

Ссылка

Ответ на: комментарий от dinn 11.04.15 13:52:37 MSK

Стандартный BLAS

OpenBLAS

Но это за счет распараллеливания? 2 порядка это не даст.

tailgunner ★★★★★
(11.04.15 13:58:14 MSK)

Ответ на: комментарий от dinn 11.04.15 13:52:37 MSK

По ходу просто BLAS:

lapack_info:
    libraries = ['lapack']
    library_dirs = ['/usr/lib64']
    language = f77
lapack_opt_info:
    libraries = ['lapack', 'blas']
    library_dirs = ['/usr/lib64']
    language = f77
    define_macros = [('NO_ATLAS_INFO', 1)]
openblas_lapack_info:
  NOT AVAILABLE
blas_info:
    libraries = ['blas']
    library_dirs = ['/usr/lib64']
    language = f77
atlas_3_10_blas_threads_info:
  NOT AVAILABLE
atlas_threads_info:
  NOT AVAILABLE
atlas_3_10_threads_info:
  NOT AVAILABLE
atlas_blas_info:
  NOT AVAILABLE
atlas_3_10_blas_info:
  NOT AVAILABLE
atlas_blas_threads_info:
  NOT AVAILABLE
openblas_info:
  NOT AVAILABLE
blas_mkl_info:
  NOT AVAILABLE
blas_opt_info:
    libraries = ['blas']
    library_dirs = ['/usr/lib64']
    language = f77
    define_macros = [('NO_ATLAS_INFO', 1)]
atlas_info:
  NOT AVAILABLE
atlas_3_10_info:
  NOT AVAILABLE
lapack_mkl_info:
  NOT AVAILABLE
mkl_info:
  NOT AVAILABLE

Сейчас пойду гуглить, но если openblas такой классный, что же он не в коробке вместо просто blas-а... ?

omegatype ★★★
(11.04.15 14:00:39 MSK) автор топика

Ответ на: комментарий от tailgunner 11.04.15 13:55:04 MSK

Еще раз - тест без mean2 бессмысленен, если Matlab вычисляет лениво

Но тест с mean2, просто mean2 вне tic toc. Вариант с «компилятор это посчитает в момент вызова mean2» я даже не рассматриваю, т.к. это не соответствует наблюдаемым через профилировщик результатам.

Sadler ★★★
(11.04.15 14:01:34 MSK)

Ссылка

Ответ на: комментарий от tailgunner 11.04.15 13:58:14 MSK

Но это за счет распараллеливания?

Не только, там оптимизации под конкретные процессоры. Как минимум это даёт один порядок. Всё-таки осталось найти только один, а не два. Возможны оптимизации в других библиотеках, или что-то, заточенное в Matlab. Например одна из причин проигрыша Octave по отношению к Matlab - работа с памятью.

dinn ★★★★★
(11.04.15 14:03:27 MSK)

Ссылка

Ответ на: комментарий от omegatype 11.04.15 14:00:39 MSK

Сейчас пойду гуглить, но если openblas такой классный, что же он не в коробке вместо просто blas-а... ?

По крайней мере на Debian он в репозитории - если поставить, автоматически используется.

tailgunner ★★★★★
(11.04.15 14:04:09 MSK)

Ответ на: комментарий от omegatype 11.04.15 14:00:39 MSK

Потому что стандартная реализация в отличие от openblas и atlas работает всегда и как надо. А у них встречаются регрессии. В любом случае основные дистрибутивы поддерживают смену системных реализаций blas и lapack.

dinn ★★★★★
(11.04.15 14:05:11 MSK)

Ссылка

Ответ на: комментарий от tailgunner 11.04.15 14:04:09 MSK

если поставить, автоматически используется.

Нет, на Debian и openSUSE можно менять используемую реализацию через update-alternatives. Про другие дистрибутивы не знаю как там именно сделано.

dinn ★★★★★
(11.04.15 14:06:32 MSK)

Еще вопрос - откуда numpy? Из стандартных бубунтяшных реп? Если да, то поставь EPD и протестируй на нем.

ptarh ★★★★★
(11.04.15 14:07:04 MSK)

Ответ на: комментарий от dinn 11.04.15 14:06:32 MSK

если поставить, автоматически используется.
Нет,

Да. Я попробовал.

на Debian и openSUSE можно менять используемую реализацию через update-alternatives

Да. Но это же может сделать и postinst-скрипт.

tailgunner ★★★★★
(11.04.15 14:07:58 MSK)

Ответ на: комментарий от ptarh 11.04.15 14:07:04 MSK

Из стандартных арчевых реп 1.9.2-2.

omegatype ★★★
(11.04.15 14:08:27 MSK) автор топика

Ответ на: комментарий от tailgunner 11.04.15 14:07:58 MSK

Но это же может сделать и postinst-скрипт.

Это скорее дело вкусов и мнений сопровождающего пакет. Я предпочитаю давать пользователю полное ручное управление в данном вопросе.

dinn ★★★★★
(11.04.15 14:11:19 MSK)

Ответ на: комментарий от dinn 11.04.15 14:11:19 MSK

это же может сделать и postinst-скрипт.
Это скорее дело вкусов и мнений сопровождающего пакет.

Или policy. Но я говорил о том, как оно сделано сейчас в Debian Stable.

tailgunner ★★★★★
(11.04.15 14:13:54 MSK)

Ссылка

Ответ на: комментарий от omegatype 11.04.15 14:08:27 MSK

Ну это и разгадка скорее всего. Смотри, тут с графиками: https://store.continuum.io/cshop/accelerate/

Проблема в том, что за оптимизированный numpy они хотят денег. Но, если ты academic user, то EPD и анаконда дадут тебе лицензию задаром.

ptarh ★★★★★
(11.04.15 14:16:15 MSK)

Ответ на: комментарий от anatoly 11.04.15 13:44:29 MSK

Что за дистирубив? Какая версия/откуда numpy? BLAS?

omegatype ★★★
(11.04.15 15:13:35 MSK) автор топика

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 →

←	Ну что за манера такая?

Talks

Хоткеи в консоли и хоткеи в браузерах

→

Похожие темы