Параллельные технологии

11

5

По договорённости с редакцией Linux Format выложил в открытый доступ цикл статей по параллельному программированию, которые были опубликованы в журнале с февраля по июль этого года.

Кратко рассмотрены пакетные (batch) системы, MPI, CUDA, OpenCL и примеры работы с кластерами. Также во введении есть сопутствующее мини-интервью с Романом Троганом из Parallela.

P.S. Если будет интерес, то начну процедуру выкладывания исходников статей под открытой лицензией.

>>> Сами статьи

Ссылка

← NVIDIA не собирается поддерживать CUDA и OpenCL для 32-битных версий Linux

MediaTek официально представила «настоящий» 8-ядерный мобильный процессор →

← 1 2 3 4 →

А вот Кнут против всяких этих новомодных параллельных технологий.

~~NaN~~
(19.11.13 20:31:17 MSK)

Ответ на: комментарий от NaN 19.11.13 20:31:17 MSK

А выбора как бы нет. Против дальнейшего увеличения гигарцев выступают скорость света и размер атома. Так что для увеличения производительности придётся освоить параллельные технологии. Рано или поздно.

Evgueni ★★★★★
(19.11.13 20:35:06 MSK) автор топика

Ответ на: комментарий от Evgueni 19.11.13 20:35:06 MSK

Думаешь, что ты умнее Кнута?

~~NaN~~
(19.11.13 20:35:50 MSK)

Ответ на: комментарий от NaN 19.11.13 20:35:50 MSK

Думаю, что а) Кнут говорил что-то другое б) Выбора нет

P.S. И да, многое Кнут предусмотреть наперёд не смог.

Evgueni ★★★★★
(19.11.13 20:36:46 MSK) автор топика
Последнее исправление: Evgueni 19.11.13 20:38:35 MSK (всего исправлений: 1)

Ответ на: комментарий от Evgueni 19.11.13 20:36:46 MSK

Параллельные методы быстро устаревают, поскольку аппаратные средства быстро меняются, и для каждой новой машины требуется несколько иной подход.

За последние 50 лет я написал более тысячи программ, многие из которых были значительного размера. Не думаю, что хотя бы пять программ из числа написанных мной существенно выиграли бы за счет параллелизма или многопотоковости. Например, вне всякого сомнения, дополнительные процессоры бесполезны для TeX.

~~NaN~~
(19.11.13 20:42:04 MSK)

Ответ на: комментарий от NaN 19.11.13 20:42:04 MSK

а) Есть задачи которые хорошо параллелятся

б) То, что дополнительные процессоры бесполезны для TeX — это печалька, а не достоинство, хотя безусловно это сложно.

в) Стандарты похоже начинают устаканиваться. Это началось относительно недавно aka последнее десятилетие.

г) Просмотрите цикл статей — возможно это даст ответы на интересующие вас вопросы.

д) И да, Кнут не говорил, что параллелизм не нужен — он говорил что он его не осилил (хотя пять программ — это на самом деле круто).

Evgueni ★★★★★
(19.11.13 20:53:41 MSK) автор топика
Последнее исправление: Evgueni 19.11.13 20:56:23 MSK (всего исправлений: 4)

Ответ на: комментарий от Evgueni 19.11.13 20:53:41 MSK

«не осилил» следует заменить на «у него не было подходящей задачи».

Evgueni ★★★★★
(19.11.13 20:57:51 MSK) автор топика
Последнее исправление: Evgueni 19.11.13 20:59:59 MSK (всего исправлений: 2)

Ссылка

Ответ на: комментарий от NaN 19.11.13 20:42:04 MSK

Кнут — великолепный программист, но его мнение — лишь одно из тысячи. Всегда кто-то будет против чего-то, и если не все согласны, это не повод забивать болт на перспективные технологии. Просто кто-то их будет использовать, а кто-то не будет. А, и скромно себе позволю напомнить, что все суперкомпьютеры используют параллельные методы, нет ни одного однопроцессорного одноядерного суперкомпьютеа.

~~Policeman~~
(19.11.13 21:39:46 MSK)

Ответ на: комментарий от Policeman 19.11.13 21:39:46 MSK

Как бы векторные были именно такими, в смысле одноядерными, но таки да — сейчас их уже почти и нет (в TOP500 точно). В перспективе «одноядерными» можно будет назвать квантовые.

Evgueni ★★★★★
(19.11.13 21:41:54 MSK) автор топика
Последнее исправление: Evgueni 19.11.13 21:42:23 MSK (всего исправлений: 1)

Годно! Исходники могут пригодиться.

ymn ★★★★★
(20.11.13 06:49:55 MSK)

Ссылка

Ответ на: комментарий от Evgueni 19.11.13 20:53:41 MSK

Стандарты похоже начинают устаканиваться. Это началось относительно недавно aka последнее десятилетие.

Ага, сколько про OpenCL вопили, что это, мол, унификация CPU и GPU, а в итоге нет ни одной нормальной CPU-only реализации.

buddhist ★★★★★
(20.11.13 07:07:53 MSK)

Ответ на: комментарий от buddhist 20.11.13 07:07:53 MSK

Реализации чего? Железа? OpenCL даже к FPGA прикрутили.

Или имеется в виду стандарт, который GPU не поддерживает? Ну дык используй MPI.

Evgueni ★★★★★
(20.11.13 08:21:32 MSK) автор топика

Ссылка

Ответ на: комментарий от Evgueni 19.11.13 20:53:41 MSK

На правах оффтопика

Как в TeX набрать Ѣ (ять)?

~~NaN~~
(20.11.13 12:48:03 MSK)

Ответ на: На правах оффтопика от NaN 20.11.13 12:48:03 MSK

Тебе нужны подходящие шрифты. Смотри в сторону Old standard. Проще для этого освоить xelatex.

Evgueni ★★★★★
(20.11.13 12:55:44 MSK) автор топика

Ссылка

Разве все это нужно когда есть эрланг?

loz ★★★★★
(20.11.13 13:36:44 MSK)

Ответ на: комментарий от loz 20.11.13 13:36:44 MSK

Эрланг может волшебным образом разрулить все ограничения GPU? Проблема как раз и состоит в том, что оптимизирующие компиляторы дают прирост в среднем 20%, а если хочется получить два-три порядка по производительности, то добро пожаловать в мир «настоящих мужчин, для которых что запилить драйвер к железяке, что сочинить параллельный алгоритм — раз плюнуть».

Evgueni ★★★★★
(20.11.13 13:45:56 MSK) автор топика
Последнее исправление: Evgueni 20.11.13 13:47:12 MSK (всего исправлений: 1)

Ответ на: комментарий от Evgueni 20.11.13 13:45:56 MSK

Эрланг может волшебным образом разрулить все ограничения GPU?

Эрланг может волшебным образом раздавать задания и собирать результаты с программ написанными настоящими мужчинами.

loz ★★★★★
(20.11.13 15:38:12 MSK)

Почитал статью о кластерах - понравилось, спасибо.

~~fish_ka~~
(20.11.13 15:57:16 MSK)

Ссылка

Ответ на: комментарий от loz 20.11.13 15:38:12 MSK

Параллелизм на данных? Вы имеет в виду то, что может любая система управления очередями? _Это_ простая задача. Попробуйте решить сложную.

Evgueni ★★★★★
(20.11.13 16:14:11 MSK) автор топика
Последнее исправление: Evgueni 20.11.13 16:14:41 MSK (всего исправлений: 1)

Ответ на: комментарий от Evgueni 20.11.13 16:14:11 MSK

Попробуйте решить сложную.

И в чем же состоит сложная задача?

loz ★★★★★
(20.11.13 16:15:58 MSK)

Ответ на: комментарий от NaN 19.11.13 20:42:04 MSK

Когда нужно обработать большой массив данный - без параллелизации вычислений уже никуда - Предлагаешь ждать месяц пока выполнится обработка?

neon1ks ★★
(20.11.13 16:16:55 MSK)

Ссылка

Ответ на: комментарий от loz 20.11.13 16:15:58 MSK

Обработка данных - Все совсеменные научные институты имеют небольшой суперкомпьютер =) А там как раз все раз параллелено.

neon1ks ★★
(20.11.13 16:20:31 MSK)

Ответ на: комментарий от loz 20.11.13 16:15:58 MSK

Начните с простого: клеточный автомат (пусть будет 1024 на 1024 клеток и можно взять за правила игры Жизнь) на 2 ядрах. Ускорьте его в два раза. Потом сделайте тоже самое на 1024 ядрах. Ускорьте его в 1000 раз.

Безусловно готовых решений для этого в избытке. Потом можете глянуть в сторону гидродинамики, решёточных вычислений и обратных задач для поиска нефти. Естественно всяческие ускорения графического интерфейса и преобразования тяжёлых изображений тоже там сидят.

P.S. Лично я специализируюсь в области, где всё как раз параллелится на уровне данных (введение и последняя статья). Но это не повод не глядеть по сторонам.

Evgueni ★★★★★
(20.11.13 16:28:00 MSK) автор топика

Ответ на: комментарий от Evgueni 20.11.13 16:28:00 MSK

Потом сделайте тоже самое на 1024 ядрах.

А почему бы не сделать на десятке 100-ядерных?

loz ★★★★★
(20.11.13 17:47:24 MSK)

Ответ на: комментарий от loz 20.11.13 17:47:24 MSK

Ну если ты не доверяешь Teslам, то можешь напихать обычных видюх.

Evgueni ★★★★★
(20.11.13 20:22:22 MSK) автор топика

Ответ на: комментарий от Evgueni 20.11.13 20:22:22 MSK

Я не доверяю одному компьютеру.

loz ★★★★★
(20.11.13 20:36:30 MSK)

Ссылка

Ответ на: комментарий от Evgueni 19.11.13 20:35:06 MSK

А выбора как бы нет. Против дальнейшего увеличения гигарцев выступают скорость света и размер атома. Так что для увеличения производительности придётся освоить параллельные технологии. Рано или поздно.

Так есть же экспериментальные транзисторы на 700 ГГц. А ещё скорая реальная реализация «оптических» процессоров (не квантовых) более вероятна, чем квантовых. Или речь идёт именно о повышении гигагерцев свыше той самой скорости света и неминуемость использования распараллеливания?

Параллель - не параллель, а, в конце концов, получится, как с PATA(SCSI) -> SATA (SAS). Хотя, если взять PCIe, то она как бы официально последовательная, но можно брать несколько параллельных линков. Хм.

Спасибо за статьи, посмотрю; а исходники - всегда приветствуются. Их так не хватает крутым иностранным «papers», которые из-за их отсутствия смотрятся, как воздушные замки, мешая науке развиваться инкрементально по спирали вверх, а не по кругу.

gag ★★★★★
(20.11.13 23:36:31 MSK)

Ссылка

Дохловато. Примеры из мануала.

~~Eddy_Em~~ ☆☆☆☆☆
(21.11.13 01:35:05 MSK)

Ответ на: комментарий от NaN 19.11.13 20:31:17 MSK

Ты врешь. Не мог Кнут такого говорить!

~~Eddy_Em~~ ☆☆☆☆☆
(21.11.13 01:36:07 MSK)

Ответ на: комментарий от loz 20.11.13 17:47:24 MSK

А вот и школьник со своим эрлангом подтянулся. Посчитай флопс на ват для цпу и гпу. На реальных числодробилках твой кластер с эрлангом сольет одной топовой игровой видяхе за 500$ как по производительности, так и по цене, размерам, счетам за свет и чему угодно ещё.

anonymous
(21.11.13 02:28:49 MSK)

Спасибо бро!

P.S. Если будет интерес, то начну процедуру выкладывания >исходников статей под открытой лицензией.

Да, да, да!

~~Dron~~ ★★★★★
(21.11.13 02:34:39 MSK)

Ссылка

Хотя чёт я сильно обрадовался, содержание не оч торкнуло.

~~Dron~~ ★★★★★
(21.11.13 02:36:49 MSK)

Ответ на: комментарий от NaN 19.11.13 20:42:04 MSK

Более идиотского примера, чем верстка не нашлось? Ничего что есть задачи, которые без параллелизма за разумное время вообще не решить?

anonymous
(21.11.13 04:06:05 MSK)

Ссылка

Eвгений, судя по тексту статьи: - Роман из Adapteva; - ParalleLLa — некий проект и в нём два двойных L.

P.S. Любопытно, как много читателей LinuxFormat представляют себе размеры американского цента, использованного для задания масштаба на фотографии с процессором...

frob ★★★★★
(21.11.13 04:11:42 MSK)

Ответ на: комментарий от Dron 21.11.13 02:36:49 MSK

Меня вот этот курс весьма торкнул.

https://computing.llnl.gov/tutorials/parallel_comp/

frozenix ★★★
(21.11.13 04:49:00 MSK)

Ответ на: комментарий от Evgueni 19.11.13 20:35:06 MSK

Есть мнение, что скорость не нужна, за исключением единичных особых случаев.

По сабжу: спасибо, когда-то интересовался.

drSchur ★★★
(21.11.13 05:05:40 MSK)

Ответ на: комментарий от frob 21.11.13 04:11:42 MSK

Действительно опечатался. Имел в виду, что участвует в создании Parallella

Evgueni ★★★★★
(21.11.13 05:16:10 MSK) автор топика

Ссылка

Ответ на: комментарий от drSchur 21.11.13 05:05:40 MSK

Этих случаев весьма не мало. Безусловно бросаться и переводить уже работающий алгоритм на параллельный как правило контрпродуктивно.

Evgueni ★★★★★
(21.11.13 05:18:17 MSK) автор топика
Последнее исправление: Evgueni 21.11.13 05:22:34 MSK (всего исправлений: 1)

Ссылка

Привет,я хотел бы высказать своё мнение по поводу параллельных вычислений.На самом деле это очень важно, и даже очень.Если вы прикладной математик и информатик,я думаю вы поймете о чем я.Решать СЛАУ 10^6 x 10^6 на one pc даже самым быстрым оптимальным алгоритмом займет около века,если не больше(все зависит от метода,да и где вы память возмете?).Алгоритм Фокса,Кеэнона,сортировки и т.п - не зря придумано.Есть реально большие задачи.Трехмерные нелинейные задачи темболее,какой там уж один компьютер. Мой друг по комнате пишет fraemwork mpi,чтобы потом еще менее заморачиваться с интерфейсом mpi,т.к нужна скорость разработки-времени нет.Поэтому ребят,вы не думайте,что это не нужно:-) Кнут молодец конечно,но увы Evgueni прав))

keekdown
(21.11.13 05:19:56 MSK)

Ответ на: комментарий от Eddy_Em 21.11.13 01:35:05 MSK

а) не везде

б) это ликбез, а для переднего края лучше сходить на arxiv.org

Evgueni ★★★★★
(21.11.13 05:21:16 MSK) автор топика

Ссылка

Ответ на: комментарий от Evgueni 19.11.13 20:35:06 MSK

Всё верно вы пишите. Просто не забывайте ещё, что параллелизация бывает разная. От параллельного запуска одного алгоритма (распараллеливание на потоки), до параллельного запуска процессов, которые могут быть совершенно разными, и работать на ядрах с разной скоростью, но т.или иначе, это приводит к уменьшение времени на получение конечного результата. Также тут в топике пишут про стандарты параллелизации 1-го типа на видеокартах, но забывают о памяти, выделенной GPU, которая не позволит(-яет) паралелльно запустить 900 потоков с выделенной памятью в 20-30 мб на ядро, т.е. запустить 900 копий виртуальных машин Java или Python на CUDA или других параллельных GPU стеках в 2013 году невозможно.

menangen ★★★★★
(21.11.13 05:54:21 MSK)

Ответ на: комментарий от menangen 21.11.13 05:54:21 MSK

запустить 900 копий виртуальных машин Java или Python на CUDA или других параллельных GPU стеках в 2013 году невозможно.

Ну дык не с проста CUDA и OpenCL - си-подобные языки
И вообще что касается GPU - там принцип совсем другой чем для CPU, там в один момент только одно ядро (программа-kernel) работает над массивом данных.

af5 ★★★★★
(21.11.13 06:06:05 MSK)
Последнее исправление: af5 21.11.13 06:11:38 MSK (всего исправлений: 3)

Ответ на: комментарий от menangen 21.11.13 05:54:21 MSK

Безусловно. Более того конкретно в моей области деятельности GPU де факто не применимо.

Evgueni ★★★★★
(21.11.13 06:23:58 MSK) автор топика

Ссылка

Ответ на: комментарий от af5 21.11.13 06:06:05 MSK

Сейчас это уже совершенно не обязательно (см. например возможности архитектуры Kepler от Nvidia). GPU дрейфуют в сторону процессоров общего назначения и наоборот.

Evgueni ★★★★★
(21.11.13 06:26:48 MSK) автор топика

Ответ на: комментарий от Evgueni 21.11.13 06:26:48 MSK

Не знаю что именно ты имеешь в виду, но вроде бы это единственный возможный способ действительно эффективно параллелить обработку данных

af5 ★★★★★
(21.11.13 06:29:56 MSK)

Ответ на: комментарий от af5 21.11.13 06:29:56 MSK

Я тоже уже не уверен что имел в виду :) Возможно я хотел сказать, что kernel может инициализировать запуск другого kernel. Но это действительно совсем не в ту стпь. В GPU есть быстрая память, к которой могут доступаться все процессы.

Кроме того если взять ту же Parallella, то с быстрой памятью там тоже проблемы, но на каждом ядре крутится своя независимая программа и ядра могут обмениваться информацией без привлечения внешней памяти.

Evgueni ★★★★★
(21.11.13 06:56:55 MSK) автор топика

Ответ на: комментарий от Evgueni 21.11.13 06:56:55 MSK

Parallella AFAIK это просто кластер из недокомпов типа SoC, от любого другого кластер отличающаяся ну может быть немного большей энергоэффективностью, а GPGPU это всё же принципиально другой подход, для которого усиленно пилятся специальные алгоритмы, которые вполне себе фундаментальны в том же смысле, что и у Кнута.

af5 ★★★★★
(21.11.13 07:42:33 MSK)

Ответ на: комментарий от NaN 19.11.13 20:42:04 MSK

Например, вне всякого сомнения, дополнительные процессоры бесполезны для TeX.

Расскажите ему кто-нибудь про opengl и про Unified Shader Model

af5 ★★★★★
(21.11.13 07:58:58 MSK)

Ссылка

Ответ на: комментарий от af5 21.11.13 07:42:33 MSK

GPGPU это всё же принципиально другой подход

Это не от хорошей жизни и они всеми силами (по крайней мере для расчётных GPU) пытаются от этого подхода эволюционно перейти к кластеру.

Evgueni ★★★★★
(21.11.13 08:07:12 MSK) автор топика

Ответ на: комментарий от Evgueni 21.11.13 08:07:12 MSK

Ну не знаю, народу нравится вроде. Да и что в этом мире от хорошей жизни?

af5 ★★★★★
(21.11.13 08:13:05 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 3 4 →

← NVIDIA не собирается поддерживать CUDA и OpenCL для 32-битных версий Linux

Документация

MediaTek официально представила «настоящий» 8-ядерный мобильный процессор →

На правах оффтопика

Похожие темы