LINUX.ORG.RU

Анализ CPI процессора POWER5: Часть 1. Инструменты измерения производительности

 , , , pmcount


0

0

Эта серия статей посвящена анализу модели CPI, чтобы помочь вам понять, где ваша система совершает холостые такты при работе ядра, и выявить вытекающие из этого проблемы. Мы осуществим обзор архитектуры POWER5, обсудим средства мониторинга производительности POWER5, а также события производительности и средства сбора информации в ОС Linux® и AIX®. Будет показано, как настроить набор CPI для вашей системы при помощи программы pmcount. Наконец, мы познакомимся с примером анализа CPI для выявления и решения проблем производительности. Первая статья посвящена средствам мониторинга производительности, доступным в системах на базе POWER5.

>>> Подробности

★★★

Проверено: Shaman007 ()

Статейка для взращенных на мануалах к i386 кодопейсателей? Чтобы руки выпрямлять и приучаться оптимизировать код, а не шаманить с отгравированными "штеудами" бубнами?

Gharik
()
Ответ на: комментарий от Gharik

преждевременная оптимизация - зло, и как ты потом поймешь, что именно у тебя в большой программе тормозит без профилирования?

anonymous
()

ОС Linux(R)? По-моему херня какая-то.

jackill ★★★★★
()

>А чем вообще хорош POWER5?

там такие откаты - закачаешься....

anonymous
()
Ответ на: комментарий от anonymous

> преждевременная оптимизация - зло,

Зло - это ты, а я пророк и гений. Ибо проги большие должны писаться как сборка из кучи маленьких.

> и как ты потом поймешь, что именно у тебя в большой программе тормозит без профилирования?

Я больше скажу - степень долбанутости и размер индусского семейного древа разрабов может быть установлена по результатам отработки препроцессора языка ещё даже до компиляции.

Gharik
()

Перевод, как всегда у ИБМ, написан условно русским языком.

Эта компания несколько лет назад сократила всю группу локализации на русский язык, отдав работу на откуп сторонним переводчикам и русскоязычным разработчикам документации: среди последних нет никого, чьё образование хотя бы отдалённо напоминало лингвистическое.

В результате переводчика, кормившегося на заданиях из ИБМ, приходится ибо увольнять в первые две недели, либо долго и нудно переучивать. Нормальный ИТшный язык у Микрософта, Хьюлетта, Новелла и Сана (у последнего -- в процессе шлифовки). НЕ БЕРИТЕ ИБМОВСКИЕ СТАТЬИ В КАЧЕСТВЕ ОБРАЗЦА. У НИХ НЕТ СТАНДАРТА ЯЗЫКА ДЛЯ ТЕХНИЧЕСКИХ ПЕРЕВОДОВ НА РУССКИЙ.

Orlusha ★★★★
()
Ответ на: комментарий от Gharik

>Статейка для взращенных на мануалах к i386 кодопейсателей? Чтобы руки выпрямлять и приучаться оптимизировать код, а не шаманить с отгравированными "штеудами" бубнами?

Примерно до кончины первопней на i386 очень даже любили оптимизировать.

madcore ★★★★★
()
Ответ на: комментарий от madcore

> Примерно до кончины первопней на i386 очень даже любили оптимизировать.

Скажем так, "до появления аут-фо-ордер" и прочей аппаратной мути народ не забывал читать умные книжки". А потом народ потерял представление о том, что выкинет процессор в связке с ОС в следующий момент, таблицы длин и времени выполнения оказались не нужны, народилось индусов аж до демографического кризиса и воцарился бардак с безначалием.

Ну и потом, как закономерный итог, случился апофеоз пиздеца в ЦС - придумали "Дельфи" и "Вижуал Васик".

Gharik
()
Ответ на: комментарий от kto_tama

>> пауэр - это типа круто угу, а между тем через месяц выходит 6-ядерный Core2Duo 2.66GHz c 16Mb кэша, для которого та же IBM делает материнскую плату для установки в нее 8 таких процов сразу (т.е. получаем 48-ядерный комп). Так что, RIP, POWER :|

V_P
()
Ответ на: комментарий от V_P

Только проблема в том, что у интел, в отличии от павер, с масштабированием беда и все эти ядра шинопамятью не прокормить. Хотя, ibm и тут хвасталась, что их решения под интеловские процы как-то сглаживают этот момент.

madcore ★★★★★
()
Ответ на: комментарий от V_P

>Так что, RIP, POWER :|

Дурилка ты картоновая! Во-первых, актуален Power6 (с частотой до 5ГГц), а во-вторых слабай мне на x86 аналог http://www-03.ibm.com/systems/power/hardware/595/specs.html ;)

А еще почитай про x3950 и сможешь еще круче пальцы гнуть по форумам.

Bebop ★★
()
Ответ на: комментарий от Bebop

> А еще почитай про x3950 и сможешь еще круче пальцы гнуть по форумам. Уже не актуально, пусть читает про x3950 M2 ;-)

anonymous
()
Ответ на: комментарий от Bebop

2Bebop:

>> Дурилка ты картоновая! Во-первых, актуален Power6 (с частотой до 5ГГц), а во-вторых слабай мне на x86 аналог http://www-03.ibm.com/systems/power/hardware/595/specs.html ;)

http://www.aixportal.ru/Articles/tpc-c-595.html всего 17 кислых лимонов! бюджетненько :)

вам аналог на x86 по скорости или по цене? Если по скорости, то есть лучше и больше. Достаточно зайти на top500, чтобы увидеть, что подавляющее большинство супер-компьютеров собрано на Xeon'ах, то бишь x86 (ну или его продолжение x64). Да и по цене аналоги наверняка есть. Уверен, многие задачи решаются просто распределением нагрузки на несколько машин. Закупается несколько 8-ми ядерных blade-серверов (а со следующего года 16-ти ядерные скорее всего пойдут), засовывается в стойку, и вуяля, намного дешевле 17 лимонов.

Нет, конечно, если IBM такую технику делает, значит это кому-нибудь нужно. Но всяко решение не народное и во многих случаях экономически нецелесообразное.

V_P
()
Ответ на: комментарий от V_P

>С заглавной страницы ixbt: http://www.ixbt.com/news/hard/index.shtml?10/94/03

И где там про 8-ми сокетную материнку??? Для начала стоит все-таки читать о чем речь - x3950 это модульный сервак, состоящий из нескольких коробок (до 4-х), каждая коробка содержит 4 процессорных сокета. В топовой конфигурации можно получить до 16-ти сокетов в общем корпусе высотой 16U. Но это никак не материнка.

Читать тут http://www-03.ibm.com/systems/x/hardware/enterprise/x3950m2/specs.html

ЗЫ Новости на хоботе - зло!

Bebop ★★
()
Ответ на: комментарий от V_P

>Достаточно зайти на top500, чтобы увидеть, что подавляющее большинство супер-компьютеров собрано на Xeon'ах, то бишь x86

Вы вообще представляете в чем разница между HPC кластером и, к примеру, сервером СУБД? Или там серваком для какого-нибудь сапа?

PS Строить HPC на пауэрах это чудовищно дорого, даже для IBM. У них для этого есть Cell. Вы почитайте про Roadrunner-а - как-никак первое место в упомянутом Top500.

Bebop ★★
()
Ответ на: комментарий от ikm

>А чем вообще хорош POWER5?
Если сравнивать с x86 то
0. Регистров больше.
1. Система команд лучше.
2. C ABI много прямее чем для x86.
3. Управление cache памятью гораздо прямее.
4. Производительность внутренних шин лучше.
5. Потребление питания меньше раза в два.. и более для других ядер.
6. Масштабируемость лучше на порядки.
7. MMU управляется лучше

alexr
()
Ответ на: комментарий от Bebop

А что, L3-кэш у него низколатентный?

А то вспоминается что у IA64 громадный L3-кэш, и маленький L2 себя как решение не оправдали.

slonotop
()
Ответ на: комментарий от Deleted

>Ээээ... Это как?

Точно также как и 3-ядерный AMD Phenom - через жопу.

fat_angel ★★★★★
()
Ответ на: комментарий от Deleted

> > 6-ядерный Core2Duo

> Ээээ... Это как?

Каком кверху. Это же штеуд, сынок, ты серьёзно полагаешь что они умеют делать нормальные прямые процессоры?

Gharik
()
Ответ на: комментарий от Gharik

>> Каком кверху. Это же штеуд, сынок, ты серьёзно полагаешь что они умеют делать нормальные прямые процессоры?

Я не совсем про это спрашивал. Я про то, как core 2 _DUO_ может быть _ШЕСТИЯДЕРНЫМ_? Или я чего-то совсем не понимаю?

Deleted
()
Ответ на: комментарий от Deleted

> Я про то, как core 2 _DUO_ может быть _ШЕСТИЯДЕРНЫМ_?

Ну не учили в интеле латынь! Как сказать "шестиядерник" - нинай. Да и неважно это всё... i7 - вот будущее. :)

Меня бы больше удивило, например, 9.5 ядер али ишшо чего :))

matumba ★★★★★
()
Ответ на: комментарий от Bebop

>> И где там про 8-ми сокетную материнку??? Для начала стоит все-таки читать о чем речь - x3950

ну хорошо, убедили, действительно x3950 M2 это модульный сервер. В новости написано про плату, соответственно, я неправильно это интерпретировал. И все равно это (http://www.shopping.com/xFS?KW=IBM+3950&CLT=SCH) получается на порядок дешевле аналогичных по производительности систем на POWER.

V_P
()
Ответ на: комментарий от Bebop

2Bebop >> Вы вообще представляете в чем разница между HPC кластером и, к примеру, сервером СУБД? Или там серваком для какого-нибудь сапа?

Угу, первый для попадания в top500 считает LU разложение с одинарной точностью (а как там у Cell с двойной точностью, кстати?), а второй гоняет SQL запросы. И для СУБД, мне кажется, как раз модульные решения гораздо практичнее, дешевле и скорее всего эффективнее, чем один монстр за $17M, даже если у POWER "регистров больше, ABI лучше ...". Все равно там в работу с диском и с памятью все упирается, быстрый interconnect между процессорами не особо нужен.

V_P
()
Ответ на: комментарий от Deleted

2mironov_ivan

> Я про то, как core 2 _DUO_ может быть _ШЕСТИЯДЕРНЫМ_? Или я чего-то совсем не понимаю?

Угу, вы не понимаете, что это была очепятка. По привычке написал Core2Duo, а следовало читать Core2. Вот новость на английском, если так лучше: http://news.cnet.com/8301-13579_3-9878131-37.html

V_P
()
Ответ на: комментарий от V_P

>модульные решения гораздо практичнее, дешевле и скорее всего эффективнее, чем один монстр за $17M

А кто ж Вам сказал, что p серия не модульная? Она модульнее некуда - купите его с 2-мя процами, остальные докупите, активируете потом. 595 был приведен как пример систем до которых обычным x86 еще очень далеко, хотя во многих секторах они потеснили RISC серверы.

>Все равно там в работу с диском и с памятью все упирается

2, 4, 6... 4-х гигабитных FC адаптера, подключенные к Hiend системе или системам хранения, набитым соответствующим количеством быстрых дисков + соответствующее ПО для балансировки по путям, накормят любой сервер, успевал бы пережевывать.

Просто по настоящему производительные системы стоят дорого и подбираются под задачу. Серебрянной пули нет.

Bebop ★★
()
Ответ на: комментарий от Deleted

> Я не совсем про это спрашивал. Я про то, как core 2 _DUO_ может быть _ШЕСТИЯДЕРНЫМ_? Или я чего-то совсем не понимаю?

Всё просто, "коркодубо" означает, что принципиально ничего нового в архитектуру не вносилось и не осиливается, играют как могут на тюнинге мелком (4 вариации процов с приростом скорости в 2-3% в каждой и с постоянно увеличивающимся ценником). Как калибровочный винт работает знаешь? Вот это оно и есть - тотальный и беспощадный будущий слив.

Gharik
()
Ответ на: комментарий от Bebop

2Bebop

> А кто ж Вам сказал, что p серия не модульная? Она модульнее некуда - купите его с 2-мя процами, остальные докупите, активируете потом. 595 был приведен как пример систем до которых обычным x86 еще очень далеко, хотя во многих секторах они потеснили RISC серверы.

Ничего себе! Не, ну канешн в мире x86 таких наворотов, как установка и активация(!) дополнительных процов нет, у нас все по-простому. Да только сдается мне что 8-процовый x86 комп (тот же Mac Pro, или XServe, если изначально расширение планируется) обойдется дешевле чем 2-процовая 595. Так что таки вы правы, до POWER x86-ым системам далеко, и в первую очередь по цене :)

V_P
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.