Вопрос о влиянии кешей ЦП на доступ к памяти.

0

1

Прошу прощения за плохую формулировку - ночь уже.

C++, линукс, винда, разное железо.

Есть два вычислительных алгоритма, обращающихся к константам в ОЗУ, общим объёмом примерно 150 метров. Алгоритмы различаются схемой доступа к данным в ОЗУ и схемой их расположения там. Например один алгоритм одновременно читает данные из нескольких блоков по 320 байт из разных удалённых мест. Второй алгоритм - те же данные, но запакованные в один последовательный блок в 8КБ, т.к. везде меняются паттерны чтения памяти.

При этом на разном железе - однопроцессорном и многопроцессорном, одноядерном и многоядерном (древние пни, core i5, серверные матери с несколькими Xeon-ами с огромными кешами...) не находится лучшего алгоритма по производительности.

Наблюдается такая закономерность - чем древнее и однопроцессорнее машина, тем больше она любит последовательный доступ к памяти (настольные древние P4, Core i5..., core2duo). Чем сервернее и многопроцессорнее девайс (Xeon-сервера), тем хуже работает алгоритм с «очень последовательным» доступом.

При отсутствии знаний по сабжу имею смелое предположение. Может быть, читая одновременно несколько разнесённых блоков я более вероятно использую разные линии кеша, а читая одновременно близко расположенные адреса (в блоке 8КБ) у меня больше риск создать ситуацию, когда одна линия кеша постоянно переписывается целиком двумя разными блоками (т.к. номер линии кеша - это адрес с отброшенными младшими битами)?

Спасибо.

Ссылка

←	Запуск питон-скрипта на пользовательской машине

первые шаги с Qt 5 beta1 - Failed to load platform plugin «xcb»

→

http://rus-linux.net/lib.php?name=/MyLDP/hard/memory/memory.html

Там много букв, тебе нужно про кеши и их влияние.

P.S. Дреппер, конечно, временами совсем невменяем, но технарь он мегаквалафицированный. Его статьи про память - обязательны к прочтению.

~~x_hash~~ ★
(31.08.12 04:41:15 MSK)

Ссылка

То же самое, в оригинале: http://www.akkadia.org/drepper/cpumemory.pdf, раздел 3.

Kosyak ★★★★
(31.08.12 05:57:40 MSK)

Ссылка

т.к. номер линии кеша - это адрес с отброшенными младшими битами

Если под линией кэша понимается именно строка, то если бы это было так, то кэш бы фактически не работал. Вообще, если данные целиком влезают в кэш, то скорее всего при многократном обходе оно будет работать в идеальном случае примерно одинаково. Но у разрозненных шанс того, что как раз таки всё-таки младшие биты совпадут, но вероятность падает при увеличении размера и ассоциативности кэша. http://upload.wikimedia.org/wikipedia/commons/4/41/Cache_nway.jpg http://upload.wikimedia.org/wikipedia/commons/0/07/Cache,missrate.png Так что скорее не «тем хуже работает алгоритм с «очень последовательным» доступом», а наоборот, алгоритм с произвольным доступом лучше.

~~Q3164~~
(31.08.12 06:10:39 MSK)

Ссылка

Может быть, читая одновременно несколько разнесённых блоков я более вероятно использую разные линии кеша

Тут важна только [не]выровненность этих блоков на адрес, кратный большой степени двойки. Скажем, не очень хорошо, если все эти блоки начинаются с начала страницы виртуальной памяти (4K), еще хуже, если с границы кратной 32K.
Типичный пример, скажем --- доступ к соседним строкам матрицы:
double A[1024][1024]; - совсем плохое решение
double A[1024][1025]; - чуть лучше
double A[1024][1032]; - лучшее, что можно сделать без существенных изменений алгоритма

Это называется проблемой алиасинга и приводит к «ситуации, когда одна линия кеша постоянно переписывается целиком двумя разными блоками».

алгоритм одновременно читает данные из нескольких блоков по 320 байт из разных удалённых мест

Если таких мест не очень много <=8, то будет работать аппаратная предзагрузка (hw prefetch). Если больше --- надо частично читать последовательно.

запакованные в один последовательный блок в 8КБ

последовательное (точнее, поточное) чтение при прочих равных всегда быстрее, но меня несколько смущает тут «запакованные данные». Как бы не пришлось тратить время на их «распаковку».

VLev ★
(31.08.12 09:57:20 MSK)

Наблюдается такая закономерность - чем древнее и однопроцессорнее машина, тем больше она любит последовательный доступ к памяти (настольные древние P4, Core i5..., core2duo). Чем сервернее и многопроцессорнее девайс (Xeon-сервера), тем хуже работает алгоритм с «очень последовательным» доступом.

Да, примерно так и должно происходить.
«Идеальный» алгоритм написать можно, но надо больше знать о задаче.

VLev ★
(31.08.12 10:22:54 MSK)

Ссылка

Ответ на: комментарий от VLev 31.08.12 09:57:20 MSK

*запакованные денные - понимается просто конкатенация тех маленьких блоков.

kiverattes ★☆
(31.08.12 12:05:24 MSK) автор топика

Ответ на: комментарий от kiverattes 31.08.12 12:05:24 MSK

«просто конкатенация», если это дополнительная операция --- бессмысленна.
По возможности --- надо хранить данные так, как они используются.

VLev ★
(31.08.12 12:32:35 MSK)

Ответ на: комментарий от VLev 31.08.12 12:32:35 MSK

Они хранятся так, как используются, причём читаются в том же порядке, в котором используются. Я имел ввиду, что блок 8кб - по структуре выглядит как много 320байтовых блоков друг за другом.

В разных вариантах «8kb» - алгоритма данные из этого блока читаются по-разному - например в одном они читаются ровно в том порядке, в котором используются, в другом варианте идёт чтение разных блоков по 320 байт, находящихся в пределах этих 8KB. Оба этих «8kb» - варианта дают производительность немного хуже, чем чтение 320-блоков из гораздо более удалённых мест, чем «окрестность 8 кб».

Да, я тут ничего не пишу про выравнивание - можно сказать так, что каждый 320-блок выровнен по границе 16 байт.

kiverattes ★☆
(31.08.12 13:01:54 MSK) автор топика

Ответ на: комментарий от kiverattes 31.08.12 13:01:54 MSK

Я имел ввиду, что блок 8кб - по структуре выглядит как много 320байтовых блоков друг за другом.

ага, понятно. Тогда 8K-алгоритм, при прочих равных --- лучше для кэширования, точнее, просто идеален.

Оба этих «8kb» - варианта дают производительность немного хуже, чем чтение 320-блоков из гораздо более удалённых мест, чем «окрестность 8 кб».

это скорее всего эффект, связанный не с кэшированием, а с конфигурацией каналов памяти и/или памяти NUMA-нод. Для ускорения доступа надо ставить interleave-режимы, хотя для NUMA interleave идёт по 4kb страницам, так что ускорение будет не более чем вдвое (реально --- меньше).

anonymous
(31.08.12 14:01:21 MSK)

Ответ на: комментарий от anonymous 31.08.12 14:01:21 MSK

Ну вот получается, что «при прочих равных» Xeon-у меньше нравится моя реализация последовательного чтения, чем Core i5-у (-;

Интересно, а можно ли, имея 4 NUMA-блока каким-то образом гарантировать, что привязанный к данному процессору или ядру ПОТОК будет использовать только тот банк ОЗУ, который соответствует данному ЦП? Чтобы не гонять чужие данные через меж-процессорные связи.

kiverattes ★☆
(31.08.12 19:12:32 MSK) автор топика

Ответ на: комментарий от kiverattes 31.08.12 19:12:32 MSK

можно ли, имея 4 NUMA-блока каким-то образом гарантировать, что привязанный к данному процессору или ядру ПОТОК будет использовать только тот банк ОЗУ, который соответствует данному ЦП?

да, конечно.
libnuma содержит все необходимое для этого.
причём это можно делать как в исходном коде, так и на стадии исполнения.

VLev ★
(31.08.12 21:56:32 MSK)

Ссылка

Ответ на: комментарий от kiverattes 31.08.12 19:12:32 MSK

Xeon-у меньше нравится моя реализация последовательного чтения, чем Core i5-у

какому именно Xeon-у?

VLev ★
(31.08.12 21:59:57 MSK)

Ответ на: комментарий от VLev 31.08.12 21:59:57 MSK

Xeon E7 4830 2.13 Ghz

http://ark.intel.com/products/53676/Intel-Xeon-Processor-E7-4830-(24M-Cache-2...

http://market.yandex.ru/model.xml?modelid=7334818&hid=91019

kiverattes ★☆
(01.09.12 12:25:25 MSK) автор топика

Ответ на: комментарий от kiverattes 01.09.12 12:25:25 MSK

Xeon E7 4830 2.13 Ghz

угу. там до 16 каналов памяти на 4 numa ноды.
Можно чуть ли не каждый 320байт блок из своего канала тащить.
но это будет очень специфичная оптимизация...

VLev ★
(01.09.12 13:34:47 MSK)

Ответ на: комментарий от VLev 01.09.12 13:34:47 MSK

Немного не по теме: а на что прежде всего рассчитаны такие системы (по 4 numa блока), на какой «паттерн» использования ресурсов?

kiverattes ★☆
(01.09.12 14:35:46 MSK) автор топика

Ответ на: комментарий от kiverattes 01.09.12 14:35:46 MSK

в такую систему можно поставить до 2ТБ оперативной памяти.
И вся эта память будет:
1. в одном адресном пространстве
2. доступна с относительно низкой латентностью (<~100нсек)

То, что это numa система, ну дык SMP сейчас не делают, и впредь вряд ли будут. Связанная с этим особенность:
3. высокая пропускная способность достигается только при обмене процессора данными со «своей» памятью.

Соответственно, наиболее эффективный «паттерн»: привязка групп потоков, обрабатывающих некое подмножество данных к той numa ноде, в памяти которой эти данные в основном хранятся.
libnuma IMHO удобный инструмент для этого.

VLev ★
(01.09.12 17:08:18 MSK)

12 июня 2013 г.

Ответ на: комментарий от VLev 01.09.12 17:08:18 MSK

а есть такие платы?

anonymous
(12.06.13 19:14:44 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	Запуск питон-скрипта на пользовательской машине

Development

первые шаги с Qt 5 beta1 - Failed to load platform plugin «xcb»

→

Похожие темы