Аппаратное копирование памяти

DMA это разве не то?
Ну если и не то, то во всяком случае близко...

~~Stahl~~ ★★☆
(21.10.13 13:33:17 MSK)

Ответ на: комментарий от Stahl 21.10.13 13:33:17 MSK

DMA не умеет memory <-> memory, если я правильно помню. И в любом случае, копирует оно через шину.

cvs-255 ★★★★★
(21.10.13 13:34:13 MSK) автор топика

Ответ на: комментарий от cvs-255 21.10.13 13:34:13 MSK

Т.е. тебя интересует совсем тупое копирование без какой либо логики?
Но зачем? Единственное, что мне приходит в голову это инициализация памяти каким-либо значением (0 например).
Других применений навскидку придумать не могу.

~~Stahl~~ ★★☆
(21.10.13 13:36:26 MSK)

А зачем?

thesis ★★★★★
(21.10.13 13:39:27 MSK)

Ответ на: комментарий от Stahl 21.10.13 13:36:26 MSK

быстрое перекидывание буфера из принимающего буфера в какой-нибудь другой. Местами приъходится учитывать, что memmove/memcpy O(n)

Dark_SavanT ★★★★★
(21.10.13 13:39:57 MSK)

память она для произвольного доступа, для быстро меняющихся данных.

Зачем там копирование?

n_play ☆
(21.10.13 13:40:08 MSK)

Ссылка

Ответ на: комментарий от Stahl 21.10.13 13:36:26 MSK

игрулька загрузила с жесткого в раму уровень, размером 2Gb, и делала это минуту. Потом игрок пробежал десять метров и получил пулю в жопу. Обиженный, надовил F9 qickload и опять две минуты печально наблюдал, как ползет прогрессбар загрузки уровня. Пробежал, получил в жопу пулю, нажал F9...

~~stevejobs~~ ★★★★☆
(21.10.13 13:40:18 MSK)

Ответ на: комментарий от cvs-255 21.10.13 13:34:13 MSK

И в любом случае, копирует оно через шину.

притом, что шина памяти итак самая быстрая. Быстрее неё только потроха процессора. Разве нет?

n_play ☆
(21.10.13 13:42:03 MSK)

Ответ на: комментарий от stevejobs 21.10.13 13:40:18 MSK

Кэширование есть ведь

~~Deneb~~ ★
(21.10.13 13:42:59 MSK)

Ссылка

Ответ на: комментарий от Dark_SavanT 21.10.13 13:39:57 MSK

быстрое перекидывание буфера из принимающего буфера в какой-нибудь другой. Местами приъходится учитывать, что memmove/memcpy O(n)

мне кажется или тут попахивает PIO? Тогда неудивительно.

n_play ☆
(21.10.13 13:43:35 MSK)

Ответ на: комментарий от stevejobs 21.10.13 13:40:18 MSK

для угрунов есть ССД, который выдаст эти 2GB за несколько секунд

n_play ☆
(21.10.13 13:44:57 MSK)

Ответ на: комментарий от stevejobs 21.10.13 13:40:18 MSK

И если игрулька такая сложная, что подобный вариант обычен, а памяти дофига, то что мешает продублировать память сейчас?

Не-не-не... Ты давай более низкоуровневый пример, который покажет что тупое копирование на уровне контроллера памяти будет использоваться часто (часто это не раз в несколько минут, а хотя бы раз в 100000 чаще) и позволит сэкономить много времени.

~~Stahl~~ ★★☆
(21.10.13 13:46:10 MSK)

Ответ на: комментарий от Dark_SavanT 21.10.13 13:39:57 MSK

Местами приъходится учитывать, что memmove/memcpy O(n)

Специальные контроллеры тоже O(n) %)

tailgunner ★★★★★
(21.10.13 13:46:40 MSK)

Ответ на: комментарий от cvs-255 21.10.13 13:34:13 MSK

DMA не умеет memory <-> memory, если я правильно помню.

хм, а что же тогда DMA по твоему?

процессор заказал забрать содержимое буффер с устройста по адресу Х и положить его по адресу У. Котнроллер DMA как закончит, так подаст сигнал процессору. Всё.

n_play ☆
(21.10.13 13:47:10 MSK)

Ответ на: комментарий от Stahl 21.10.13 13:46:10 MSK

именно, в его примере раскрыта проблема изьянов игростроения

n_play ☆
(21.10.13 13:49:58 MSK)

Ссылка

Ответ на: комментарий от stevejobs 21.10.13 13:40:18 MSK

Обиженный, надовил F9 qickload и опять две минуты печально наблюдал, как ползет прогрессбар загрузки уровня.

Просто оторвать игроделам руки за повторную загрузку уже загруженного ресурса.

Sadler ★★★
(21.10.13 13:56:34 MSK)

Ответ на: комментарий от stevejobs 21.10.13 13:40:18 MSK

игрулька загрузила с жесткого в раму уровень, размером 2Gb, и делала это минуту.

И, конечно же, аппаратный копировальщик памяти ускорит работу жёсткого диска.

Надовил F9 qickload и опять две минуты печально наблюдал, как ползет прогрессбар загрузки уровня.

А это уже говнокод.

true_admin ★★★★★
(21.10.13 14:00:05 MSK)

Ссылка

Ответ на: комментарий от Sadler 21.10.13 13:56:34 MSK

игроделы не умеют оверлеи итп, чтобы загружать только изменения, для этого нужно слишком много мозга

сам смотри - более половины всех игрушек заново вытягивают все на свете на каждый чих

если статистика такая, значит им нужно помочь и ускорить их странные телодвижения на аппаратном уровне, чтобы они хотя бы не тормозили

можно даже сделать какие-нибудь специальные вызовы в сишной библиотеке, чтобы их названия КАК БЫ НАМЯКИВАЛИ, что вот этой функцией можно быстро ревертнуть назад адский объем оперативки

~~stevejobs~~ ★★★★☆
(21.10.13 14:00:20 MSK)
Последнее исправление: stevejobs 21.10.13 14:03:32 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от Stahl 21.10.13 13:36:26 MSK

быстрое memcpy

cvs-255 ★★★★★
(21.10.13 14:02:10 MSK) автор топика

Ссылка

Ответ на: комментарий от n_play 21.10.13 13:42:03 MSK

Сдается мне, что контроллер памяти DDRn может общаться с планками памяти побыстрее, чем процессор через контроллер памяти

cvs-255 ★★★★★
(21.10.13 14:05:49 MSK) автор топика
Последнее исправление: cvs-255 21.10.13 14:06:05 MSK (всего исправлений: 1)

Ответ на: комментарий от n_play 21.10.13 13:44:57 MSK

все равно надо эти 2Gb развернуть в оперативку. Одаренные личности будут хранить эти 2Gb уровня в файлах XML, а после распарсивания при переходе в раму они превратятся в указатели на конкретную память. Парсить XML - это не мешки таскать, это тяжелее, хоть SSD хоть оптоволокно - как минуту загрузки было, так и останется

проверим на опыте: куча старинных (>5 лет) игор ничуть не ускорило загрузку уровней от того, что сменилось несколько поколений железа. Почему-то сразу вспоминается Gothic 3 :) Ну или вот The Force Unleashed 1 портированный на PC, там тормозит вообще все вне зависимости от железа.

~~stevejobs~~ ★★★★☆
(21.10.13 14:08:35 MSK)
Последнее исправление: stevejobs 21.10.13 14:10:32 MSK (всего исправлений: 2)

Ответ на: комментарий от n_play 21.10.13 13:47:10 MSK

хм, а что же тогда DMA по твоему?

IO -> memory, memory -> IO, и, емнип, IO -> IO

Хотя уточнил, на некоторых не-x86 возможно и память->память

cvs-255 ★★★★★
(21.10.13 14:08:42 MSK) автор топика
Последнее исправление: cvs-255 21.10.13 14:14:29 MSK (всего исправлений: 1)

Ответ на: комментарий от n_play 21.10.13 13:47:10 MSK

хм, а что же тогда DMA по твоему?

«процессор заказал забрать содержимое» «по адресу» «Х и положить его по адресу У.»
Вот, что он хотел.

atrus ★★★★★
(21.10.13 14:11:35 MSK)
Последнее исправление: atrus 21.10.13 14:12:04 MSK (всего исправлений: 1)

Ссылка

с точки зрения приклада - ни один контроллер чипа памяти ни улучшит виртуальный COW.

если есть большой блоб который надо часто копировать - юзай mmap вместо memcpy.

MKuznetsov ★★★★★
(21.10.13 14:16:30 MSK)

Ответ на: комментарий от MKuznetsov 21.10.13 14:16:30 MSK

если есть большой блоб который надо часто копировать - юзай mmap вместо memcpy.

а если копировать надо? Как, например, в большинстве программ, вызывающих memcpy.

А оптимизация memcpy, судя по истории с glibc, довольно актуальная тема

cvs-255 ★★★★★
(21.10.13 14:18:16 MSK) автор топика
Последнее исправление: cvs-255 21.10.13 14:20:09 MSK (всего исправлений: 2)

а как ты себе представляешь реализацию этого дела? Процессор будет каждый раз ждать, пока контроллер памяти раздуплится, копируя поблочно из одного чипа в другой?

Harald ★★★★★
(21.10.13 14:21:03 MSK)

Ответ на: комментарий от Harald 21.10.13 14:21:03 MSK

Нет, параллельно будет идти копирование и работа остального. Как контроллер закончит, выдаст сигнал

cvs-255 ★★★★★
(21.10.13 14:22:58 MSK) автор топика
Последнее исправление: cvs-255 21.10.13 14:23:31 MSK (всего исправлений: 1)

Ответ на: комментарий от stevejobs 21.10.13 14:08:35 MSK

я вот как-то играл в The Great Escape, игрушка ничем особо не привлекательная кроме того, что уровни грузились почти моментально, я немного поковырял, выяснилось что ресурсы для уровней сгруппированы по одному файлику для уровня плюс один файлик видимо для общих повторяющихся ресурсов

Harald ★★★★★
(21.10.13 14:24:31 MSK)

Ссылка

Ответ на: комментарий от cvs-255 21.10.13 14:22:58 MSK

ну и как ты это реализуешь, параллельную работу? :) Микросхемы памяти внезапно научатся читать или записывать два отдельных блока одновременно?

Harald ★★★★★
(21.10.13 14:25:52 MSK)

«Генератор бредовых идей, клоун серого вторника...»

Pakostnik ★★★
(21.10.13 14:30:43 MSK)

Ссылка

Ответ на: комментарий от cvs-255 21.10.13 14:18:16 MSK

memcpy заоптимизирован вдоль и поперёк; в большинстве случаев копируются не очень большие блоки (еденицы К), которые быстрее скопировать чем запрограммить некий контроллер (ДМА, MMU) на перенос данных. А если учесть что ядер много, еще и аппаратно разделять его использование и как-то учесть перенос данных в кэшах CPU и блокировать области при переносе и информировать/синхронизировать прочее железо(тот-же ДМА) о невалидности. Масса гимора при неясных перспективах. А все оттого что кто-то криво проектирует софт и гоняет блобы по памяти.

MKuznetsov ★★★★★
(21.10.13 14:32:20 MSK)

Ответ на: комментарий от Harald 21.10.13 14:25:52 MSK

Нет. Но за то время, пока копирование процессором скопирует 1 байт, контроллер скопирует больше. Потому что-то + копирование контроллером будет быстрее, чем что-то + копирование процессором.

cvs-255 ★★★★★
(21.10.13 14:33:22 MSK) автор топика

Ответ на: комментарий от MKuznetsov 21.10.13 14:32:20 MSK

Ну вот на ARM есть DMA с режимом memory->memory. Как-то там решили описаные тобой проблемы?

cvs-255 ★★★★★
(21.10.13 14:35:36 MSK) автор топика

Ответ на: комментарий от cvs-255 21.10.13 14:33:22 MSK

пока копирование процессором скопирует 1 байт, контроллер скопирует больше.

контроллер ещё проинициализировать надо, а потом прерывание от него обработать, 1 байт точно быстрее процессором скопируется

а на больших объёмах копируемых данных разница будет незначительной

Harald ★★★★★
(21.10.13 14:43:09 MSK)
Последнее исправление: Harald 21.10.13 14:43:36 MSK (всего исправлений: 1)

Ответ на: комментарий от n_play 21.10.13 13:43:35 MSK

А DMA есть не для всех.

Dark_SavanT ★★★★★
(21.10.13 14:46:11 MSK)

Ссылка

Ответ на: комментарий от tailgunner 21.10.13 13:46:40 MSK

Есть ненулевая вероятность что O(n) контроллера будет быстрее чем O(n) на процессоре.

Но подкол засчитан, я выразился не совсем корректно.

Dark_SavanT ★★★★★
(21.10.13 14:48:15 MSK)

Ответ на: комментарий от cvs-255 21.10.13 14:35:36 MSK

Как-то там решили описаные тобой проблемы?

может быть..НО ЗАЧЕМ ? прямое физическое копирование память-память - прерогатива ядра ОС, но в структурах ядра не должно быть больших часто копируемых блобов,а мелочи типа копирования в/из кольцевых буферов - быстрее копировать не задействуя доп.железо.

На уровне юзера ваше «копирование памяти внутри плашек памяти минуя всё» вообще некуда присунуть :) При memcpy(src,dst) реальное содержимое src dst может быть размазано по всем плашкам и под вашу мега-функцию придётся делать системный вызов, практически аналогичный mmap, с непредсказуемым временем исполнения и который ещё хрен соптимизируеш.

MKuznetsov ★★★★★
(21.10.13 14:57:22 MSK)

Ответ на: комментарий от Harald 21.10.13 14:43:09 MSK

а на больших объёмах копируемых данных разница будет незначительной

как раз на больших объемах, где время инициализации относительно мало, это будет окупаться.

А с учетом того, что контроллер памяти нынче в процессоре, можно отдельные команды и регистры запилить для инициализации

cvs-255 ★★★★★
(21.10.13 14:57:40 MSK) автор топика
Последнее исправление: cvs-255 21.10.13 15:03:33 MSK (всего исправлений: 1)

Ответ на: комментарий от cvs-255 21.10.13 14:57:40 MSK

можно отдельные команды и регистры запилить для инициализации

и что, они от этого за 0 времени исполняться будут? :)

Harald ★★★★★
(21.10.13 15:06:18 MSK)

Ответ на: комментарий от Dark_SavanT 21.10.13 14:48:15 MSK

Есть ненулевая вероятность что O(n) контроллера будет быстрее чем O(n) на процессоре.

каким образом?

Harald ★★★★★
(21.10.13 15:06:53 MSK)

Ответ на: комментарий от MKuznetsov 21.10.13 14:57:22 MSK

но в структурах ядра не должно быть больших часто копируемых блобов

fork().

cvs-255 ★★★★★
(21.10.13 15:07:08 MSK) автор топика

Ответ на: комментарий от Harald 21.10.13 15:06:18 MSK

Быстрее будут. Соответственно, плюсы начнут чувствоваться на меньших объемах копируемой памяти

cvs-255 ★★★★★
(21.10.13 15:08:07 MSK) автор топика

Ссылка

Ответ на: комментарий от Harald 21.10.13 15:06:53 MSK

O(n) ~ k*n

у контроллера и процессора k разный

cvs-255 ★★★★★
(21.10.13 15:08:51 MSK) автор топика

Ответ на: комментарий от Dark_SavanT 21.10.13 14:48:15 MSK

Есть ненулевая вероятность что O(n) контроллера будет быстрее чем O(n) на процессоре.

Ну, как по мне, так она ровно нулевая - вряд ли есть какие-то секретные шины, более быстрые, чем процессорная шина. Профит может быть в 1) одновременной работе процессора и DMA 2) обходе кэшей.

tailgunner ★★★★★
(21.10.13 15:09:51 MSK)

Ответ на: комментарий от cvs-255 21.10.13 14:57:40 MSK

А с учетом того, что контроллер памяти нынче в процессоре, можно отдельные команды и регистры запилить для инициализации

вы не поверите. MOVS и его товарищи.

но не минуя CPU с его кешами,MMU и шины. Как и должно быть

MKuznetsov ★★★★★
(21.10.13 15:10:01 MSK)

Ответ на: комментарий от MKuznetsov 21.10.13 15:10:01 MSK

компиляторы movs вроде как не используют совсем, оно только во вручную написанном ассемблерном коде встречается

Harald ★★★★★
(21.10.13 15:11:51 MSK)

Ссылка

Ответ на: комментарий от cvs-255 21.10.13 15:08:51 MSK

почему разный?

Harald ★★★★★
(21.10.13 15:12:11 MSK)

Ответ на: комментарий от cvs-255 21.10.13 15:07:08 MSK

но в структурах ядра не должно быть больших часто копируемых блобов

fork().

LOL :)

ps. учи матчасть

MKuznetsov ★★★★★
(21.10.13 15:12:50 MSK)

Ответ на: комментарий от thesis 21.10.13 13:39:27 MSK

а зачем нужен андроид, когда есть макос?

~~darkenshvein~~ ★★★★★
(21.10.13 15:13:45 MSK)

Ответ на: комментарий от MKuznetsov 21.10.13 15:10:01 MSK

но не минуя CPU с его кешами,MMU и шины. Как и должно быть

Т.е. есть куча накладных расходов.

Память все равно нынче используется страницами по 4К. Так что фрагментация не такая страшная, как может показаться. Т.е. а потому преобразование виртуального адреса к физическому надо провести не более 1 раза на страницу, после чего можно смело копировать.

Вопрос кешей решаем.

cvs-255 ★★★★★
(21.10.13 15:15:05 MSK) автор топика
Последнее исправление: cvs-255 21.10.13 15:20:32 MSK (всего исправлений: 1)

Ссылка

Похожие темы