Аппаратное копирование памяти

Ответ на: комментарий от MKuznetsov 21.10.13 15:12:50 MSK

Ты хочешь сказать, что fork производится не ядром? Хотя копируется данные userspace, копировальщик в ядре.

cvs-255 ★★★★★
(21.10.13 15:16:20 MSK) автор топика

Ответ на: комментарий от Harald 21.10.13 15:12:11 MSK

Потому что при копировании процессором надо больше действий сделать

cvs-255 ★★★★★
(21.10.13 15:17:01 MSK) автор топика

Ответ на: комментарий от cvs-255 21.10.13 15:16:20 MSK

при форке данные не копируются

Harald ★★★★★
(21.10.13 15:17:20 MSK)

Ссылка

Ответ на: комментарий от cvs-255 21.10.13 15:17:01 MSK

Каких действий? Опиши их по шагам, какие действия нужны при копировании контроллером и какие - процессором, и почему вдруг первых меньше

Harald ★★★★★
(21.10.13 15:18:34 MSK)

Ответ на: комментарий от stevejobs 21.10.13 13:40:18 MSK

Какая-то кривая игрулька.

Gotf ★★★
(21.10.13 15:20:18 MSK)

Ссылка

Ответ на: комментарий от Harald 21.10.13 15:18:34 MSK

технически копировать можно аж страницами - DRAM ведь читается и пишется сразу по 2кб

~~ckotinko~~ ☆☆☆
(21.10.13 15:23:24 MSK)

Ответ на: комментарий от cvs-255 21.10.13 14:05:49 MSK

А кто будет решать как копировать? Кто будет отдавать команду на копирование тому-же контроллеру? Или подразумевается какая-то конкуренция с процессором на этом этапе?

chenger ★★
(21.10.13 15:27:10 MSK)

Ссылка

Ответ на: комментарий от ckotinko 21.10.13 15:23:24 MSK

это последовательно, каждая микросхема сколько при этом за один такт выдаёт?

Harald ★★★★★
(21.10.13 15:27:45 MSK)

Ссылка

Ответ на: комментарий от cvs-255 21.10.13 15:17:01 MSK

А при копировании «не процессором» надо еще сделать выбор как копировать (не будут же выпиливать возможность копировать как раньше, совместимость должна быть), надо отправить корректную команду контроллеру памяти, а потом еще дождаться и обработать его ответ. А еще надо не забыть что в это время надо следить чтобы откуда ни возьмись не пришла инструкция на копирование старого формата и не обработалась.

В итоге скорее всего станет наоборот медленнее.

chenger ★★
(21.10.13 15:31:30 MSK)

Ссылка

Ответ на: комментарий от Harald 21.10.13 15:18:34 MSK

1) преобразование адреса источника от виртуального к физическому
2) выставление адреса источника на шине адреса
3) посылка команды на чтение
4) контроллер памяти получает адрес и перенаправляет его в микросхему памяти
5) контроллер памяти передает данные на шину данных 
6) процессор считывает данные и помещает их в кеш 
7) преобразование адреса приемника от виртуального к физическому
8) выставление адреса приемника на шине адреса
9) вывод данных на шину данных
10) посылка команды на запись
11) контроллер памяти получает адрес и данные и перенаправляет их в микросхему памяти
12) увеличиваем адреса на 1
13) goto 1

в случае же с копирователем в контроллере,

1) преобразуем адрес начала блока к физическому
2) передаем его в контроллер памяти. Если он интегрирован в процессор, то можем сделать это отдельной командой, в обход шины
3) передаем длину данных
4) контроллер памяти сам считывает данные
5) сам же и записывает
6) увеличивает счетчик на 1
5) goto 4

cvs-255 ★★★★★
(21.10.13 15:31:41 MSK) автор топика
Последнее исправление: cvs-255 21.10.13 15:32:13 MSK (всего исправлений: 1)

Ответ на: комментарий от ckotinko 21.10.13 15:23:24 MSK

DRAM ведь читается и пишется сразу по 2кб

даже так? Тогда это вообще очень хорошо

cvs-255 ★★★★★
(21.10.13 15:33:11 MSK) автор топика

Ответ на: комментарий от cvs-255 21.10.13 15:07:08 MSK

Там Copy-on-Write во все поля используется.

Dark_SavanT ★★★★★
(21.10.13 15:36:03 MSK)

Ответ на: комментарий от darkenshvein 21.10.13 15:13:45 MSK

Ну, ты никогда не славился умением подобрать корректную аналогию.

thesis ★★★★★
(21.10.13 15:36:25 MSK)

Ответ на: комментарий от cvs-255 21.10.13 15:33:11 MSK

только НЯП чипы не позволяет копировать эти 2кб. вроде нет такой команды

~~ckotinko~~ ☆☆☆
(21.10.13 15:36:38 MSK)

Ответ на: комментарий от ckotinko 21.10.13 15:36:38 MSK

Т.е. когда я хочу прочитать байт, микросхема выдает 2 кб, контроллер их считывает, все кроме нужного байты выкидывает, и передает его процу?

А когда хочу записать, то контроллер сперва считывает 2 кб, меняет нужный байт и записывает обратно?

cvs-255 ★★★★★
(21.10.13 15:39:00 MSK) автор топика

Ответ на: комментарий от tailgunner 21.10.13 15:09:51 MSK

Профит будет на больших обьёмах данных, когда гонять данные по процессорной шине станет дольше чем сказать контроллеру нечто типа «скопируй N байт данных с адреса А по адресу Б, когда закончишь дёрни прерывание.» Данные в таком случае не уйдут дальше контроллера памяти. Но профит будет только в случае когда данные 1 - выровнены, 2 - лежат одним длинным куском без фрагментации, иначе всё будет только хуже.

Dark_SavanT ★★★★★
(21.10.13 15:40:29 MSK)

Ответ на: комментарий от cvs-255 21.10.13 15:39:00 MSK

Т.е. когда я хочу прочитать байт, микросхема выдает 2 кб

ты где-нибудь видел микросхемы с 16384 ножками только для шины данных? :)

Harald ★★★★★
(21.10.13 15:42:26 MSK)

Ответ на: комментарий от cvs-255 21.10.13 15:31:41 MSK

см. чуть выше - данные должны быть выровнены и не фрагментированы в физических адресах, иначе контроллеру всё равно придётся страдать хернёй, пока он будет читать кучу данных из разных адресов и класть в один опять таки непрерывный буфер.

Сие скорее для каких-нибудь GPU или DSP хорошо, или может для АМДшных фишек типа hUMA, наверное.

Dark_SavanT ★★★★★
(21.10.13 15:43:23 MSK)

Ответ на: комментарий от Dark_SavanT 21.10.13 15:36:03 MSK

Но копировать то все равно придется рано или поздно. И делать это будет ядро

cvs-255 ★★★★★
(21.10.13 15:43:27 MSK) автор топика

Ссылка

Ответ на: комментарий от Dark_SavanT 21.10.13 15:40:29 MSK

Да, конечно. Как и с обычным DMA, в общем-то.

Хотя насчет единого куска может быть по-разному - более-менее продвинутые DMA-контроллеры умеют scatter/gather.

tailgunner ★★★★★
(21.10.13 15:43:42 MSK)
Последнее исправление: tailgunner 21.10.13 15:44:53 MSK (всего исправлений: 1)

Ответ на: комментарий от Dark_SavanT 21.10.13 15:43:23 MSK

данные должны быть выровнены и не фрагментированы в физических адресах

Если данные занимают > 4 кбайт, то у нас целая страница выровненных данных

cvs-255 ★★★★★
(21.10.13 15:44:16 MSK) автор топика

Ссылка

Ответ на: комментарий от tailgunner 21.10.13 15:43:42 MSK

Как и с обычным DMA, в общем-то.

которое из памяти в память не умеет. И как и проц, гоняет по шине

cvs-255 ★★★★★
(21.10.13 15:44:56 MSK) автор топика

Ответ на: комментарий от cvs-255 21.10.13 15:44:56 MSK

Твое понимание DMA потрясает точностью и глубиной.

tailgunner ★★★★★
(21.10.13 15:45:52 MSK)

Ответ на: комментарий от tailgunner 21.10.13 15:45:52 MSK

когда я смотрел описание контроллера dma, там не было память->память. Может с тех пор что и изменилось

cvs-255 ★★★★★
(21.10.13 15:46:37 MSK) автор топика

Ссылка

Я так понимаю, вам мало 12309 в связи с вводом-выводом, надо еще для памяти запилить? Чтоб жить совсем интересно стало?

shimon ★★★★★
(21.10.13 15:48:57 MSK)

Ссылка

Ответ на: комментарий от cvs-255 21.10.13 15:44:56 MSK

А ему память-память работать и не надо изначально, Придумывалось же для того, чтобы из устройств замапленых в память читать не нагружая процессор, там без нагрузки на шину не обойтись.

Dark_SavanT ★★★★★
(21.10.13 15:49:50 MSK)

Ссылка

Ответ на: комментарий от cvs-255 21.10.13 15:39:00 MSK

http://en.wikipedia.org/wiki/Synchronous_dynamic_random-access_memory#Commands

~~ckotinko~~ ☆☆☆
(21.10.13 15:50:29 MSK)

Ответ на: комментарий от Harald 21.10.13 15:42:26 MSK

The Active command activates an idle bank. It presents a 2-bit bank address (BA0 BA1) and a 13-bit row address (A0 A12), and causes a read of that row into the bank's array of all 16,384 column sense amplifiers. This is also known as «opening» the row. This operation has the side effect of refreshing the dynamic (capacitive) memory storage cells of that row.

~~ckotinko~~ ☆☆☆
(21.10.13 15:51:30 MSK)

Ссылка

Ответ на: комментарий от cvs-255 21.10.13 15:31:41 MSK

ты забыл пункты

6) вызов прерывания контроллером при завершении 7) сохранение контекста 8) обработка прерывания - тут нужно искать, кто запросил копирование, куда сообщить о факте его завершения

все эти пункты жрут дофига тактов процессора

поток, который запустил копирование, должен как-то асинхронно узнать о завершении копирования, для этого он должен держать какие-то дополнительные структуры данных

помимо этого, к контроллеру памяти не должно быть свободного доступа со стороны непривилегированного кода (юзерспейса), значит программы из юзерспейса должны каждый раз дёргать системные вызовы (тысячи тактов), чтобы что-то скопировать, либо использование контроллера памяти должно быть только в ядре, а ядру оно особо и не упёрлось

Harald ★★★★★
(21.10.13 15:52:47 MSK)

Ссылка

Ответ на: комментарий от ckotinko 21.10.13 15:50:29 MSK

Если я правильно понял, то так оно и есть, как я написал

cvs-255 ★★★★★
(21.10.13 15:53:46 MSK) автор топика

Ответ на: комментарий от tailgunner 21.10.13 15:43:42 MSK

Собственно в таком случае предложенная идея начинает иметь смысл в виде аналога S/G DMA но для работы память<->память для блочного копирования данных.

Но я пока слабо представляю как это можно адекватно использовать в системе с вытеснением памяти. Это надо блокировать страницы которые читаем, страницы которые пишем, и пока контроллер гоняет данные из банки в банку не мешать ему. А тут у нас процесс который попросил скопировать данные вытеснили и следующий процесс хочет куда-то читать/писать, а контроллер ещё занят. Тупим-тормозим?

Dark_SavanT ★★★★★
(21.10.13 15:55:37 MSK)

Ответ на: комментарий от cvs-255 21.10.13 15:53:46 MSK

смысл в том, что теоретически никто не мешает считать все 2кб из одной строки и записать в другую. но в реале такой команды у sdram нету

~~ckotinko~~ ☆☆☆
(21.10.13 15:57:43 MSK)

Ответ на: комментарий от Dark_SavanT 21.10.13 15:55:37 MSK

Вопрос планирования.

тут у нас процесс который попросил скопировать данные вытеснили и следующий процесс хочет куда-то читать/писать, а контроллер ещё занят. Тупим-тормозим?

И это хуже ситуации с отсуствием DMA память-память... ровно ничем.

tailgunner ★★★★★
(21.10.13 16:00:05 MSK)

Ссылка

Ответ на: комментарий от ckotinko 21.10.13 15:57:43 MSK

Because each chip accesses 8 bits of data at a time

скопировать 2кб из одного места в другое за один такт в SDRAM физически невозможно, у каждого чипа шина данных 8 бит

Harald ★★★★★
(21.10.13 16:03:32 MSK)
Последнее исправление: Harald 21.10.13 16:03:58 MSK (всего исправлений: 1)

Ответ на: комментарий от cvs-255 21.10.13 13:34:13 MSK

Щито?

ncrmnt ★★★★★
(21.10.13 16:07:40 MSK)

Ответ на: комментарий от ncrmnt 21.10.13 16:07:40 MSK

У тебя данные от устройства в память едут через шину. Ибо взяться им в банках неоткуда. ТС же предлагает не гонять данные через CPU при копировании из одной области RAM в другую, а ему обьясняют зачем сие ненужно.

Dark_SavanT ★★★★★
(21.10.13 16:15:47 MSK)

Ссылка

Ответ на: комментарий от ckotinko 21.10.13 15:57:43 MSK

хотя не, перечитал ещё раз, повтыкал в схему, вроде всё так, но это возможно, когда источник и назначение находятся внутри одного банка памяти, что сильно ограничивает применение

Harald ★★★★★
(21.10.13 16:25:11 MSK)

Ссылка

Тупняк. Если память будет занята копирователем, процу будет нечего делать (код лежит в памяти, да). Если память будет шариться, то какой смысл, проще конпелятору оптимизировать копирование, примешав туда парочку вычислений. Если есть несколько ядер или гипертрединг, берешь одно из них и вот те тот самый копирователь. Зачем в дешевый чип сажать неведомую хрень, когда и так все уже есть?

~~arturpub~~ ★★
(21.10.13 16:27:03 MSK)

Ссылка

Ответ на: комментарий от Dark_SavanT 21.10.13 15:55:37 MSK

следующий процесс хочет куда-то читать/писать, а контроллер ещё занят. Тупим-тормозим?

Если он хочет просто писать/читать, то можно сделать чтобы контроллер раз через раз занимался копированием или обработкой запросов.

Если он хочет тоже копировать, то пусть подождет.

cvs-255 ★★★★★
(21.10.13 16:32:12 MSK) автор топика

Ссылка

Ответ на: комментарий от ckotinko 21.10.13 15:57:43 MSK

Ну да, нету. Придется через контроллер прогонять данные

cvs-255 ★★★★★
(21.10.13 16:32:50 MSK) автор топика

Ссылка

Ответ на: комментарий от ncrmnt 21.10.13 16:07:40 MSK

На x86 и вроде бы amd64 dma не копирует память->память

cvs-255 ★★★★★
(21.10.13 16:34:24 MSK) автор топика

Ссылка

Ответ на: комментарий от Dark_SavanT 21.10.13 13:39:57 MSK

быстрое перекидывание буфера из принимающего буфера в какой-нибудь другой

Сейчас в моде зерокопи

vasily_pupkin ★★★★★
(21.10.13 17:02:48 MSK)

Ответ на: комментарий от vasily_pupkin 21.10.13 17:02:48 MSK

с ethernet пакетом zero copy не проканает.

Dark_SavanT ★★★★★
(21.10.13 17:08:38 MSK)

Ответ на: комментарий от Dark_SavanT 21.10.13 17:08:38 MSK

Э?

vasily_pupkin ★★★★★
(21.10.13 17:16:08 MSK)

Ссылка

Ответ на: комментарий от cvs-255 21.10.13 14:05:49 MSK

http://www.club155.ru/x86cmd/MOVSD
пишут что это даже быстрее DMА ))

bedcasus ★
(21.10.13 17:27:30 MSK)

Ссылка

Ответ на: комментарий от thesis 21.10.13 15:36:25 MSK

да и ты разве когда блистал умением выделить задачу без приведения аналогий?

~~darkenshvein~~ ★★★★★
(21.10.13 17:43:33 MSK)

Ответ на: комментарий от Harald 21.10.13 15:42:26 MSK

там поди последовательный интерфейс. Или какое-нибудь последовательное выгребание сдвиговых регистров. Так что на ножках сэкономили, да архитектура ячеек такая, что всё выгребается только большими кучами (как они там называются, колонки?)

n_play ☆
(21.10.13 17:52:54 MSK)