Дефрагментация slog mirror(ZFS)

SSD и дефрагментация это взаимоисключающие вещи, забей.

blind_oracle ★★★★★
(01.02.16 13:46:21 MSK)

ssd
фрагментация

~~King_Carlo~~ ★★★★★
(01.02.16 14:15:57 MSK)

Ответ на: комментарий от blind_oracle 01.02.16 13:46:21 MSK

Это почему?

Deleted
(01.02.16 14:21:03 MSK)

Ответ на: комментарий от Deleted 01.02.16 14:21:03 MSK

Это не очевидно? Какой в ней смысл? Фрагментация мешает винтам, которые от случайного доступа старадают. А для SSD выдать что последующий блок, что из конца диска - одинаковая задача. Хуже того, дефрагментация снизит ресурс записи SSD.

blind_oracle ★★★★★
(01.02.16 15:04:02 MSK)

Ответ на: комментарий от Deleted 01.02.16 14:21:03 MSK

Это почему?

Потому что прежде, чем спрашивать, надо понять
1. Что такое фрагментация
2. Почему это плохо
3. Что такое дефрагментация

Как только ты правильно ответишь на эти три вопроса, так сразу вопрос заданный в топике потеряет смысл.

~~zgen~~ ★★★★★
(01.02.16 17:48:12 MSK)

Ответ на: комментарий от blind_oracle 01.02.16 15:04:02 MSK

А для SSD выдать что последующий блок, что из конца диска - одинаковая задача

Покажете мне SSD, у которого скорость случайного чтения равна скорости последовательного?

дефрагментация снизит ресурс записи SSD

Насколько?

Deleted
(01.02.16 17:55:54 MSK)

Ответ на: комментарий от zgen 01.02.16 17:48:12 MSK

А можно просто посмотреть на ТТХ любого SSD.

Макс. устойчивая скорость последовательного чтения 	550 Мбайт/с 	550 Мбайт/с 	550 Мбайт/с 	550 Мбайт/с
Макс. устойчивая скорость последовательной записи 	470 Мбайт/с 	520 Мбайт/с 	520 Мбайт/с 	520 Мбайт/с
Макс. скорость произвольного чтения (блоки по 4 Кбайт) 	100000 IOPS 	100000 IOPS 	100000 IOPS 	100000 IOPS
Макс. скорость произвольной записи (блоки по 4 Кбайт) 	90000 IOPS 	90000 IOPS 	90000 IOPS 	90000 IOPS

Deleted
(01.02.16 18:01:46 MSK)

Ответ на: комментарий от Deleted 01.02.16 18:01:46 MSK

Простите мне мою глупость, но вы IOPS'ы с мегабайтами сравниваете? O_o

~~zgen~~ ★★★★★
(01.02.16 19:50:55 MSK)

Ответ на: комментарий от zgen 01.02.16 19:50:55 MSK

Мде...

blind_oracle ★★★★★
(01.02.16 22:37:39 MSK)

Ссылка

Ответ на: комментарий от Deleted 01.02.16 18:01:46 MSK

100 тысяч IOPS * 4096 байт = 409.6 мбайт/сек, внезапно. Не 550, конечно, но почти. Причём этих 550 там, скорее всего, на практике нет, как раз 400-450 будет. Судя по моим тестам скорость при рандомной работе с SSD уже при 8к блоках не отличается от последовательной.

blind_oracle ★★★★★
(01.02.16 22:41:55 MSK)

Ответ на: комментарий от Deleted 01.02.16 17:55:54 MSK

Насколько?

На сколько-то. Зависит от множества факторов, как ты понимаешь. Чем больше записей будет при дефрагментации, тем больше износ.

blind_oracle ★★★★★
(01.02.16 22:44:11 MSK)

Ссылка

Ответ на: комментарий от blind_oracle 01.02.16 15:04:02 MSK

Какой в ней смысл? Фрагментация мешает винтам

SSD имеют блочную структуру и фрагментация при гранулярности меньше размера блока (обычно 128кбайт) снижает скорость на записи при исчерпании места и при отсутствии TRIM.

TRIM, кстати, тоже ресурс расходует, поскольку делает для каждого вычищаемого частично заполненного блока цикл чтение/стирание пустого/запись.

~~KRoN73~~ ★★★★★
(01.02.16 22:46:04 MSK)

Ответ на: комментарий от KRoN73 01.02.16 22:46:04 MSK

записи при исчерпании места и при отсутствии TRIM.

Это что-то из разряда стрелять себе в ногу. Либо берут энетрпрайзные ссд с большим запасом места сверх заявленного, либо юзают TRIM.

Теоретически всё так, но на практике *любая* запись на SSD меньше блока идёт через считать\изменить\записать блок. ФС же работает блоками сильно меньше блока SSD (обычно 4к, в сабжевом ZFS конечно побольше, 128k - 1M), поэтому как эти блоки будут ложиться на NAND решает уже контроллер, а это чёрный ящик.

Посему при прочих равных дефрагментация для SSD *вредна*. И даже богомерзкий :) оффтопик при установке на SSD её вырубает сам. Ты раньше убьёшь диск чрезмерной записью чем увидишь профит от дефрагментированности.

TRIM, кстати, тоже ресурс расходует, поскольку делает для каждого вычищаемого частично заполненного блока цикл чтение/стирание пустого/запись.

TRIM, строго говоря, просто говорит контроллеру какие блоки можно recycle-ить и всё. Как ими там потом контроллер распоряжается - тоже тёмный лес.

blind_oracle ★★★★★
(01.02.16 23:07:56 MSK)

Ответ на: комментарий от blind_oracle 01.02.16 23:07:56 MSK

на практике *любая* запись на SSD меньше блока идёт через считать\изменить\записать блок.

Не любая. Только запись в блоки с нестёртой информацией. Если в блоке пустые ячейки очищены и происходит запись в них — то цикл состоит только из операции записи.

~~KRoN73~~ ★★★★★
(02.02.16 08:00:44 MSK)

Ответ на: комментарий от blind_oracle 01.02.16 22:41:55 MSK

Всё равно при чтении или записи разбросанных блоков есть ненулевые потери. Возможно, они незаметны в повседневном использовании, но говорить, что дефрагментация на SSD не нужна - неправильно.

Deleted
(02.02.16 08:09:57 MSK)

Ответ на: комментарий от KRoN73 02.02.16 08:00:44 MSK

Да, само собой, я имел в виду запись в блок где что-то уже есть.

blind_oracle ★★★★★
(02.02.16 09:11:25 MSK)

Ссылка

Ответ на: комментарий от Deleted 02.02.16 08:09:57 MSK

И будет оптимизация ради оптимизации.

Radjah ★★★★★
(02.02.16 10:14:13 MSK)

Ссылка

Ответ на: комментарий от Deleted 02.02.16 08:09:57 MSK

«Все равно» это такой непробиваемый аргумент? Да нет никакой разницы. Вообще.

Вот тест энтерпрайзного Intel DC S3700 на 200 гиг, проведен только что.

Рандомное чтение 32Гб блоками по 4к:

test: (g=0): rw=randread, bs=4K-4K/4K-4K/4K-4K, ioengine=libaio, iodepth=64
fio-2.1.11
Starting 1 process
Jobs: 1 (f=1): [r(1)] [100.0% done] [294.8MB/0KB/0KB /s] [75.5K/0/0 iops] [eta 00m:00s]
test: (groupid=0, jobs=1): err= 0: pid=7815: Tue Feb  2 10:37:33 2016
  read : io=32768MB, bw=301239KB/s, iops=75309, runt=111388msec
    slat (usec): min=2, max=11997, avg= 6.27, stdev= 6.45
    clat (usec): min=312, max=12846, avg=841.96, stdev=83.62
     lat (usec): min=318, max=12851, avg=848.40, stdev=83.66
    clat percentiles (usec):
     |  1.00th=[  716],  5.00th=[  772], 10.00th=[  788], 20.00th=[  804],
     | 30.00th=[  820], 40.00th=[  828], 50.00th=[  836], 60.00th=[  844],
     | 70.00th=[  852], 80.00th=[  876], 90.00th=[  900], 95.00th=[  932],
     | 99.00th=[ 1032], 99.50th=[ 1112], 99.90th=[ 1912], 99.95th=[ 2224],
     | 99.99th=[ 2672]
    bw (KB  /s): min=285800, max=303680, per=100.00%, avg=301254.85, stdev=3409.70
    lat (usec) : 500=0.01%, 750=2.58%, 1000=96.00%
    lat (msec) : 2=1.32%, 4=0.08%, 10=0.01%, 20=0.01%
  cpu          : usr=19.30%, sys=48.95%, ctx=1892054, majf=0, minf=1423
  IO depths    : 1=0.1%, 2=0.1%, 4=0.1%, 8=0.1%, 16=0.1%, 32=0.1%, >=64=100.0%
     submit    : 0=0.0%, 4=100.0%, 8=0.0%, 16=0.0%, 32=0.0%, 64=0.0%, >=64=0.0%
     complete  : 0=0.0%, 4=100.0%, 8=0.0%, 16=0.0%, 32=0.0%, 64=0.1%, >=64=0.0%
     issued    : total=r=8388608/w=0/d=0, short=r=0/w=0/d=0
     latency   : target=0, window=0, percentile=100.00%, depth=64

Run status group 0 (all jobs):
   READ: io=32768MB, aggrb=301239KB/s, minb=301239KB/s, maxb=301239KB/s, mint=111388msec, maxt=111388msec

Последовательное чтение 32Гб блоками по 4к:

test: (g=0): rw=read, bs=4K-4K/4K-4K/4K-4K, ioengine=libaio, iodepth=64
fio-2.1.11
Starting 1 process
Jobs: 1 (f=1): [R(1)] [100.0% done] [297.9MB/0KB/0KB /s] [76.3K/0/0 iops] [eta 00m:00s]
test: (groupid=0, jobs=1): err= 0: pid=29637: Tue Feb  2 10:40:33 2016
  read : io=32768MB, bw=302991KB/s, iops=75747, runt=110744msec
    slat (usec): min=2, max=11744, avg= 6.39, stdev= 8.10
    clat (usec): min=299, max=27263, avg=837.20, stdev=126.06
     lat (usec): min=305, max=27271, avg=843.78, stdev=126.15
    clat percentiles (usec):
     |  1.00th=[  700],  5.00th=[  764], 10.00th=[  780], 20.00th=[  796],
     | 30.00th=[  812], 40.00th=[  820], 50.00th=[  828], 60.00th=[  836],
     | 70.00th=[  852], 80.00th=[  868], 90.00th=[  900], 95.00th=[  932],
     | 99.00th=[ 1032], 99.50th=[ 1096], 99.90th=[ 1912], 99.95th=[ 2256],
     | 99.99th=[ 3056]
    bw (KB  /s): min=284528, max=305352, per=100.00%, avg=302995.55, stdev=3425.14
    lat (usec) : 500=0.01%, 750=3.39%, 1000=95.17%
    lat (msec) : 2=1.34%, 4=0.08%, 10=0.01%, 20=0.01%, 50=0.01%
  cpu          : usr=17.21%, sys=50.63%, ctx=1890250, majf=0, minf=580
  IO depths    : 1=0.1%, 2=0.1%, 4=0.1%, 8=0.1%, 16=0.1%, 32=0.1%, >=64=100.0%
     submit    : 0=0.0%, 4=100.0%, 8=0.0%, 16=0.0%, 32=0.0%, 64=0.0%, >=64=0.0%
     complete  : 0=0.0%, 4=100.0%, 8=0.0%, 16=0.0%, 32=0.0%, 64=0.1%, >=64=0.0%
     issued    : total=r=8388608/w=0/d=0, short=r=0/w=0/d=0
     latency   : target=0, window=0, percentile=100.00%, depth=64

Run status group 0 (all jobs):
   READ: io=32768MB, aggrb=302990KB/s, minb=302990KB/s, maxb=302990KB/s, mint=110744msec, maxt=110744msec

Никакой разницы, все в пределах погрешности. При записи картина аналогичная, показать не могу т.к. на диске данные. Если увеличить размер блока до 16к, то скорость вырастает до 412Мб/с в обоих случаях. Так что удачи с дефрагментацией :D

blind_oracle ★★★★★
(02.02.16 10:48:14 MSK)

Ссылка

Ответ на: комментарий от King_Carlo 01.02.16 14:15:57 MSK

Она есть и пока доставляет лишь повод для беспокойства. Какая-то такая картина. Аптайм два дня и около 20 виртуалок с базами данных. http://pastebin.com/tGn8d9S4

NetworkRider
(02.02.16 13:21:06 MSK) автор топика

Ответ на: комментарий от NetworkRider 02.02.16 13:21:06 MSK

zfs=фрагметирование, иначе был бы невозможен cow

axelroot ★
(02.02.16 15:45:27 MSK)

Ответ на: комментарий от NetworkRider 02.02.16 13:21:06 MSK

А где там у тебя SLOG? Насколько я вижу у тебя просто две раздела SSDшек в зеркале добавлены в пул. Пул с логом выглядит как-то так:

# zpool status
  pool: zfs_hdd
 state: ONLINE
  scan: scrub repaired 0 in 15h27m with 0 errors on Mon Dec  7 14:38:18 2015
config:

        NAME           STATE     READ WRITE CKSUM
        zfs_hdd        ONLINE       0     0     0
          raidz2-0     ONLINE       0     0     0
            D01_9Y0RA  ONLINE       0     0     0
            D02_B9G2A  ONLINE       0     0     0
            D03_B01GA  ONLINE       0     0     0
            D04_B9GDA  ONLINE       0     0     0
            D05_AU1HA  ONLINE       0     0     0
            D06_BD4HA  ONLINE       0     0     0
            D07_7P85D  ONLINE       0     0     0
            D08_93WJA  ONLINE       0     0     0
            D09_4394K  ONLINE       0     0     0
            D10_BDYKA  ONLINE       0     0     0
        logs
          mirror-1     ONLINE       0     0     0
            SSD1_SLOG  ONLINE       0     0     0
            SSD2_SLOG  ONLINE       0     0     0
            SSD3_SLOG  ONLINE       0     0     0

errors: No known data errors

blind_oracle ★★★★★
(02.02.16 17:22:38 MSK)

Ответ на: комментарий от Deleted 02.02.16 08:09:57 MSK

Ты считаешь, что контроллер SSD пишет «линейно» на массив памяти? А как тогда выравнивние износа осуществляется?

Почитай на тему

Flash Translation Layer

greenman ★★★★★
(02.02.16 17:41:15 MSK)
Последнее исправление: greenman 02.02.16 17:49:02 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от blind_oracle 02.02.16 17:22:38 MSK

zpool list -v

NAME   SIZE  ALLOC   FREE  EXPANDSZ   FRAG    CAP  DEDUP  HEALTH  ALTROOT
rpool  5.44T   691G  4.76T         -     5%    12%  1.00x  ONLINE  -
  mirror  2.72T   345G  2.38T         -     5%    12%
    sda2      -      -      -         -      -      -
    sdb2      -      -      -         -      -      -
  mirror  2.72T   345G  2.38T         -     5%    12%
    sdc      -      -      -         -      -      -
    sdd      -      -      -         -      -      -
  mirror  9.25G  16.5M  9.23G         -    90%     0%
    ata-INTEL_SSDSC2BA800G4_BTHV5170053Z800OGN-part1      -      -      -         -      -      -
    ata-INTEL_SSDSC2BA800G4_BTHV52640ADK800OGN-part1      -      -      -         -      -      -
cache      -      -      -      -      -      -
  ata-Samsung_SSD_850_PRO_1TB_S252NWAG305766T-part2   651G   337G   314G         -     0%    51%


zpool status

 pool: rpool
 state: ONLINE
  scan: scrub repaired 0 in 0h24m with 0 errors on Mon Feb  1 01:51:39 2016
config:

        NAME                                                  STATE     READ WRITE CKSUM
        rpool                                                 ONLINE       0     0     0
          mirror-0                                            ONLINE       0     0     0
            sda2                                              ONLINE       0     0     0
            sdb2                                              ONLINE       0     0     0
          mirror-1                                            ONLINE       0     0     0
            sdc                                               ONLINE       0     0     0
            sdd                                               ONLINE       0     0     0
        logs
          mirror-2                                            ONLINE       0     0     0
            ata-INTEL_SSDSC2BA800G4_BTHV5170053Z800OGN-part1  ONLINE       0     0     0
            ata-INTEL_SSDSC2BA800G4_BTHV52640ADK800OGN-part1  ONLINE       0     0     0
        cache
          ata-Samsung_SSD_850_PRO_1TB_S252NWAG305766T-part2   ONLINE       0     0     0

errors: No known data errors

NetworkRider
(02.02.16 19:53:20 MSK) автор топика

Ссылка

Ответ на: комментарий от axelroot 02.02.16 15:45:27 MSK

Хорошо, а что делать когда фрагментация slog устройства =100%?

NetworkRider
(02.02.16 19:55:31 MSK) автор топика

Ответ на: комментарий от NetworkRider 02.02.16 19:55:31 MSK

Ммм.. ничего? У меня на обычном (не лог) raidz пуле из трех SSD сейчас фрагментация 73% при том что занята только половина. Проблем не наблюдаю.

blind_oracle ★★★★★
(02.02.16 21:07:03 MSK)
Последнее исправление: blind_oracle 02.02.16 21:11:38 MSK (всего исправлений: 1)

Ответ на: комментарий от blind_oracle 02.02.16 21:07:03 MSK

Производительность не просела?

NetworkRider
(02.02.16 21:28:35 MSK) автор топика

Ответ на: комментарий от NetworkRider 02.02.16 21:28:35 MSK

Не вижу визуально. Да и с чего бы ей?

blind_oracle ★★★★★
(02.02.16 22:50:52 MSK)

Ссылка

Ответ на: комментарий от NetworkRider 02.02.16 19:55:31 MSK

да ничего, этож ssd, достигнув 100 хуже уже не будет ибо некуда )))

axelroot ★
(03.02.16 11:43:37 MSK)

Ответ на: комментарий от axelroot 03.02.16 11:43:37 MSK

Сотки так и не достиг. Неплохо работает ))

NetworkRider
(13.02.16 16:02:50 MSK) автор топика

Ссылка

Ответ на: комментарий от NetworkRider 02.02.16 19:55:31 MSK

На slog нет фрагментации и быть не может.

anonymous
(13.02.16 21:47:10 MSK)

Ссылка

Похожие темы