Вышло ядро Linux 3.8

После двух месяцев разработки вышла новая версия ядра Linux 3.8.

Основные новшества представлены ниже.

В файловых системах и подсистеме хранения данных.
- Добавлена поддержка файловой системы F2fs, предназначенной для использования на USB-флешках, картах памяти и других устройствах, использующих уровень FTL. Принцип действия этой ФС основан на постепенном заполнении носителя с начала устройства (Log-structured FS), при этом используется приём Copy-On-Write. ФС гарантирует доступность старых данных, если новые данные записаны не полностью, при этом традиционное (для некоторых систем) журналирование не используется за ненадобностью.
- В btrfs улучшена функция переноса данных с одного диска на другой. Помимо этого, в код этой ФС приняты патчи, позволяющие некоторым алгоритмам распараллеливаться на несколько процессоров (ядер), что в теории должно привести к увеличению производительности.
- В файловой системе Ext4 реализована поддержка хранения мелких файлов непосредственно в inode. Этот приём используется для убыстрения доступа к таким файлам, а также в целях экономии дискового пространства. Напомним, что похожие алгоритмы используются и в reiserfs.
- В файловой системе XFS реализована функция определения повреждений метаданных при выполнении операций чтения и записи. Такие повреждения выявляются посредством вычисления контрольных сумм по алгоритму CRC.
- В код подсистемы, отвечающей за реализацию RAID6, добавлена поддержка инструкций AVX2, что позволит повысить производительность некоторых операций на будущих процессорах Intel Haswell.
В инфраструктуре.
- Добавлена возможность ограничения памяти ядра, используемой для управления процессами. Это позволяет более эффективно бороться с т.н. форк-бомбами, т.е., бесконтрольным размножением процессов.
- Подсистема NUMA изменена таким образом, чтобы поддерживать когерентность между памятью и процессором для одного процесса. Это должно привести к повышению быстродействия, т.к. процессы на архитектуре NUMA быстрее получают доступ к памяти, выделенной своему процессору, нежели другим.
- В отдельных случаях значительно уменьшено потребление памяти. В случае, если процесс запрашивает много памяти, но не пишет в неё, память реально не выделяется. Это достигнуто благодаря применению техники Copy-On-Write для выделения больших страниц памяти на основе страниц, заполненных нулями.
- Включена утилита turbostat. Она позволяет на новых процессорах Intel смотреть приблизительное потребление (в ваттах) каждого ядра (вычислительного и графического) по отдельности.
- Добавлена поддержка динамического изменения объёма выделенной памяти при использовании ядра в виртуализированном окружении Hyper-V.
- Убрана поддержка процессоров серии 386 с целью упрощения кода, отвечающего за поддержку многопроцессорности.
- В BPF добавлена возможность фильтрации трафика по VLAN'ам. Эту возможность можно использовать, например, в пользовательской утилите tcpdump.
- Добавлена поддержка вычисления контрольных сумм инкапсулированных пакетов на уровне «железа», что должно снизить нагрузку на центральный процессор.
- Планировщик процессов изменён таким образом, чтобы помещать много маленьких заданий на одно ядро процессора, позволяя другим ядрам бездействовать. Также отмечается переработка подсистемы RCU, призванная уменьшить джиттер задержки при перепланировании процессов.
В драйверах.
- В драйвер Nouveau добавлена поддержка 3D-ускорения с помощью OpenGL на всех существующих картах GeForce. По части управления охлаждением и поддержки ускорения видео разработчикам ещё предстоит работать.
- Добавлен простой графический драйвер для NVIDIA Tegra 2/3, разработанный не в компании NVIDIA. К сожалению, наработки последней по части аппаратного ускорения появились позже и в этот выпуск ядра не попали.
- Улучшена производительность сетевых драйверов, которые используются для паравиртуализации.
- Значительно расширен спектр поддерживаемых устройств.

Конечно же, в новом ядре есть и множество других изменений, которые, к сожалению, не поддаются перечислению в рамках данной новости. Чтобы получить более детальную информацию о новшествах ядра, рекомендуется обратиться к таким источникам: ноль, раз (h-online.com), два (h-online.com), три (h-online.com). Также полезную информацию можно почерпнуть, читая странички Kernel Newbies (раз (kernelnewbies.org), два (kernelnewbies.org)) и сайт LWN (раз (lwn.net), два (lwn.net)).

Скачать тарболл с исходным кодом

Скачать патч на ядро 3.7

>>> Анонс ядра на LKML

Ссылка

← Warsow 1.03

Релиз системы виртуализации QEMU 1.4.0 →

← 1 2 3 4 5 →

Ответ на: комментарий от anonymous 19.02.13 11:40:48 MSK

Когда-то сжатие было даже в ext2

Была такая мода во времена MSDOS. А потом это стало не нужно. И не нужно до сих пор.

anonymous
(19.02.13 11:56:01 MSK)

Ссылка

фикс «убыстрения» -> ускорение

GOD ★★★
(19.02.13 11:59:38 MSK)

В отдельных случаях значительно уменьшено потребление памяти. В случае, если процесс запрашивает много памяти, но не пишет в неё, память реально не выделяется. Это достигнуто благодаря применению техники Copy-On-Write для выделения больших страниц памяти на основе страниц нулевого размера.

Так вроде всегда и работало, в чем изменения? Всем сомневающимся предлагаю выполнить команду:cat /proc/sys/vm/overcommit_memory Если у вас там 0, то ваш линукс уже выделяет память только по Copy-On-Write. Этот нюанс как правило упускают из вида строители самопальных бездисковых тонких клиентов. У них там тоже нолик сидит, хотя должна быть 2.

A-234 ★★★★★
(19.02.13 12:13:45 MSK)
Последнее исправление: A-234 19.02.13 12:14:17 MSK (всего исправлений: 1)

Ответ на: комментарий от Kindly_Cat 19.02.13 10:06:32 MSK

У меня экономит место на разделе с исходниками где собираю пакеты из АУРА. ~1,5 года уже пользуюсь, нареканий никаких. Но это раздел с данными которые не жалко потерять и на производительность системы в общем не влияет.

Behem0th ★★★★★
(19.02.13 12:17:32 MSK)

Ответ на: комментарий от Lamppost 19.02.13 10:33:25 MSK

Совсем не то, uksm - это дедупликация данных в памяти.

Behem0th ★★★★★
(19.02.13 12:21:18 MSK)

Ссылка

В файловой системе XFS реализована функция определения повреждений метаданных при выполнении операций чтения и записи. Такие повреждения выявляются посредством вычисления контрольных сумм по алгоритму CRC.

Гмм... Это может значить, что чтение/запись будет чуточку тормознее. :/

iron ★★★★★
(19.02.13 12:26:04 MSK)

Ссылка

Ответ на: комментарий от A-234 19.02.13 12:13:45 MSK

For kernels which support transparent huge pages, Linux 3.8 can reserve a huge zero page to serve as the basis for new huge pages using COW (copy-on-write) (1, 2, 3, 4, 5 and others). This can significantly reduce memory use in cases where such memory areas are requested but never written to.

post-factum ★★★★★
(19.02.13 12:26:37 MSK) автор топика

убыстрения

ускорения

Ну дают же так русский язык коверкать...

anonymous
(19.02.13 12:28:39 MSK)

Ответ на: задам глупый вопрос от dada 19.02.13 10:21:15 MSK

Что то голова не варит, сам почитай:

Inline data
An inode is a data structure describing a single file within a filesystem. For most filesystems, there are actually two types of inode: the filesystem-independent in-kernel variety (represented by struct inode), and the filesystem-specific on-disk version. As a general rule, the kernel cannot manipulate a file in any way until it has a copy of the inode, so inodes, naturally, are the focal point for a lot of block I/O.
In the ext4 filesystem, the size of on-disk inodes can be set when a filesystem is created. The default size is 256 bytes, but the on-disk structure (struct ext4_inode) only requires about half of that space. The remaining space after the ext4_inode structure is normally used to hold extended attributes. Thus, for example, SELinux labels can be found there. On systems where extended attributes are not heavily used, the space between on-disk inode structures may simply go to waste.
Meanwhile, space for file data is allocated in units of blocks, separately from the inode. If a file is very small (and, even on current systems, there are a lot of small files), much of the block used to hold that file will be wasted. If the filesystem is using clustering, the amount of lost space will grow even further, to the point that users may start to complain.
Tao Ma's ext4 inline data patches may change that situation. The idea is quite simple: very small files can be stored directly in the space between inodes without the need to allocate a separate data block at all. On filesystems with 256-byte on-disk inodes, the entire remaining space will be given over to the storage of small files. If the filesystem is built with larger on-disk inodes, only half of the leftover space will be used in this way, leaving space for late-arriving extended attributes that would otherwise be forced out of the inode.
Tao says that, with this patch set applied, the space required to store a kernel tree drops by about 1%, and /usr gets about 3% smaller. The savings on filesystems where clustering is enabled should be somewhat larger, but those have not yet been quantified. There are a number of details to be worked out yet - including e2fsck support and the potential cost of forcing extended attributes to be stored outside of the inode - so this feature is unlikely to be ready for inclusion before 3.4 at the earliest.

Behem0th ★★★★★
(19.02.13 12:30:23 MSK)

Ссылка

Ответ на: комментарий от anonymous 19.02.13 12:28:39 MSK

http://altad.ru/dal211-51.html

Кому ещё хочется подискутировать на тему великого и живого русского, пишите лично. Остальное буду считать злостным флудом.

post-factum ★★★★★
(19.02.13 12:31:43 MSK) автор топика

Ссылка

Ответ на: комментарий от plm 19.02.13 10:00:05 MSK

Да уж, нашел тоже оплот стабильности, XFS... Вообще всю жизнь это была ОЧЕНЬ быстрая файловая система для камикадзе.

Хотя я не спорю с глючностью btrfs, разумеется. Просто смешно, какую ты ей выбрал альтернативу.

anonymous
(19.02.13 12:32:58 MSK)

Подсистема NUMA изменена таким образом, чтобы поддерживать когерентность между памятью и процессором для одного процесса. Это должно привести к повышению быстродействия, т.к. процессы на архитектуре NUMA быстрее получают доступ к памяти, выделенной своему процессору, нежели другим.

Имею NUMA десктоп (HP XW9400), надо обновиться.

Вопрос. uksm патч с NUMA использовать можно?

Jameson ★★★★★
(19.02.13 12:35:50 MSK)

Ответ на: комментарий от anonymous 19.02.13 12:32:58 MSK

Вообще всю жизнь это была ОЧЕНЬ быстрая файловая система для камикадзе.

4.2 по всем пунктам.

anonymous
(19.02.13 12:36:47 MSK)

Ссылка

Вообще главное что в этом ядре появилось a-sync DMA с поддержкой multiring для видео адаптеров radeon (HD3000 и выше, несколько колец есть правда начиная с 4000).

stalkerg ★★★★★
(19.02.13 12:39:10 MSK)

Ответ на: комментарий от Jameson 19.02.13 12:35:50 MSK

[pf@spock]:[~][0]% zgrep -i numa /proc/config.gz 
CONFIG_NUMA=y
# CONFIG_AMD_NUMA is not set
CONFIG_X86_64_ACPI_NUMA=y
# CONFIG_NUMA_EMU is not set
CONFIG_USE_PERCPU_NUMA_NODE_ID=y
CONFIG_ACPI_NUMA=y
[pf@spock]:[~][0]% zgrep -i uksm /proc/config.gz
CONFIG_UKSM=y

post-factum ★★★★★
(19.02.13 12:41:10 MSK) автор топика

Ответ на: комментарий от stalkerg 19.02.13 12:39:10 MSK

Там для радеон дров хорошие изменения в этом релизе. Следующий релиз тоже должен веселым получиться в этом плане.

Behem0th ★★★★★
(19.02.13 12:44:00 MSK)

Ссылка

отличное обновление

najlus ★★★★★
(19.02.13 12:48:41 MSK)

Ссылка

Ответ на: комментарий от post-factum 19.02.13 12:26:37 MSK

Это я уже понял, я вот чего понять не могу:

Since 2.5.30 the values are: 0 (default): as before: guess about how much overcommitment is reasonable, 1: never refuse any malloc(), 2: be precise about the overcommit - never commit a virtual address space larger than swap space plus a fraction overcommit_ratio of the physical memory.

Если есть само понятие оверкомита значит память реально выделяется только при обращении к ней. Попробуйте выключить своп в системе и запустить программку выжирающую всю память и заполняющую ее. Вы увидите как ядро начнет прибивать процессы по мере опустошения физической памяти, поскольку другими способами предоставить уже «обещанную» память невозможно.

A-234 ★★★★★
(19.02.13 12:50:17 MSK)

Ответ на: комментарий от post-factum 19.02.13 12:41:10 MSK

CONFIG_UKSM=y

А как BFS с NUMA поживает? Два камня по 6 ядер прожуёт? Задачи развешивает с учётом NUMA специфики? Есть смысл вообще его пробовать, IMHO CFS на таком количестве ядер лучше? Думаю попробовать pf-kernel, до этого ставить не решался ибо и так в принципе всё устраивало, реально хотел лишь uksm пощупать, виртуалок кучу гоняю параллельно.

Jameson ★★★★★
(19.02.13 12:54:01 MSK)

Подождём в Fedora. Надеюсь вакомовские дрова починили.

atrus ★★★★★
(19.02.13 12:54:14 MSK)

Ссылка

Ответ на: комментарий от A-234 19.02.13 12:50:17 MSK

Ну, видимо, тут специфика Huge Pages.

post-factum ★★★★★
(19.02.13 12:55:59 MSK) автор топика

Ссылка

Убрана поддержка процессоров серии 386 с целью упрощения кода, отвечающего за поддержку многопроцессорности.

Погодите, разве существовали многопроцессорные системы с i386?

CYB3R ★★★★★
(19.02.13 12:56:21 MSK)

Ответ на: комментарий от Jameson 19.02.13 12:54:01 MSK

За много камней не скажу. У меня двуядерный проц о гипертрейдинге. Всё ОК.

post-factum ★★★★★
(19.02.13 12:56:32 MSK) автор топика

Ответ на: комментарий от CYB3R 19.02.13 12:56:21 MSK

http://ei.cs.vt.edu/~history/Parallel.html

post-factum ★★★★★
(19.02.13 12:59:08 MSK) автор топика

Ответ на: комментарий от post-factum 19.02.13 12:59:08 MSK

Да, уже нагуглил компанию Sequent и Intel iPSC/2. Не думаю, что эти системы сейчас кто-то использует.
Так дропнули поддержку вообще всех i386 или только мультипроцессорных систем с i386?

CYB3R ★★★★★
(19.02.13 13:03:37 MSK)

Ответ на: комментарий от CYB3R 19.02.13 13:03:37 MSK

Всех 386-х.

post-factum ★★★★★
(19.02.13 13:05:58 MSK) автор топика

Ответ на: комментарий от post-factum 19.02.13 12:56:32 MSK

И у каждого ядра своя память, свой контроллер и своя шина? Сдаётся мне у тебя SMP. Соответственно, как uksm с нумой (а не с галкой в конфиге) работает ты знать не можешь, за неимением нумы.

В любом случае попробую потестить...

Jameson ★★★★★
(19.02.13 13:07:26 MSK)

Ответ на: комментарий от post-factum 19.02.13 13:05:58 MSK

Ждём форка Linux386.
С одной стороны печаль-беда, ибо линукс-то изначально писался именно под i386 (а сейчас их осталось немало даже у военных), но с другой стороны кому придёт в голову грузить на допотопных машинах что-то старше 2.6?

CYB3R ★★★★★
(19.02.13 13:09:49 MSK)

Ссылка

Ответ на: комментарий от Jameson 19.02.13 13:07:26 MSK

Видимо, NUMA у меня таки не задействована, ибо не те масштабы, но, если я правильно помню, в ядре у меня она неотключаема.

post-factum ★★★★★
(19.02.13 13:10:55 MSK) автор топика

Ответ на: комментарий от A-234 19.02.13 12:13:45 MSK

Так вроде всегда и работало, в чем изменения?

Тут просто ошибка перевода. Zero page - это не «страница нулевого размера» - такого вообще не бывает. Это просто страница, заполненная нулями, с которой и делается CoW. Изменение в том, что эта страница теперь может быть не 4К, а больше. Соответственно, механизм CoW теперь сможет работать с большими страницами.

Всем сомневающимся предлагаю выполнить команду:cat /proc/sys
/vm/overcommit_memory Если у вас там 0, то ваш линукс уже
выделяет память только по Copy-On-Write.

Это здесь совершенно не при чём. Ядро всегда выделяет юзеру память через CoW - так mmap() работает. Единственное, далеко не каждый malloc() доходит до mmap(), по тому, что у glibc есть свой пул, из которого она пытается отдавать память, и только если там уже нету - лезет в mmap()/sbrk(). Но к оверкоммиту это всё ни каким боком.

anonymous
(19.02.13 13:20:27 MSK)

Ответ на: комментарий от anonymous 19.02.13 13:20:27 MSK

Спасибо, подправил.

post-factum ★★★★★
(19.02.13 13:21:59 MSK) автор топика

Ссылка

Ответ на: комментарий от leg0las 19.02.13 10:12:09 MSK

оно просто работает. не виснет, не отваливается, не блюет в логи.

anonymous
(19.02.13 13:23:45 MSK)

Ответ на: комментарий от anonymous 19.02.13 10:10:11 MSK

Вообще писец, надоело уже на шиндоусе сидеть. Очень жду исправления бага. Кстати, твой пометили как дубликат, вот это главный баг https://bugzilla.kernel.org/show_bug.cgi?id=45461 .

mephistopheles ★★
(19.02.13 13:23:46 MSK)

Убрана поддержка процессоров серии 386

Ну всё, теперь линукс не нужен.

cruxish ★★★★
(19.02.13 13:24:09 MSK)

Ответ на: комментарий от eR 19.02.13 11:40:10 MSK

Лол, а скомпилять ручками никак?

~~PaxtonFettel~~
(19.02.13 13:24:22 MSK)

Ответ на: комментарий от cruxish 19.02.13 13:24:09 MSK

Мне нужен, у меня i686 и x86_64

~~PaxtonFettel~~
(19.02.13 13:25:09 MSK)

Ответ на: комментарий от PaxtonFettel 19.02.13 13:24:22 MSK

а получица полюбэ хуже чем уже собраное, даже хуже чес 3.8.0-0.rc7.fc19.

eR ★★★★★
(19.02.13 13:28:06 MSK)

Ссылка

Ответ на: комментарий от post-factum 19.02.13 13:10:55 MSK

Видимо, NUMA у меня таки не задействована

С включённой NUMA у тебя получается одна нода и один маршрут к памяти, соответственно весь этот кусок логики не используется. У меня масштабы тоже не особо большие, просто конструктивно ноды две. Соответственно шесть ядер в рамках одной ноды это SMP, а две ноды это уже NUMA+SMP. Если честно я думал что CFS обязан подобный винегрет разруливать и перемещать процесс с ноды на ноду вместе с принадлежащей ему памятью, поэтому

Подсистема NUMA изменена таким образом, чтобы поддерживать когерентность между памятью и процессором для одного процесса. Это должно привести к повышению быстродействия, т.к. процессы на архитектуре NUMA быстрее получают доступ к памяти, выделенной своему процессору, нежели другим.

для меня сюрприз. Был уверен что это уже сделано давно.

Насчёт BFS и UKSM сомневаюсь что кто то это серьёзно тестил на чём то отличном от классического SMP. Ну что же, повод потестить...

Jameson ★★★★★
(19.02.13 13:28:39 MSK)

В драйвер Nouveau добавлена поддержка 3D-ускорения с помощью OpenGL на всех существующих картах GeForce

и GeForce 2 MX400 тоже? :)

Harald ★★★★★
(19.02.13 13:29:33 MSK)

Ответ на: комментарий от PaxtonFettel 19.02.13 13:25:09 MSK

Мне нужен, у меня i686 и x86_64

А что мне делать с моими серверами на 80386?!

Школолинукс скатился.

cruxish ★★★★
(19.02.13 13:30:55 MSK)

В драйвер Nouveau добавлена поддержка 3D-ускорения с помощью OpenGL на всех существующих картах GeForce. По части управления охлаждением и поддержки ускорения видео разработчикам ещё предстоит работать.

Посмотрим. Что-то последнее время на GeForce4 440 Go только что-то ломают рандомно.

madcore ★★★★★
(19.02.13 13:38:41 MSK)

Ссылка

Ответ на: комментарий от Jameson 19.02.13 13:28:39 MSK

Отпишись о результатах.

post-factum ★★★★★
(19.02.13 13:39:05 MSK) автор топика

Ответ на: комментарий от Harald 19.02.13 13:29:33 MSK

Не знаю, как MX400, но на 440 новью вроде как работает. По крайней мере фреймбуфер =).

post-factum ★★★★★
(19.02.13 13:39:41 MSK) автор топика

Ссылка

Ответ на: комментарий от mephistopheles 19.02.13 13:23:46 MSK

Вообще писец, надоело уже на шиндоусе сидеть. Очень жду исправления бага. Кстати, твой пометили как дубликат, вот это главный баг https://bugzilla.kernel.org/show_bug.cgi?id=45461 .

Ну на моем 900X3C проблема и в батарейке и в ивенте на закрытие крышки. Просто больше всего бесит именно статус батареи =)

На шиндоус из-за этого я конечно не полезу, но приходится мучиться =(

anonymous
(19.02.13 13:42:29 MSK)

Ответ на: комментарий от post-factum 19.02.13 13:39:05 MSK

Javol, поиграюсь в выходные.

Jameson ★★★★★
(19.02.13 13:43:12 MSK)

Ссылка

Ответ на: комментарий от xterm 19.02.13 10:21:26 MSK

это не серьезно врядли на этом запустить можно kde или gnome я про типа xorg имеел виду такую же монструозный систему

xorg вполне запускается через fbdev

madcore ★★★★★
(19.02.13 13:46:27 MSK)

Ссылка

Ответ на: комментарий от Behem0th 19.02.13 12:17:32 MSK

У меня экономит место на разделе с исходниками где собираю пакеты из АУРА.

А зачем хранить разжатые исходники?

dm1024 ★★★
(19.02.13 13:50:22 MSK)

Ответ на: комментарий от anonymous 19.02.13 13:20:27 MSK

Нет, не всегда через mmap, посмотрите что такое MMAP_THRESHOLD в malloc(3). А файл overcommit_memory для того и нужен чтобы перед выделением страниц процессу убедиться что память реально есть когда к ней обратятся. То есть конечно выделится полюбому только при обращении но если памяти нет то программа получит ENOMEM.

A-234 ★★★★★
(19.02.13 13:54:52 MSK)