История изменений

Исправление saahriktu, 31.08.16 22:30 (текущая версия) :

Если каждый символ ровно по N байт, то такие тексты займут в N раз больше места в памяти чем в однобайтной кодировке. Тексты в UTF-8, а особенно дополнительно пожатые lzma, займут, конечно, меньше места чем в той же UTF-16, НО если вдруг понадобится их grep'ать или ещё как-то обрабатывать, то даже ASCII символы начнут занимать по 4 байта в wchar_t каждый. wchar_t в Linux'е изначально рассчитан на UTF-32, и весь юникод при чтении для обработки multibyte функциями автоматически превращается в UTF-32.

Исходная версия saahriktu, 31.08.16 22:29:

Если каждый символ ровно по N байт, то такие тексты займут в N раз больше места в памяти чем в однобайтной кодировке. Тексты в UTF-8, а особенно дополнительно пожатые lzma, займут, конечно, меньше места чем в той же UTF-8, НО если вдруг понадобится их grep'ать или ещё как-то обрабатывать, то даже ASCII символы начнут занимать по 4 байта в wchar_t каждый. wchar_t в Linux'е изначально рассчитан на UTF-32, и весь юникод при чтении для обработки multibyte функциями автоматически превращается в UTF-32.