Встречайте кодировку будущего — base💯

1

2

Для Ъ: https://github.com/AdamNiederer/base100

Для !Ъ:

$ echo "the quick brown fox jumped over the lazy dog" | base100
👫👟👜🐗👨👬👠👚👢🐗👙👩👦👮👥🐗👝👦👯🐗👡👬👤👧👜👛🐗👦👭👜👩🐗👫👟👜🐗👣👘👱👰🐗👛👦👞🐁

Base💯 is very space inefficient. It bloats the size of your data by around 3x, and should only be used if you have to display encoded binary data in as few printable characters as possible. It is, however, very suitable for human interaction. Encoded hashes and checksums become very easy to verify at a glance, and take up much less space on a terminal.

$ base100 --version
base💯 0.2.0

$ base64 --version
base64 (GNU coreutils) 8.28

$ cat /dev/urandom | base100 | pv > /dev/null
 [ 502MiB/s]

$ cat /dev/urandom | base64 | pv > /dev/null
 [ 232MiB/s]

$ cat /dev/urandom | base100 | base100 -dF | pv > /dev/null
 [ 223MiB/s]

$ cat /dev/urandom | base64 | base64 -d | pv > /dev/null
 [ 176MiB/s]

Как видно, base💯 — современная программа и не ущемляет права меньшинств.

Ссылка

← Вопрос к пользователям Хрома

Apple впихивает бэкдоры и не палится →

← 1 2 →

У меня одни квадратики.

~~RazrFalcon~~ ★★★★★
(05.10.17 22:52:48 MSK)

Внесите шизика!

~~dk-~~ ☆
(05.10.17 22:53:06 MSK)

Ссылка

Ответ на: комментарий от RazrFalcon 05.10.17 22:52:48 MSK

Установи десяточку, не мучься.

lenin386 ★★★★★
(05.10.17 22:54:38 MSK)

У меня аж курсор задёргался на этой странице.
Но к чести набора Noto — квадратиков нет.

dogbert ★★★★★
(05.10.17 22:54:39 MSK)

Ссылка

Ответ на: комментарий от lenin386 05.10.17 22:54:38 MSK

Десяточка уже научилась скрывать заголовки окон?

~~RazrFalcon~~ ★★★★★
(05.10.17 22:55:46 MSK)

Ответ на: комментарий от RazrFalcon 05.10.17 22:55:46 MSK

Установи. Узнаешь.

lenin386 ★★★★★
(05.10.17 22:58:58 MSK)

Ссылка

Эх, надо мне допиливать мою 6-ти битную кодировку, которая содержит 151 видимый символ. Вот это будет кодировка будущего. Не то что сабжевая.

saahriktu ★★★★★
(05.10.17 23:00:05 MSK)

saahriktu

~~DELIRIUM~~ ☆☆☆☆☆
(05.10.17 23:02:23 MSK)

Ссылка

Ответ на: комментарий от saahriktu 05.10.17 23:00:05 MSK

Я тебя тут кастую, вспоминаю, как ты пишешься, а ты сам пришёл.

~~DELIRIUM~~ ☆☆☆☆☆
(05.10.17 23:03:34 MSK)

Ссылка

Ответ на: комментарий от saahriktu 05.10.17 23:00:05 MSK

которая содержит 151 видимый символ

мозг инженера в действии:

не представляю, как можно использовать больше 151 символа
151 символа хватит всем

мозг продвинутого инженера:

мы знаем, что есть проблема 152-го символа, но её ещё не скоро решать, этим займутся потомки.

system-root ★★★★★
(05.10.17 23:04:01 MSK)

Интересно, если напечатать и отсканировать, какие-нибудь OCR это распознают? Последний FineReader?

TheAnonymous ★★★★★
(05.10.17 23:06:17 MSK)

Ссылка

Ответ на: комментарий от system-root 05.10.17 23:04:01 MSK

Настоящий инженер должен думать так:
Для 151 символа всё равно надо 8 бит на символ, по этому пусть их будет 256, но стандартизируем пока только 151.

torvn77 ★★★★★
(05.10.17 23:07:19 MSK)
Последнее исправление: torvn77 05.10.17 23:07:40 MSK (всего исправлений: 1)

$ cat /dev/urandom | base100 | pv > /dev/null
 [ 502MiB/s]

$ cat /dev/urandom | base64 | pv > /dev/null
 [ 232MiB/s]

Выполнение этих команд даст другой результат. Расходимся нас обманули.

Siado ★★★★★
(05.10.17 23:12:20 MSK)

Ответ на: комментарий от torvn77 05.10.17 23:07:19 MSK

Для 151 символа всё равно надо 8 бит на символ

Только в распакованном виде. С триме может быть 5-6-7 например.

Stil ★★★★★
(05.10.17 23:18:12 MSK)

Ответ на: комментарий от Stil 05.10.17 23:18:12 MSK

Да хоть один, меньше одного байта выделить нельзя.

torvn77 ★★★★★
(05.10.17 23:19:13 MSK)

Ответ на: комментарий от torvn77 05.10.17 23:19:13 MSK

Выделить в чём?

Stil ★★★★★
(05.10.17 23:20:10 MSK)

Ответ на: комментарий от Stil 05.10.17 23:20:10 MSK

Ну смотри, система выделяет память блоками байт, процессор обрабатывает байты.
Это значит что если информация упакована плотнее этого байта то для работы с ней её всё рано придётся распаковывать до состояния одна «информационная единица» на один байт.

torvn77 ★★★★★
(05.10.17 23:22:42 MSK)

Ответ на: комментарий от torvn77 05.10.17 23:19:13 MSK

Ну так поэтому кодировщик/декодировщик будет основан на дополнительной библиотеке, которая пакует/распаковывает группы битов в байты и обратно. Так, например, каждые 4 байта, которые содержат по 6 значащих битов, будут запакованы в 3 байта, а при декодировании наоборот - каждые 3 байта будут становиться 4-мя байтами в каждом из которых по 6 значащих битов.

saahriktu ★★★★★
(05.10.17 23:23:33 MSK)

Ответ на: комментарий от torvn77 05.10.17 23:22:42 MSK

const uint8_t single_char = (input_byte & 0xf0) >> 4;

Это не аллокация, если что. Что до стрима – он аллоцирует память сразу под всю последовательность символов (с округлением до байта), и сколько там бит на один символ не особо важно (ну только в контекстах распаковки/упаковки).

Stil ★★★★★
(05.10.17 23:28:39 MSK)
Последнее исправление: Stil 05.10.17 23:30:36 MSK (всего исправлений: 2)

Ссылка

Ответ на: комментарий от saahriktu 05.10.17 23:23:33 MSK

Та у тебя всё равнго будет печальный выбор или при каждой операции распаковывать и запаковывать обратно, или хранить в распакованном виде.

torvn77 ★★★★★
(05.10.17 23:29:53 MSK)
Последнее исправление: torvn77 05.10.17 23:30:47 MSK (всего исправлений: 1)

Ответ на: комментарий от torvn77 05.10.17 23:29:53 MSK

А эта кодировка для read only текстов, которые никто и не собирается редактировать. Чтобы они в итоге были сильнее пожаты. Собственно, и сабжевая кодировка не предполагает редактирование текстов.

А для read-write работы с текстом уже есть KOI8-R.

saahriktu ★★★★★
(05.10.17 23:33:44 MSK)

мне уже нравится

Harald ★★★★★
(05.10.17 23:34:45 MSK)

Ссылка

Надеюсь, их там психиатры лечат.

WereFox ★☆
(05.10.17 23:39:06 MSK)

Ссылка

«Хо-хо!» ©

quickquest ★★★★★
(05.10.17 23:40:06 MSK)

Ссылка

Ответ на: комментарий от saahriktu 05.10.17 23:33:44 MSK

Чтобы они в итоге были сильнее пожаты

расскажи юзкейс, как много у тебя текстов, и почему не возможно их пожать другими способами?

system-root ★★★★★
(05.10.17 23:54:06 MSK)

Кто-то уже создал ЯП на эмоджи?

BceM_IIpuBeT ★★☆☆☆
(05.10.17 23:57:32 MSK)

Ответ на: комментарий от BceM_IIpuBeT 05.10.17 23:57:32 MSK

http://www.globalnerdy.com/wordpress/wp-content/uploads/2016/06/map-filter-re...

system-root ★★★★★
(06.10.17 00:00:26 MSK)

Ссылка

Ответ на: комментарий от BceM_IIpuBeT 05.10.17 23:57:32 MSK

http://www.globalnerdy.com/wordpress/wp-content/uploads/2014/06/poopy-swift-c...

Deleted
(06.10.17 00:00:53 MSK)

Ответ на: комментарий от Deleted 06.10.17 00:00:53 MSK

http://www.emojicode.org

Deleted
(06.10.17 00:01:30 MSK)

Ссылка

Ответ на: комментарий от system-root 05.10.17 23:54:06 MSK

как много у тебя текстов

Сотни гигов. И это уже пожатых lzma.

почему не возможно их пожать другими способами?

Можно, но не так хорошо.

saahriktu ★★★★★
(06.10.17 00:07:21 MSK)

Ответ на: комментарий от saahriktu 06.10.17 00:07:21 MSK

а lzma умеет сжимать 6 битные кодировки?
или ему без разницы на текст?

system-root ★★★★★
(06.10.17 00:18:09 MSK)
Последнее исправление: system-root 06.10.17 00:18:43 MSK (всего исправлений: 1)

Ответ на: комментарий от saahriktu 06.10.17 00:07:21 MSK

Сотни гигов. И это уже пожатых lzma.

А от того, что ты сделаешь супер-сложную кодировку, которая жмет файл (кстати, как ты её реализуешь, что для записи 151 символа тебе надо всего 6 бит, а не 8 (2^6=64 символа)). Да, кстати, количество информации не уменьшится от предварительного пожатия, а следовательно LZMA просто станет хуже жать и размер твоих файлов не изменится, разве что подрастет из-за того, что LZMA может быть оптимизирован для текста.

peregrine ★★★★★
(06.10.17 00:22:31 MSK)

Ответ на: комментарий от peregrine 06.10.17 00:22:31 MSK

Архиваторы жмут по принципу закономерностей. Одинаковые последовательности байтов должны жаться одинаково хорошо независимо и от их содержимого, и от того как и кто их интерпретирует.

кстати, как ты её реализуешь, что для записи 151 символа тебе надо всего 6 бит, а не 8

Через 2 управляющих кода: переключение регистра и рус/лат. Да, если они часто применяются, эффект будет не тот. Но, в обычных текстах они нужны не так уж и часто.

saahriktu ★★★★★
(06.10.17 00:36:52 MSK)

Ответ на: комментарий от system-root 06.10.17 00:18:09 MSK

Выше писал про библиотеку, которая будет паковать группы битов в байты. И каждые 4 байта с 6-ю значащими битами будут становиться 3-мя байтами.

saahriktu ★★★★★
(06.10.17 00:38:26 MSK)

Ссылка

Ответ на: комментарий от saahriktu 06.10.17 00:36:52 MSK

Это уже кодировка переменной длины получается, а не просто 6 бит.

pftBest ★★★★
(06.10.17 00:41:17 MSK)

Ответ на: комментарий от saahriktu 06.10.17 00:36:52 MSK

Это кодировка с переменным количеством бит, как выше правильно заметили, прямо скоро utf-8 изобретешь, только utf-6

peregrine ★★★★★
(06.10.17 00:49:08 MSK)
Последнее исправление: peregrine 06.10.17 00:49:20 MSK (всего исправлений: 1)

Ответ на: комментарий от pftBest 06.10.17 00:41:17 MSK

Смотря как посмотреть. С одной из сторон её можно назвать именно 6-ти битной, поскольку текст в ней состоит из последовательностей по 6 бит, а не по 8 бит. И если посмотреть на неё не учитывая служебные коды, то каждый символ в ней занимает именно 6 бит. Дополнительные биты тратятся именно на переключение регистра и раскладки.

saahriktu ★★★★★
(06.10.17 00:53:05 MSK)

Ссылка

Ответ на: комментарий от peregrine 06.10.17 00:49:08 MSK

В UTF-X нет служебных кодов для переключения регистра и раскладки. Там, по сути, каждый раз нужно явно указывать с какой «страницы» берётся символ. В моей кодировке не так.

saahriktu ★★★★★
(06.10.17 00:55:42 MSK)

Ссылка

Ответ на: комментарий от saahriktu 05.10.17 23:00:05 MSK

6 бит дают 64 комбинации. Как ты собрался кодировать 151 символ?

KivApple ★★★★★
(06.10.17 01:12:47 MSK)

Прикольно. А в чем смысл? Квковы сценарии использования?

PanZagloba
(06.10.17 01:15:31 MSK)

Ссылка

Ответ на: комментарий от KivApple 06.10.17 01:12:47 MSK

Как можно не уведитеть буквально предыдущий комментарий?

pftBest ★★★★
(06.10.17 01:17:27 MSK)

Ссылка

Ответ на: комментарий от KivApple 06.10.17 01:12:47 MSK

Через 2 управляющих кода: переключение регистра и рус/лат. Да, если они часто применяются, эффект будет не тот. Но, в обычных текстах они нужны не так уж и часто.

saahriktu ★★★★★
(06.10.17 01:23:51 MSK)

Ответ на: комментарий от RazrFalcon 05.10.17 22:52:48 MSK

https://image.prntscr.com/image/exM61QinQm_EKPY12Ii3RA.png

mandala ★★★★★
(06.10.17 01:37:19 MSK)
Последнее исправление: mandala 06.10.17 01:37:57 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от saahriktu 05.10.17 23:33:44 MSK

Чтобы они в итоге были сильнее пожаты.

Это будет тест на негодный алгоритм компрессии.

greenman ★★★★★
(06.10.17 06:36:07 MSK)

Ссылка

Ответ на: комментарий от saahriktu 05.10.17 23:00:05 MSK

Эх, надо мне

Не надо. Ты всё равно в пьяном (или другом) угаре ей наркоманское название даш, которое никто не станет запоминать, так что она сразу канет в безызвестность.

grem ★★★★★
(06.10.17 07:27:16 MSK)