Появилась новая кодировка - Base65536

0

1

Собственно, сабж.

Base65536 is a binary encoding optimised for UTF-32-encoded text.

Реализация на JS: https://github.com/qntm/base65536 ,
реализация на Python'е: https://base65536.readthedocs.io/en/latest/ .

Ссылка

← перенести венду из пункта а в пункт б с помощью Linux

Что-то там про сыр и мышеловку →

Зачем оно нужно? В README разве что несколько упоминаний про Twitter…

sT331h0rs3 ★★★★★
(20.09.20 13:57:39 MSK)

Ответ на: комментарий от sT331h0rs3 20.09.20 13:57:39 MSK

Как альтернатива архиватору, но с выхлопом в виде текста.

Base65536 remains the state of the art for sending binary data through text-based systems which naively counts Unicode code points, particularly those using the fixed-width UTF-32 encoding.

saahriktu ★★★★★
(20.09.20 14:08:02 MSK) автор топика

Ответ на: комментарий от saahriktu 20.09.20 14:08:02 MSK

Как альтернатива архиватору, но с выхлопом в виде текста.

Почему? Это аналог Base64, «новая кодировка» - звучит как кодировка текста, а там для файлов. Архиватор, он не обязан кодировать в моём понимании.

~~xwicked~~ ★★☆
(20.09.20 15:15:03 MSK)

Ссылка

UTF-32

Где это используется вообще?

~~WitcherGeralt~~ ★★
(20.09.20 15:37:36 MSK)

Ответ на: комментарий от WitcherGeralt 20.09.20 15:37:36 MSK

Чуть менее чем нигде, ибо графемы.

~~RazrFalcon~~ ★★★★★
(20.09.20 15:40:22 MSK)

Ссылка

Ух какая знатная наркомания у этих ваших зумеров. Выхлоп кодировщика напоминает какую-то клинопись.

DawnCaster ★★
(20.09.20 16:52:53 MSK)
Последнее исправление: DawnCaster 20.09.20 16:53:01 MSK (всего исправлений: 1)

Ссылка

Название крутое)

Valeg ★★★
(20.09.20 20:08:06 MSK)

Ссылка

Если смотреть объективно, то даже 32 бит для кодирования символа – мало. Правильная кодировка должна не содержать разные регистры и «крышечки», как эти ваши UTF, а иметь некоторую базу для самого символа, а так же набор атрибутов, типа регистра или умляута. Так что 64 бита – это минимум для действительно нормальной кодировки.

quwy
(21.09.20 04:06:53 MSK)

Шутка про 14 стандартов

~~chenbr0~~ ☆
(21.09.20 07:50:47 MSK)

Ссылка

Ждём Base4294967296

ratvier ★★
(21.09.20 09:27:17 MSK)

Ответ на: комментарий от ratvier 21.09.20 09:27:17 MSK

Ждём Base4294967296

:D, но такой не будет. В этой задействован весь юникод, все символы. Сначала придумается кодировка текста с таким количеством символов(что невозможно без задействования ИИ), а потом уже новый кодировщик.

~~xwicked~~ ★★☆
(21.09.20 10:31:33 MSK)

Ответ на: комментарий от xwicked 21.09.20 10:31:33 MSK

:D, но такой не будет.

Дверь запили!

невозможно без задействования ИИ

Давай запиливай!

ratvier ★★
(21.09.20 12:09:43 MSK)

Ответ на: комментарий от ratvier 21.09.20 12:09:43 MSK

Дверь запили!

Segmentation fault...

Давай запиливай!

А мне это не нужно, мне base64 хватит. Я лишь написал, что человек не сможет столько символов придумать, нарисовать и оцифровать.

~~xwicked~~ ★★☆
(21.09.20 12:36:01 MSK)
Последнее исправление: xwicked 21.09.20 12:36:28 MSK (всего исправлений: 1)

Ответ на: комментарий от xwicked 21.09.20 12:36:01 MSK

человек не сможет

Давай, д-д-делай дверь

ratvier ★★
(21.09.20 13:20:01 MSK)

Ответ на: комментарий от ratvier 21.09.20 13:20:01 MSK

Давай, д-д-делай дверь

Segmentation fault[2]
Давай переводи на русский. Сделать дверь между измерениями? Мне зачем, я так перемещаюсь...

~~xwicked~~ ★★☆
(21.09.20 15:53:44 MSK)

Ссылка

Ответ на: комментарий от WitcherGeralt 20.09.20 15:37:36 MSK

UTF-32
Где это используется вообще?

UTF-32, который нынче стал синонимом UCS-4 — это единственная штатная кодировка символов в API строк питона. Да, внутри есть три варианта хранения, но снаружи они все представляются как UCS-4 строки, за исключением специальных функций превращения в/из конкретной кодировки. Еще библиотеки для работы с текстами в UCS-4/UTF-32 любят переводить всё, чтобы один символ был одной позицией.

byko3y ★★★★★
(21.09.20 16:54:07 MSK)

Ссылка

Ответ на: комментарий от quwy 21.09.20 04:06:53 MSK

Если смотреть объективно, то даже 32 бит для кодирования символа – мало. Правильная кодировка должна не содержать разные регистры и «крышечки», как эти ваши UTF, а иметь некоторую базу для самого символа, а так же набор атрибутов, типа регистра или умляута. Так что 64 бита – это минимум для действительно нормальной кодировки

Как правило, печатный язык весьма ограничен, даже китайский. Крышечки-палочки-смайлики — это уже наборные расширения, которые могут уходить по сложности в бесконечность.

byko3y ★★★★★
(21.09.20 16:55:33 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← перенести венду из пункта а в пункт б с помощью Linux

Talks

Что-то там про сыр и мышеловку →

Похожие темы