Какое внутреннее предствление символов лучше подходит для текстового редактора?

0

1

Как удобнее внутри некоего абстрактного текстового редактора хранить/обрабатывать текст - в виде мультибайтовых строк, или wchar_t? У кого какие на этот счет мысли. Может здесь кто-то «ковырял» исходники какого-нибудь существующего редактора.

Вроде на первый взгляд удобнее работать с широкими символами. Но может быть и оборотная сторона медали, которая с первого взгляда и не видна?

Ссылка

←	Будь проклят тот день #2 [С++ template hell]

А есть ли в Lua аналог std::map из c++?

→

Use QString, Luke. Для внутреннего представления UTF-16 — вполне разумный компромисс

XMs ★★★★★
(07.06.18 17:08:51 MSK)
Последнее исправление: XMs 07.06.18 17:09:00 MSK (всего исправлений: 1)

wchar_t

Осторожнее. «широкие» кодировоки не камильфо, как только потребуется поддержка композитных символов. А так, на вкус и цвет

Deleted
(07.06.18 17:13:08 MSK)

Ссылка

Ответ на: комментарий от XMs 07.06.18 17:08:51 MSK

Для внутреннего представления UTF-16 — вполне разумный компромисс

Какой-то странный компромисс - не нашим, не вашим. С широкими символами удобно «передвигаться» по тексту. UTF-16 в этом смысле ничем не лучше UTF-8, только для UTF-8 хотя бы стандартная сишная библиотека есть на худой конец.

zloy_starper ★★★
(07.06.18 17:15:20 MSK) автор топика

https://en.wikipedia.org/wiki/Rope_(data_structure)

anonymous
(07.06.18 17:18:21 MSK)

Ответ на: комментарий от zloy_starper 07.06.18 17:15:20 MSK

С широкими символами удобно «передвигаться» по тексту.

Чем удобно? «Широкие символы» точно так же могут содержать комбинируемые знаки, поэтому всё равно придётся прочесать всю строку и построить индекс, по какому адресу начинается каждый кластер графем. В этом смысле «широкие символы» ничем не лучше UTF-8.

anonymous
(07.06.18 17:22:33 MSK)

Ответ на: комментарий от zloy_starper 07.06.18 17:15:20 MSK

У UTF-16 фиксированный размер символа, соответственно, при размещении текста длинными непрерывными блоками можно гарантировать неизменное время доступа к случайному символу ценой большего расхода памяти и ограничению числа возможных значений. С UTF-8 так уже не получится

XMs ★★★★★
(07.06.18 17:24:17 MSK)

Ответ на: комментарий от anonymous 07.06.18 17:18:21 MSK

и не только.
http://www.averylaird.com/programming/the%20text%20editor/2017/09/30/the-piece-table/

http://www.finseth.com/craft/

Deleted
(07.06.18 17:25:19 MSK)

Ссылка

Ответ на: комментарий от anonymous 07.06.18 17:18:21 MSK

Самый правильный редактор — без преобразования. Хранить надо так, как оно есть в файле, т. е. raw. Преобразования происходят при отображении и при вводе. Binary accuracy, короче.

akk ★★★★★
(07.06.18 17:25:40 MSK)

Ответ на: комментарий от XMs 07.06.18 17:24:17 MSK

Многие символы занимают больше двух байтов. В UTF-16 даже русская буква Ё может не поместиться, если её представлять как Е + двоеточие.

~~Legioner~~ ★★★★★
(07.06.18 17:25:44 MSK)

Ответ на: комментарий от anonymous 07.06.18 17:22:33 MSK

При загрузке текста в буфер неплохо бы избавиться от таких штук заменой на эквивалентный символ.

anonymous
(07.06.18 17:27:18 MSK)

Ответ на: комментарий от akk 07.06.18 17:25:40 MSK

В чём «правильность»?

anonymous
(07.06.18 17:35:21 MSK)

Ссылка

Ответ на: комментарий от zloy_starper 07.06.18 17:15:20 MSK

удобно «передвигаться» по тексту

Бгг. Нет

Deleted
(07.06.18 17:38:52 MSK)

Ссылка

Ответ на: комментарий от XMs 07.06.18 17:24:17 MSK

фиксированный размер символа

Был когда-то. А сейчас это мультибайт

Deleted
(07.06.18 17:39:42 MSK)

Ответ на: комментарий от anonymous 07.06.18 17:27:18 MSK

Композиция - дороговато будет

Deleted
(07.06.18 17:41:25 MSK)

Ссылка

Ответ на: комментарий от XMs 07.06.18 17:24:17 MSK

Добро пожаловать в 2018 с год compound emojis: 🏳️‍🌈

~~RazrFalcon~~ ★★★★★
(07.06.18 17:42:18 MSK)
Последнее исправление: RazrFalcon 07.06.18 17:42:36 MSK (всего исправлений: 1)

Ответ на: комментарий от anonymous 07.06.18 17:27:18 MSK

Замени-ка мне а́ на эквивалентный символ.

anonymous
(07.06.18 17:53:53 MSK)

Ссылка

Ответ на: комментарий от Legioner 07.06.18 17:25:44 MSK

если её представлять как Е + двоеточие

Если так — да. Поэтому я и назвал UTF-16 компромиссом, а не идеальным решением

XMs ★★★★★
(07.06.18 17:54:04 MSK)

Ссылка

Ответ на: комментарий от Deleted 07.06.18 17:39:42 MSK

А сейчас это мультибайт

Ты не путаешь с UTF-8? Насколько мне известно, UTF-16 и UTF-32 фиксированы в своём размере

XMs ★★★★★
(07.06.18 17:55:34 MSK)

Ответ на: комментарий от RazrFalcon 07.06.18 17:42:18 MSK

Ждём поддержки в resvg.

anonymous
(07.06.18 17:56:13 MSK)

Ответ на: комментарий от XMs 07.06.18 17:55:34 MSK

Нет.

anonymous
(07.06.18 17:56:47 MSK)

Ссылка

Ответ на: комментарий от RazrFalcon 07.06.18 17:42:18 MSK

А вот об этом я и забыл, ибо не пользуюсь

XMs ★★★★★
(07.06.18 17:57:08 MSK)

Ссылка

Ответ на: комментарий от XMs 07.06.18 17:55:34 MSK

«Суррогатные пары» эта шняга называется

Deleted
(07.06.18 17:58:30 MSK)

Ссылка

Ответ на: комментарий от anonymous 07.06.18 17:56:13 MSK

Это не от меня зависит. Нужно чтобы все сопутствующие либы обновили Unicode до 11 версии.

~~RazrFalcon~~ ★★★★★
(07.06.18 18:49:55 MSK)

Ссылка

cast utf8nowhere

Deleted
(07.06.18 19:33:21 MSK)

Ответ на: комментарий от Deleted 07.06.18 19:33:21 MSK

Зачем звал?

utf8nowhere ★★★★
(07.06.18 19:35:24 MSK)

Ответ на: комментарий от utf8nowhere 07.06.18 19:35:24 MSK

Ник у тебя подходящий. Ну и сказать что-нибудб заодно

Deleted
(07.06.18 19:37:11 MSK)

Ответ на: комментарий от Deleted 07.06.18 19:37:11 MSK

Ну вообще я за UTF-8 везде. Как видно из URL в профиле.

Про Rope тут уже сказали.

Лучше всего хранить так, как хранят уже существующие текстовые редакторы и не писать новых редакторов.

utf8nowhere ★★★★
(07.06.18 19:38:53 MSK)

Ссылка

Можешь свой вариант придумать для внутреннего представления исходя из своих целей.

Написать хороший текстовый редактор не так легко, как кажется.

Bfgeshka ★★★★★
(07.06.18 19:41:24 MSK)

utf32

invy ★★★★★
(07.06.18 20:06:04 MSK)

Ссылка

Ответ на: комментарий от Bfgeshka 07.06.18 19:41:24 MSK

Написать хороший текстовый редактор не так легко, как кажется.

Поэтому хорошего до сих пор и нет. Увы.

~~RazrFalcon~~ ★★★★★
(07.06.18 20:42:51 MSK)

Ссылка

Лучше как массив графем храни. А графемы в UTF-8 NFC.

monk ★★★★★
(07.06.18 21:14:57 MSK)

Ответ на: комментарий от monk 07.06.18 21:14:57 MSK

Это чтобы файл, который ты не менял, всё равно при сохранении изменился, если был не в NFC-форме?

utf8nowhere ★★★★
(07.06.18 21:44:14 MSK)
Последнее исправление: utf8nowhere 07.06.18 21:44:26 MSK (всего исправлений: 1)

Ответ на: комментарий от utf8nowhere 07.06.18 21:44:14 MSK

Это чтобы поиск делать. Если ты файл перезаписываешь, значит уже поменял и формат определяется кодировкой записи.

monk ★★★★★
(07.06.18 21:49:52 MSK)

Ссылка

https://docs.swift.org/swift-book/LanguageGuide/StringsAndCharacters.html же.

wchar_t — слишком низкоуровнево, как и мультибайтовые строки и, в целом, юникод.

x3al ★★★★★
(07.06.18 21:57:59 MSK)

Ответ на: комментарий от x3al 07.06.18 21:57:59 MSK

https://docs.swift.org/swift-book/LanguageGuide/StringsAndCharacters.html же.

Он вот эту букву 👩‍❤️‍💋‍👩 воспринимает как 4 символа. Так что тоже не совсем верно. Но подход правильный.

monk ★★★★★
(07.06.18 22:11:47 MSK)

Ответ на: комментарий от anonymous 07.06.18 17:27:18 MSK

неплохо бы избавиться от таких штук заменой на эквивалентный символ

Это не всегда возможно.

intelfx ★★★★★
(07.06.18 22:14:47 MSK)
Последнее исправление: intelfx 07.06.18 22:14:54 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от monk 07.06.18 22:11:47 MSK

В своём firefox я могу выделить мышью 4 отдельных символа (👩‍ ❤️‍💋‍👩) в этой букве, поэтому он не одинок.

x3al ★★★★★
(07.06.18 22:31:14 MSK)
Последнее исправление: x3al 07.06.18 22:31:37 MSK (всего исправлений: 1)

Ответ на: комментарий от XMs 07.06.18 17:24:17 MSK

Нет у UTF16 никакой фиксированности, любой символ за пределами BMP требует кодирования двумя суррогатами, например, emoji. Типичная ошибка, которую UTF16 провоцирует - обрабатывать его как UCS-2, устаревший в 1990-х годах.

quiet_readonly ★★★★
(08.06.18 07:36:56 MSK)

Ссылка

Ответ на: комментарий от XMs 07.06.18 17:08:51 MSK

Use QString, Luke.

Дожили. Кодеры кроме Qt ничего не знают.

anonymous
(08.06.18 21:57:18 MSK)

Ответ на: комментарий от anonymous 08.06.18 21:57:18 MSK

Увы, но std::string — боль

XMs ★★★★★
(09.06.18 00:30:25 MSK)

Ссылка

один выстрел - один труп. Т.е. один символ - один объект.

~~Einstok_Fair~~ ★★☆
(09.06.18 05:51:50 MSK)

Ответ на: комментарий от x3al 07.06.18 22:31:14 MSK

могу выделить мышью 4 отдельных символа (👩‍ ❤️‍💋‍👩)

(👩‍ ❤️‍💋‍👩) и (👩‍❤️‍💋‍👩) — разные строки. Первая — три символа (один из них пробел), вторая — один.

поэтому он не одинок

Так Unicode вообще сложная штука. В этой строке в зависимости от программы до 8 символов распознаётся

monk ★★★★★
(09.06.18 06:12:58 MSK)

Ссылка

Ответ на: комментарий от Einstok_Fair 09.06.18 05:51:50 MSK

Т.е. один символ - один объект.

Беда юникода в том, что нет однозначного понятия «символ».

monk ★★★★★
(09.06.18 06:15:27 MSK)

Ответ на: комментарий от monk 09.06.18 06:15:27 MSK

Это у тебя понятия нет, а в юникоде есть однозначное понятие "grapheme cluster".

anonymous
(09.06.18 11:05:33 MSK)

Ответ на: комментарий от anonymous 09.06.18 11:05:33 MSK

Это у тебя понятия нет, а в юникоде есть однозначное понятие «grapheme cluster».

Сколько графемных кластеров в слове «mach»? 3 или 4?

monk ★★★★★
(09.06.18 12:37:59 MSK)

Ссылка

Ответ на: комментарий от anonymous 09.06.18 11:05:33 MSK

И ещё есть, например, «coﬃn». Тут 6 графемных кластеров и всего 4 глифа.

monk ★★★★★
(09.06.18 13:09:41 MSK)
Последнее исправление: monk 09.06.18 13:09:59 MSK (всего исправлений: 1)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	Будь проклят тот день #2 [С++ template hell]

Development

А есть ли в Lua аналог std::map из c++?

→

Похожие темы