LINUX.ORG.RU

История изменений

Исправление den73, (текущая версия) :

Ну я так понял, что ё нормализуется, даже если оно введено в виде е и двух точек. Но тогда по сути (для частного случая русского языка) нормализация - это и есть превращение в графемный кластер. Также не соглашусь насчёт шейпинга. Вот у меня простой форматный вывод, и размер поля ограничен. Если не поместилось, нужно вывести: «Здравствуйте, дорогая радиопередача. Меня зовут Вася Иванов. Хочу передать привет на морскую вахту своему папе. Я уже большой и не боюсь спать один в темноте, а вот мама боится и поэтому спит с дядей Те...»

Так вот если в конце стояло ё, е вывелось, а палки потерялись, «Тё» превратиться в «Те» - это плохо. Т.е. это вроде и шейпинг текста, но в CL такие задачи могут возникнуть абсолютно везде, т.к. есть *print-length* .

С поиском тоже есть сомнения. Часто бывают ограничения на минимальную длину поискового слова. И получается, что еж искать нельзя, а ёж - уже можно. Далее, если представление ё неоднозначно, то для поиска ё нельзя просто сделать сравнение байт, а нужно по ходу поиска нормализовать.

Т.е. как-то слёту кажется, что графемные кластеры - это, с прикладной точки зрения и есть то, с чем надо работать. А байты - это костыли.

Исходная версия den73, :

Ну я так понял, что ё нормализуется, даже если оно введено в виде е и двух точек. Но тогда по сути (для частного случая русского языка) нормализация - это и есть превращение в графемный кластер. Также не соглашусь насчёт шейпинга. Вот у меня простой форматный вывод, и размер поля ограничен. Если не поместилось, нужно вывести: «Здравствуйте, дорогая радиопередача. Меня зовут Вася Иванов. Хочу передать привет на морскую вахту своему папе. Я уже большой и не боюсь спать один в темноте, а вот мама боится и поэтому спит с дядей Те...»

Так вот если в конце стояло ё, е вывелось, а палки потерялись, «Тё» превратиться в «Те» - это плохо. Т.е. это вроде и шейпинг текста, но в CL такие задачи могут возникнуть абсолютно везде.

С поиском тоже есть сомнения. Часто бывают ограничения на минимальную длину поискового слова. И получается, что еж искать нельзя, а ёж. Далее, если представление ё неоднозначно, то для поиска ё нельзя просто сделать сравнение байт, а нужно по ходу поиска нормализовать.

Т.е. как-то слёту кажется, что графемные кластеры - это, с прикладной точки зрения и есть то, с чем надо работать. А байты - это костыли.