История изменений
Исправление den73, (текущая версия) :
Ну я так понял, что ё нормализуется, даже если оно введено в виде е и двух точек. Но тогда по сути (для частного случая русского языка) нормализация - это и есть превращение в графемный кластер. Также не соглашусь насчёт шейпинга. Вот у меня простой форматный вывод, и размер поля ограничен. Если не поместилось, нужно вывести: «Здравствуйте, дорогая радиопередача. Меня зовут Вася Иванов. Хочу передать привет на морскую вахту своему папе. Я уже большой и не боюсь спать один в темноте, а вот мама боится и поэтому спит с дядей Те...»
Так вот если в конце стояло ё, е вывелось, а палки потерялись, «Тё» превратиться в «Те» - это плохо. Т.е. это вроде и шейпинг текста, но в CL такие задачи могут возникнуть абсолютно везде, т.к. есть *print-length* .
С поиском тоже есть сомнения. Часто бывают ограничения на минимальную длину поискового слова. И получается, что еж искать нельзя, а ёж - уже можно. Далее, если представление ё неоднозначно, то для поиска ё нельзя просто сделать сравнение байт, а нужно по ходу поиска нормализовать.
Т.е. как-то слёту кажется, что графемные кластеры - это, с прикладной точки зрения и есть то, с чем надо работать. А байты - это костыли.
Исходная версия den73, :
Ну я так понял, что ё нормализуется, даже если оно введено в виде е и двух точек. Но тогда по сути (для частного случая русского языка) нормализация - это и есть превращение в графемный кластер. Также не соглашусь насчёт шейпинга. Вот у меня простой форматный вывод, и размер поля ограничен. Если не поместилось, нужно вывести: «Здравствуйте, дорогая радиопередача. Меня зовут Вася Иванов. Хочу передать привет на морскую вахту своему папе. Я уже большой и не боюсь спать один в темноте, а вот мама боится и поэтому спит с дядей Те...»
Так вот если в конце стояло ё, е вывелось, а палки потерялись, «Тё» превратиться в «Те» - это плохо. Т.е. это вроде и шейпинг текста, но в CL такие задачи могут возникнуть абсолютно везде.
С поиском тоже есть сомнения. Часто бывают ограничения на минимальную длину поискового слова. И получается, что еж искать нельзя, а ёж. Далее, если представление ё неоднозначно, то для поиска ё нельзя просто сделать сравнение байт, а нужно по ходу поиска нормализовать.
Т.е. как-то слёту кажется, что графемные кластеры - это, с прикладной точки зрения и есть то, с чем надо работать. А байты - это костыли.