perl UTF-8

Доброго времени. Неожиданно столкнулся с проблемой - нужно посчитать количество определённых символов (кирилицы) в строке. Строка может быть в любой кодировке. С помощью Encode::from_to я привожу строку к utf8, но возникает проблема с разбиением по отдельным символам через substr, английские он возвращает нормально, а вместо одного русского - 2 иероглифа.. попробовал upgrade и downgrade из utf8, но результата никакого =( Подскажите, как побороть кодировку или может есть более универсальный способ разбиения строки?

Ссылка

← [ООП] Время жизни объекта

Кросскомпиляция libstdc++ под ARM →

потому как русский литерал <> 1 символу.

Deleted
(01.04.08 20:30:35 MSK)

Ответ на: комментарий от Deleted 01.04.08 20:30:35 MSK

это я уже понял из мануала... вот только что с этим делать не понял

kranky ★★★★★
(01.04.08 21:17:20 MSK) автор топика

Ответ на: комментарий от kranky 01.04.08 21:17:20 MSK

> вот только что с этим делать не понял

Не использовать все эти гнушные изыски типа TeX, perl. Пользуйтесь Java - она с рождения юникодная.

anonymous
(01.04.08 21:41:10 MSK)

Ссылка

В перле нет аналога phpшному mbstring?

INFOMAN ★★★★★
(01.04.08 22:41:31 MSK)

Ссылка

В перле есть прагма use bytes, которая говорит что вместо символов, нужно работать с байтами. Чтобы отключить надо сделать no bytes. Все эти прагмы тоже имеют область видимости, так что достаточно удобно. Непонятно только одно, по дефолту она и так выключена..

http://perldoc.perl.org/bytes.html

OxiD ★★★★
(01.04.08 23:00:32 MSK)

Ссылка

$ perl -CS -e 'use utf8; my $s = "Хлеб бел"; my $c = 0; $c++ while $s =~ /л/g; print "л - $c\n";'
л - 2

Eshkin_kot ★★
(01.04.08 23:24:29 MSK)

Ссылка

> С помощью Encode::from_to я привожу строку к utf8
а надо к примеру в UCS2

anonymous2 ★★★★★
(02.04.08 03:06:31 MSK)

Ссылка

все, кроме ешкинкота - не понимают, что говорят.

По топику - тебе нужен не from_to (который по определению дает _байтовую_ строку), а decode.

Плюс, убедись что то, что внутри y// у тебя тоже юникодное.

anonymous
(02.04.08 11:35:08 MSK)

Ответ на: комментарий от anonymous 02.04.08 11:35:08 MSK

> тебе нужен не from_to (который по определению дает _байтовую_ строку), а decode.

Спасибо огромное за помощь, decode подошёл как нельзя лучше )

Метод ёшкинакота тоже работает, но только очень медленный )

kranky ★★★★★
(02.04.08 14:09:00 MSK) автор топика

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← [ООП] Время жизни объекта

Development

Кросскомпиляция libstdc++ под ARM →

Похожие темы