LINUX.ORG.RU

автоматические определители кодировок


0

0

Если взять iconv - ему нужно указывать, ИЗ какой кодировки требуется перекодировать, иначе получим на выходе абракадабру... Посоветуйте, пожалуйста, прогу(либу), которая автоматически определяет кодировку текста и перекодирует в указанную (мне нужна CP1251)... Пользовалась enca - но enca не понимает Юникод и неправильно перекодирует некоторые символы. Заранее спасибо за любой совет...

anonymous

Re: автоматические определители кодировок

В общем случае - это невозможно.

smartly ★★★ ()

Re: автоматические определители кодировок

по моему, проект называется enca

в новостях пролетала авточинилка заголовков e-mail сообщений на базе этой либы.

чинилка называлась по-моему fomenca

для русского вроде работала. судя по отзывам :)

jackLucas ()

Re: автоматические определители кодировок

Если текст на русском, то в принципе это реально. Думаю, что определить  по первым байтаю, что это юникод или нет, труда не составит. Далее если не юникод можно либо вашей enca, либо если это например письмо и там есть обязательное слово, то  смотреть в какой оно кодировке и сравнивать со словарем. Если такого слова нет, то сравнивать со словарем слова в исходном тексте. 

anonymous ()

Re: автоматические определители кодировок

Можно определять частотным анализом, но для маленьких текстов это не сработает.

asso_w ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.