Определение кодировки

0

0

Подскажите, какой алгоритм используется для автоматического определения кодировки "простого" текста?

Ссылка

← Что с selecter.vnet.ee?

offtopic →

если для любого языка - enca если только русский - http://rusxmms.sourceforge.net/

svyatogor ★★★★★
(28.09.05 23:51:31 MSK)

Ответ на: комментарий от svyatogor 28.09.05 23:51:31 MSK

Интересно было узнать именно про русский язык... А в двух словах можете сказать, в чем идея таких алгоритмов?

anonymous
(29.09.05 00:04:45 MSK)

Ответ на: комментарий от anonymous 29.09.05 00:04:45 MSK

В двух словах -- берётся какое-нибудь очень часто встречаемое характерное для языка символосочетание (например одиночные "и", "или", "для", "на" для русского) и проверяется его наличие в различных кодировках.
Но это один из способов.
Я, например, писал скрипт, который по словарю проверяет каждое слово:
http://linux.alhimia.ru/projects/bash-scripts/defenc/

unDEFER ★★★★★
(29.09.05 02:25:57 MSK)

Ссылка

Ответ на: комментарий от anonymous 29.09.05 00:04:45 MSK

Можно еще на основе достаточно большого текста составить таблицу встречаемости русских(или еще каких) букв и сверять с так-же составленной таблицей по определяемому тексту, так можно узнать какой бинарный код имеет та или иная буква и по этому определить кодировку.

Как и любой подход на основе статистики требует достаточно большого текста для удачного определения.

ЗЫ См. "Пляшущие человечки" - расказ по Шерлока Холмса - научно-популярно изложено.

guardian ★
(29.09.05 09:10:56 MSK)

Ответ на: комментарий от guardian 29.09.05 09:10:56 MSK

RusXMMS основан как раз на статистике, но большого текста как раз не требуется... Все русские кодировки довольно сильно различаются между собой и слова от 4х букв распознаются с 100% точностью. Я могу посоветовать просто посмотреть исходники LibRCD из проекта RusXMMS.sf.net.

Kain ★
(30.09.05 17:55:01 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← Что с selecter.vnet.ee?

Talks

offtopic →

Похожие темы