Неверное определение кодировки текста с помощью file

0

2

Приветствую.

Есть файл 'name.txt' с кириллицей:

file -i name.txt
name.txt: text/plain; charset=iso-8859-1

Выполняю:

iconv -f iso-8859-1 -t utf-8 -o name2.txt name.txt

-- получаю в файле «name2.txt' кодировку 'charset=utf-8' и ... нечитаемый русский текст.

Если выполняю:

iconv -f  windows-1251 -t utf-8 -o name2.txt name.txt

-- получаю в файле 'name2.txt' кодировку 'charset=utf-8' и всё хорошо.

Получается, команда 'file -i' неверно определяет кодировку файла? Или в чем дело?

Ссылка

← Печать не видя оригинал

Разделить конфиг прокси. →

https://linux.die.net/man/1/enca

Deleted
(04.04.19 09:58:17 MSK)

Эта утилита читает небольшую часть файла. Если файл начинается с латиницы, то до кириллицы оно может и не дочитать.

legolegs ★★★★★
(04.04.19 10:54:07 MSK)

Ссылка

Получается, команда 'file -i' неверно определяет кодировку файла? Или в чем дело?

Да. Это норма. Байты-то одни и те же, различается только их интерпретация. Вот, например, байт 0xD7 - это U+00D7 × MULTIPLICATION SIGN или U+0427 Ч CYRILLIC CAPITAL LETTER CHE? Ответить на этот вопрос в общем случае можно только неточно, используя распределение значений байт по частотам и предположения о языке, на котором написан текст.

anonymous
(04.04.19 11:42:32 MSK)

неверно определяет кодировку файла?

Для сложных случаев:

enca: Doubly-encoded to UTF-8 from ISO-8859-5

Deleted
(04.04.19 13:34:12 MSK)

Ссылка

Ответ на: комментарий от Deleted 04.04.19 09:58:17 MSK

Да, знаю, спасибо.

Но там тоже не все так просто )

Есть еще один текстовый файл (у меня их много))) 'namename.txt' и там:

enca -m namename.txt
unknown

Хотя:

enca -i namename.txt
MACCYRILLIC

Однако, если:

iconv -f  windows-1251 -t utf-8 namename.txt

То он в 'utf-8' и всё хорошо.

mexx ★
(04.04.19 19:52:10 MSK) автор топика

Ссылка

Ответ на: комментарий от anonymous 04.04.19 11:42:32 MSK

Байты-то одни и те же, различается только их интерпретация.

Разумно. Однако:

enca -m name.txt
windows-1251

То есть 'enca' то те же байты интепретирует верно.

mexx ★
(04.04.19 19:53:41 MSK) автор топика

Ссылка

-c

IPR ★★★★★
(05.04.19 08:46:16 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← Печать не видя оригинал

Admin

Разделить конфиг прокси. →

Похожие темы