LINUX.ORG.RU
ФорумTalks

Требуется помощь советом

 


0

5

С использованием некоторой (видимо совсем кривой) софтины писался в течение некоторого времени табличный документ. Спустя дней 25-28 при сохранении полетела кодировка. Судя по всему. Автор сильно опечален, обратился за помощью. Пробежка по онлайновым сервисам подбора кодировки результата не дала.

Известно что Äì√º - образовалось на месте слова «проезд». Есть идеи?

★★★★

Последнее исправление: CYB3R (всего исправлений: 2)

Ответ на: комментарий от Xellos

Если в файле кроме собственно текста есть еще метаданные не в ASCII, то они могли и размер, и все форматирование сломать.

vurdalak ★★★★★
()
Ответ на: комментарий от vurdalak

Не, там csv, разделители запятые

iRunix ★★★★
() автор топика
Ответ на: комментарий от vurdalak

Ну тогда бесполезно. Перемножение текста в случайной перекодировке на случайный шум... Можно попробовать перемножать на выхлоп /dev/urandom до тех пор, пока миллион обезьян не напишут Шекспира.

Xellos ★★★★★
()
Ответ на: комментарий от AptGet

А потом это всё преобразовалось обратно в восьмибитную кодировку, только другую?

Xellos ★★★★★
()
Ответ на: комментарий от Xellos

А сколько бит в первом и во втором слове?

А управляющие символы, может тут умлаут над А это два символа (возврат каретки + кавчка)

Nicholass ★★★
()
Ответ на: комментарий от dismal_faun

Doubly-encoded to UTF-8 from ISO-8859-5

Попробовал. В ISO-8859-5 (Cyrillic) нету вроде таких символов. Да и не получился текст, увы

iRunix ★★★★
() автор топика
Ответ на: комментарий от Xellos

Да хз точно, что было в начале. Прога судя по всему таблицу переделывает в канонический csv

iRunix ★★★★
() автор топика

Боюсь, что все-таки кирдык... При смене cp1251 на ansi не меняется ни один символ... Кириллица похоже безвозвратно утеряна

iRunix ★★★★
() автор топика
Ответ на: комментарий от sin_a

Обучить пользователя сохранять копии. Пока он как раз морально готов.

Так это и есть сохраненный файл...

iRunix ★★★★
() автор топика
Ответ на: комментарий от iRunix

Обычно в таких случаях отсылают сам текстовый файл, а не копипастят. Дабы избежать дополнительных проблем.

Sadler ★★★
()
Ответ на: комментарий от Sadler

Сорри, 152-фз не позволяет. :-)

iRunix ★★★★
() автор топика
Ответ на: комментарий от iRunix

Известно что Äì√º - образовалось на месте слова «проезд». Есть идеи?

Откуда был копипаст сюда?

TextEdit, MacOSX.

В принципе сразу было понятно, что вы латентный извращенец.

Имелось ввиду, в какой кодировке вы открыли файл, чтобы скопировать его кусок сюда, и какая у вас дефолтная кодировка в системе?

soomrack ★★★★
()
Ответ на: комментарий от iRunix

А что там было хоть примерно? Меня ОЧЕНЬ смущают два-три одинаковых символа в начале КАЖДОГО слова. И слова слишком короткие все...

Xellos ★★★★★
()

Äì√º

Лучше hexdump'ом, а то мало ли, в каком виде оно хранится и представляется операционной системе, браузеру и серверу.

AITap ★★★★★
()
Ответ на: комментарий от Xellos

А что там было хоть примерно? Меня ОЧЕНЬ смущают два-три одинаковых символа в начале КАЖДОГО слова. И слова слишком короткие все...

Если верить ТС, то там все записи начинались со слова «проезд». Только причем тут ФЗ-152?

soomrack ★★★★
()

Если полностью оригинал скинуть нельзя, то может быть хексдамп какого-либо куска файла?

static_lab ★★★★★
()
Ответ на: комментарий от soomrack

Да нет, там похоже все записи начинались со слова «прое»...

Xellos ★★★★★
()
Ответ на: комментарий от iRunix

Пожалуйста, сделай, правда, hexdump, а то пока неизвестные науки бактерии могут быть пятнами на микроскопе.

proud_anon ★★★★★
()

Был похожий случай, но я точно знал какие там кодировки. Сначала сконвертил в одну и уже переконвертив полученное, получил сам текст. Помоему тут аналогично: кодировка в кодировке.

ViTeX ★★★★
()
Ответ на: комментарий от ViTeX

Первое что пробовал... Бесполезно. И да, многие куски одинаковые, такого точно быть не должно было...

iRunix ★★★★
() автор топика

Известно что Äì√º - образовалось на месте слова «проезд». Есть идеи?

Так копипастить бессмысленно, если редактор, в котором ты открыл текст, сам не знает какая именно там кодировка. Нужно открывать в HEX-редакторе и копипастить в шестнадцатеричном виде. Ну или в base64, например...

Deleted
()

По теме: ещё в бородатые 90-е годы была такая программка под винду, называлась «Штирлиц», для выковыривания текста после многих перекодировок. Есть ли аналог под линукс?

unC0Rr ★★★★★
()
Ответ на: комментарий от dismal_faun

Doubly-encoded to UTF-8 from ISO-8859-5

Это заключение обычно означает, что восстановить нельзя :3

Homura_Akemi
()
Ответ на: комментарий от CYB3R

всё для экономии места и создания лишнего геморроя

А. Ну-ну.

Xellos ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.