Файловая система: Регистро-зависимая vs Регистро-независимая

Ответ на: комментарий от PeleWin 04.04.26 16:05:21 MSK

пробелы в названиях файлов используются постоянно

Всегда вместо пробелов использую символ подчеркивания. Ни разу не видел чтобы это хоть кому-то помешало. А вот помешавшие людям пробелы - видел неоднократно.

watchcat382 ★★
(05.04.26 14:07:24 MSK)

Ответ на: комментарий от firkax 04.04.26 21:28:12 MSK

ни у кого проблем нет. С национальными алфавитами - тоже

Вам прислали кучу файлов с именами на китайском с документацией на какую-нибудь китайскую электронику. Вы хотите сказать коллеге «открой файл … и посмотри в нем». Что бы будете произносить вместо трех точек если не знаете как эти иероглифы читаются? И эта проблема со всеми нелатинскими национальными алфавитами. Проблема у людей, а не у файловой системы. И именно для того чтобы ее людям не создавать - надо называть файлы латиницей.

watchcat382 ★★
(05.04.26 14:21:04 MSK)

Ответ на: комментарий от watchcat382 05.04.26 13:59:27 MSK

А теперь засуньте в имя файла например символ перевода строки (в линуксе такое возможно провернуть) и посмотрите сколько всего на таком файле заглючит.

Здравствуйте, есть ли у вас минутка поговорить о нашем господине и повелителе Бабашке?

ls -lh /tmp/lor
total 0
-rw-r--r-- 1 user users 0 Apr  5 13:03 '-example file with dash'
-rw-r--r-- 1 user users 0 Apr  5 13:05 '--example with  double dashes'
-rw-r--r-- 1 user users 0 Apr  5 13:06 'example with spaces,'$'\t''tabs and'$'\n''newlines'

user> (->> "/tmp/lor" fs/list-dir (map fs/file-name))
("-example file with dash"
 "example with spaces,\ttabs and\nnewlines"
 "--example with  double dashes")

(def files 
  (->> "/tmp/lor" fs/list-dir))

(spit (->> (last files) fs/file) "Привет, ЛОР!")

(slurp (->> (last files) fs/file))
"Привет, ЛОР!"

Правильные технологии отлично работают с файлами, имя которых включают пробелы, лидирующие дефисы, переводы строк и т.д. Если ваши скрипты так не умеют, ну, мне вас жаль и всё такое. Используйте хорошие технологии, а калечные не используйте.

Представьте что вам пришлют несколько файлов с именами из иероглифов.

Если там имена с иероглифами, значит там и содержание скорее всего такое же. Так что я либо умею работать с этим языком, либо те файлы для меня всё равно бесполезные.

Обратите внимание что в цивилизованном мире

Существование в лексиконе таких слов как «цивилизованный мир» свидетельствует о серьёзных когнитивных искажениях. Поберегитесь. Причём в «цивилизованном мире» могут за такое и срок впаять. А то и подослать боевиков Антифа потолковать о влиянии Данилевского на Тойнби и Шпенглера. Если штрафом с депортацией отделаетесь, считайте, повезло.

А некоторые страны вообще на латиницу переходят, например Казахстан.

… (политоту я убрал, а кроме политоты тут и нет ничего).

ugoday ★★★★★
(05.04.26 14:22:27 MSK)

Ответ на: комментарий от pasquale 04.04.26 04:08:56 MSK

Имя файла - это идентификатор

С какой это радости?

С необходимости однозначной идентификации человеком. Попробуйте назвать вслух имя файла если оно из иероглифов или арабской письменностью или любое другое нелатинское. Да и визуально перепутать иероглифы и открыть не тот файл - для некитайца очень легко.

А компьютеру - ему всё равно. Он мог бы и по номерам inode к файлам обращаться, осмысленные имена ему вообще не нужны, они - для людей. По той же причине адреса в международных почтовых отправлениях пишутся латиницей.

watchcat382 ★★
(05.04.26 14:27:06 MSK)

Ответ на: комментарий от ugoday 04.04.26 12:00:24 MSK

Где-то до сих пор пользуются транслитом?

Очень много где. Адреса в международной почте(посмотрите на посылки с Али), написание фамилий в загранпаспортах,водительских правах и прочих международных документах. Или менее известный пример - на каждом судне обязательно есть латинская транскрипция названия. У моря живу, регулярно это вижу. Даже на портовых буксирах которые по определению дальше своего порта никуда не ходят. На железной дороге даже на всяких платформах которые даже полноценными станциями не считаются - названия дублированы транслитом. Есть города где дублированы транслитом названия улиц на указателях, Выборг например.

watchcat382 ★★
(05.04.26 14:38:44 MSK)

Ответ на: комментарий от borisych 04.04.26 21:24:31 MSK

Использовать национальный алфавит в названиях файлов - вполне себе объективная потребность.

Скорее - объективное неудобство в мире где файлами обмениваются через сети. И создают это неудобство эгоисты. У себя на компе конечно можно называть файлы как угодно, хоть смайликами. Но вот посылать файлы с такими именами кому-то - это признак невежливости. К сожалению, у любителей национальных алфавитов иногда это случается и непроизвольно по причине визуального совпадения национальных и латинских букв. Некоторые еще и на одной кнопке исторически оказались, например «С» на русских клавиатурах. Провоцировать своими действиями глюки на компьютерах других людей - так себе поведение:(

watchcat382 ★★
(05.04.26 14:50:18 MSK)

Ответ на: комментарий от firkax 04.04.26 21:28:12 MSK

Со смайликами - ни у кого проблем нет.

Да они у большинства людей даже не отобразятся по команде ls по причине отсутствия в шрифте который используется в терминале, не говоря о том что большинство людей не знают как такое имя набрать если в каком-то месте невозможна автоподстановка.

регистронезависимость устраивать.

С регистронезависимостью сложнее. Потому что она не во всех письменностях также проста как в латинице и кириллице. Поэтому делать ее можно только в сочетании с жестким правилом использовать только латиницу в именах файлов. А на это не согласятся эгоисты которым «неудобно» и плевать они хотели на всех.

watchcat382 ★★
(05.04.26 14:56:01 MSK)

Ответ на: комментарий от ugoday 04.04.26 22:43:42 MSK

Я говорю об актуальных файловых системах.

FAT и ее разновидности - очень актуальная файловая система. Например флэшки ее используют много чаще чем какие-нибудь другие ФС. Загрузочные разделы на дисках тоже часто FAT.

watchcat382 ★★
(05.04.26 15:00:51 MSK)

Ответ на: комментарий от yars068 04.04.26 22:52:12 MSK

обработка Юникода усложнила файловые системы и сопутствующие им программы, но это шаг вперëд, а не назад.

Использование юникода внутри файлов там где он предусмотрен спецификацией формата - это шаг вперед. html как пример. А вот пихание юникода туда где отсутствует явное указание кодировки - это именно создание проблем. Например текстовые файлы исходников.

watchcat382 ★★
(05.04.26 15:05:11 MSK)

Ответ на: комментарий от watchcat382 05.04.26 14:38:44 MSK

А помимо имён и адресов? Для общения. Vot hochesh drujbana svojego pozvat’ piva vypit i pishesh jemu soobshenie translitom, potomu kak ne uveren, chto on smojet prochitat poslanie kirillicej. Четверть века назад такое было вполне распространенно.

ugoday ★★★★★
(05.04.26 15:05:56 MSK)

Ответ на: комментарий от watchcat382 05.04.26 15:00:51 MSK

Что-то вообще не припомню, чтоб на современной флешке было принудительное 8.3.

ugoday ★★★★★
(05.04.26 15:07:18 MSK)

Ответ на: комментарий от watchcat382 05.04.26 15:00:51 MSK

FAT и ее разновидности - очень актуальная файловая система.

FAT уже давным давно была расширена для поддержки длинных юникодных имён файлов и это поддерживается во всех актуальных системах.

X512 ★★★★★
(05.04.26 15:09:57 MSK)

Ответ на: комментарий от Radjah 04.04.26 23:11:50 MSK

А не надо русский текст в имена этих файлов пихать. Если уж вы упомянули формат doc то он поддерживает метаданные внутри себя, а микрософтовский офис умеет по ним искать. Вот туда русский такст и помещать. Эти же рассуждения применимы к большинству используемых сейчас форматов файлов (mp3,jpeg как примеры).

watchcat382 ★★
(05.04.26 15:09:59 MSK)

Ответ на: комментарий от watchcat382 05.04.26 15:09:59 MSK

Открою страшную тайну: многие люди не знают английский язык и не могут назвать файлы кроме как на русском языке.

У нас на работе большинство файлов документов с именами на японском языке.

X512 ★★★★★
(05.04.26 15:11:54 MSK)
Последнее исправление: X512 05.04.26 15:19:42 MSK (всего исправлений: 1)

Ответ на: комментарий от ugoday 04.04.26 23:16:52 MSK

И man find прочитать

А хотелось бы чтобы дополнительного чтения манов не требовалось. Оно и не требуется если сразу взять за правило называть файлы на латинице (и переименовывать в нее входящие если там не латиница). Избавляет от проблем. Придумалась аналогия - можно конечно привыкнуть перешагивать выбоины на дороге. Но удобнее один раз их заровнять и больше о них не задумываться. Вот нелатинские имена файлов - это такие же неудобства на которых внезапно спотыкаешься.

watchcat382 ★★
(05.04.26 15:17:44 MSK)

Ответ на: комментарий от watchcat382 05.04.26 15:09:59 MSK

Тут, эта, люди жалуются, чтоб Отпуск.doc и отпуск.txt одной командой найти, нужно целую лишню букву -iname vs -name писать. Проблема. Страдают.

Но при этом её можно решить. И довольно просто. А вот опции find, чтоб найти все варианты транслитерации фамилии Шостакович или Щекочихин-Крестовоздвиженский не предусмотрено. Даже Бабашка так не умеет!

ugoday ★★★★★
(05.04.26 15:19:32 MSK)

Ответ на: комментарий от watchcat382 05.04.26 15:17:44 MSK

Оно и не требуется если сразу взять за правило называть файлы на латинице

Алё. С регистрами латиницы и кириллицы find работает строго одинаково. Нужен регистронезависимый поиск — используй iname. Читайте маны. Они рулят.

ugoday ★★★★★
(05.04.26 15:22:10 MSK)

Ответ на: комментарий от kaldeon 04.04.26 23:31:41 MSK

Я делаю так:

find . -type f |grep -i отпуск

И это будет работать пока находясь в отпуске в другой стране вы не вставите флэшку с этими файлами в комп где не настроена русская локаль и поэтому система не знает как правильно игнорировать регистр для русских букв. Причем сообщения об ошибке не будет, просто файлы не будут найдены и вы подумаете что их нет.

grep тпуск

А это и есть «приседания». Обход проблемы, созданной использованием русских буквы в имени файла.

watchcat382 ★★
(05.04.26 15:23:02 MSK)

Ответ на: комментарий от firkax 04.04.26 23:31:43 MSK

снимаешь галочку с «учёт регистра»

Локалезависимо. А русской локали может и не быть. Или быть но не та к которой вы привыкли ибо русских кодировок больше одной.

watchcat382 ★★
(05.04.26 15:25:03 MSK)

Ответ на: комментарий от X512 05.04.26 15:11:54 MSK

До такой степени не знают, что даже латинскими буквами не могут назвать?

Два вопроса тогда: как они школу умудрились закончить и как они умудрились найти работу, требующую навыков работы с компьютером? Или речь о детях?

anonymous
(05.04.26 15:25:47 MSK)

Ответ на: комментарий от ugoday 04.04.26 23:35:17 MSK

find path -iname pattern.

Тоже зависит от установленной в этом сеансе локали. На чужом компе она может быть не той что на вашем.

watchcat382 ★★
(05.04.26 15:27:32 MSK)

Ответ на: комментарий от watchcat382 05.04.26 15:27:32 MSK

Например?

ugoday ★★★★★
(05.04.26 15:30:10 MSK)

Ответ на: комментарий от kaldeon 04.04.26 23:54:12 MSK

Я большой фанат «переноса имеющихся скиллов в новую задачу».

Аналогично. В том числе и поэтому мне нравится линукс - тут с этим существенно лучше чем в виндах.

есть даже термин, обозначающий это — analogical transfer.

Спасибо, не знал. Теперь знаю.

watchcat382 ★★
(05.04.26 15:30:10 MSK)

Ответ на: комментарий от Tigger 05.04.26 01:42:31 MSK

Секретаршу, ищущую регэкспами, хрен найдёшь.

Это недостаток не линукса, а системы образования. На курсах где готовят секретарей - надо обучать навыкам эффективного использования компьютеров если уж комп стал основным рабочим инструментом секретаря. Также как когда-то обучали эффективному использованию печатных машинок.

watchcat382 ★★
(05.04.26 15:34:23 MSK)

Ответ на: комментарий от anonymous 05.04.26 15:25:47 MSK

Давайте угадаю - вы никогда не были в Японии. Если бы были, таких вопросов не возникло бы.

VIT ★★
(05.04.26 15:44:06 MSK)

Ответ на: комментарий от anonymous 05.04.26 15:25:47 MSK

как они школу умудрились закончить

Там был французский и его уже давно забыли. Многие получившие образование в СССР английский язык вообще не знают.

и как они умудрились найти работу, требующую навыков работы с компьютером?

За компьютером не только программисты работают. Есть люди, которые пишут документы в Ворде и т.п.. Там всё переведено на русский и английский знать вообще не надо.

X512 ★★★★★
(05.04.26 15:44:35 MSK)

Ответ на: комментарий от kaldeon 05.04.26 11:10:34 MSK

Ссылка неоткр в РФ

У меня даже через tor не открылась.

watchcat382 ★★
(05.04.26 15:47:03 MSK)

Ответ на: комментарий от watchcat382 05.04.26 15:47:03 MSK

Там картинка, сидит куча людей в одной лодке и выплёвывают аргументы типа тех, что озвучиваются здесь в этой теме.

VIT ★★
(05.04.26 15:50:18 MSK)

Ответ на: комментарий от watchcat382 05.04.26 15:25:03 MSK

Очевидно, на моём компе есть те локали, которые мне нужны. А чужими и так и так пользоваться неудобно - на них либо неправильная ОС, либо неправильное DE, либо ещё что-то неправильное.

firkax ★★★★★
(05.04.26 15:53:14 MSK)

Ответ на: комментарий от ugoday 05.04.26 11:21:46 MSK

дурные большевики конечный ъ, ѣ и i отменили.

Эту реформу готовили еще до большевиков. Они только подписали распоряжение.

Вообще, я так думаю что это две разные проблемы - стандартизация актуального рабочего обмена данными (имен файлов как его части) и вопросы отображения всякого языкового легаси как живых так и мертвых национальных языков.

Некий «стандартный международный язык» УЖЕ формируется. Но это конечно процесс не быстрый. Я у моря живу и часто слушаю радиообмен между проходящими судами. Кого там только нет в смысле национальностей. Но все общаются на некотором упрощенном подмножестве языка на основе английского. Ну вот так сложилось что английский, а следовательно и латиница, стали основой международного общения. Кстати, в 19 веке на эту роль претендовал французский. Но потом утратил позиции.

watchcat382 ★★
(05.04.26 15:59:36 MSK)

Ответ на: комментарий от borisych 05.04.26 11:45:04 MSK

Поэтому у нас собственный национальный алфавит

Нет, кириллический алфавит был навязан славянам Кириллом и Мефодием, действовавшими в качестве иноагентов в целях распространения иностранной религиозной литературы. Была ли до того у славян истинно национальная письменность - вопрос сложный и однозначного ответа не имеющий. Вот собственная национальная религия - точно была.

https://ru.wikipedia.org/wiki/%D0%94%D0%BE%D1%85%D1%80%D0%B8%D1%81%D1%82%D0%B8%D0%B0%D0%BD%D1%81%D0%BA%D0%B0%D1%8F_%D0%BF%D0%B8%D1%81%D1%8C%D0%BC%D0%B5%D0%BD%D0%BD%D0%BE%D1%81%D1%82%D1%8C_%D1%83_%D1%81%D0%BB%D0%B0%D0%B2%D1%8F%D0%BD

watchcat382 ★★
(05.04.26 16:06:17 MSK)

Долго пытался вспомнить, что мне напоминает эти все рассуждения деградации до регистрозависимых ФС:

$ bcd "Hello LOR"
 ________________________________________________
/HELLO LOR                                       |
|]]                                              |
|  ]]] ]]]                                       |
|                                                |
|111111111111111111111111111111111111111111111111|
|222222222222222222222222222222222222222222222222|
|33]]33]33333333333333333333333333333333333333333|
|444444444444444444444444444444444444444444444444|
|5]5555555555555555555555555555555555555555555555|
|6666]66]6666666666666666666666666666666666666666|
|777777777777777777777777777777777777777777777777|
|]88888888888888888888888888888888888888888888888|
|99999999]999999999999999999999999999999999999999|
|________________________________________________|

AlexVR ★★★★★
(05.04.26 16:08:47 MSK)

Ответ на: комментарий от firkax 05.04.26 12:36:24 MSK

приняли за догму, что в ядре названия файлов - это байты, кто после этого должен пользователей защищать от ошибок?

Никаких ошибок это спровоцировать не может.

Еще как может. Современный пример - названия фишинговых сайтов, использующих визуальное сходство различных символов юникода. Даже во времена ДОСа совпадения начертаний части буквы кириллицы и латиницы периодически создавали проблемы. Но там хотябы можно было нарисовать шрифт где буквы пусть немного но отличались - потому что совпадений было не много. В юникоде же многие тысячи символов и научиться визуально отличать похожие обычный человек не может.

Еще пример проблем, созданных пиханием юникода туда где ему не место - в исходники софта: https://habr.com/ru/articles/835234/

watchcat382 ★★
(05.04.26 16:16:45 MSK)

Ответ на: комментарий от watchcat382 05.04.26 15:59:36 MSK

Эту реформу готовили еще до большевиков.

Не совсем так. Упрощенное правописание стояло на повестке дня у либеральной общественности, мол крестьянским детям сложно, давайте упростим. После того как такое упрощение было представлено, оно же было бурно отвергнуто обществом. И его убрали. Ну, мало ли каких проектов разных неудачных было. ГенШтаб вообще проекты войн со всеми странами иметь обязан.

Однако потом случилась февральская революция и тут уж не до эстетики и искусства. Даже чем хуже, тем луче, чем больше «старомыслы» плюются, тем сильнее размежевание со старым миром. Однако, упрощёнку ввели только для Министерства Народного Просвещения и только для учёбы. А вот потом уже пришли к власти большивики и устроили погром в правописании. Вплоть до того, что из`яли из типографий «царские» буквы и пришлось использовать апостроф вместо твёрдого знака. Ну, дуболомы, что возьмёшь.

А главное, после ста лет можно смело сказать, что изначальная идея провалилась. Широкие народные массы как песали бесграматна, так и продолжают. Интеллигентные люди как писали грамотно, так и продолжают. Никаких языковых проблем упрощёнка не решила.

Некий «стандартный международный язык» УЖЕ формируется.

The European Commission has just announced an agreement whereby English will be the official language of the EU rather than German, which was the other possibility. As part of the negotiations, Her Majesty’s Government has conceded that English spelling had some room for improvement and has accepted a five year phase-in plan to be known as «Euro-English»:

In the first year, «s» will replace the soft «c». Sertainly, this will make the sivil servants jump with joy. The hard «c» will also be dropped, in favour of the «k». This should klear up konfusion and keyboards kan have one less letter.

There will be growing publik enthusiasm in the sekond year when the troublesome «ph» will be replaced with «f». This will make words like «fotograf» 20% shorter.

In the third year, publik akseptanse of the new spelling kan be ekspekted to reach the stage where more komplikated changes are possible. Governments will enkorage the removal of double letters, which have always ben a deterent to akurate speling. Also, al wil agre that the horible mes of the silent "e"s in the language is disgraseful, and they should go away.

By the fourth year, peopl wil be reseptiv to steps such as replasing «th» with «z», and «w» with «v».

During ze fifz year, ze unesesary «o» kan be dropd from vords kontaining «ou», and similar changes vud of kors be aplid to ozer kombinations of leters.

After zis fifz yer, ve vil hav a reli sensibl riten styl. Zer vil be no mor trubl or difikultis and evri vun vil find it ezi to understand ech ozer. Ze drem vil finali kum tru! And zen ve vil tak over ze World.

ugoday ★★★★★
(05.04.26 16:20:44 MSK)

Ответ на: комментарий от watchcat382 05.04.26 14:27:06 MSK

осмысленные имена ему вообще не нужны, они - для людей.

Правильно. Поэтому файлы называются буквами, которые есть у людей на клавиатурах. Чем одни буквы хуже других - совершенно непонятно.

На нормальных компьютерах пробелы в именах файлов появились в 1977. Страдания пользователей мейнфреймов и оболочек, прибитых гвоздями к ADM-3 нормальных людей задевать не должны.

pasquale ★
(05.04.26 16:22:03 MSK)

Ответ на: комментарий от firkax 05.04.26 13:23:16 MSK

Смайл это всего лишь одна из юникодных букв, никаких особенных свойств у него нету.

Вообще-то есть. Букву можно прочитать. Среди смайлов же кроме более-менее очевидных типа улыбки есть такие которые хрен поймешь что означают и как называются. Также букву просто ввести с клавиатуры - достаточно иметь установленную раскладку где она есть. Ввести смайл - это обычно некий квест разного уровня сложности.

watchcat382 ★★
(05.04.26 16:22:30 MSK)

Ответ на: комментарий от ugoday 05.04.26 13:28:29 MSK

Если кому-то вдруг и нужно, чтобы файлы с похожими названиями (чего бы это ни значило) считались одними и теми же файлами, это тривиально реализуется на програмном урове над файловой системой.

Согласен. Но тут обсуждают не только регистрозависимость но и использование в именах файлов символов национальных алфавитов разной степени экзотичности. А вот это уже тянет за собой намного больше проблем чем регистрозависимость.

вся тема яйца выеденного не стоит.

Если бы не стоила - ее бы не обсуждали весьма регулярно (не только здесь). У юникогда есть свои границы применимости в которых он безусловно полезен. Но когда его начинают пихать всюду - вылезают случаи где он создает проблем больше чем приносит пользы. И имена файлов - одно из таких мест.

watchcat382 ★★
(05.04.26 16:27:18 MSK)

Ответ на: комментарий от X512 05.04.26 13:53:14 MSK

Так в языке 1С делают.

Согласен. Но применимость языка 1С ограничена одной глубоко проприетарной программой и одной страной. Это вполне допустимо. Существуют и другие узкоспециализированные языки. Я же говорил о универсальных общераспространенных языках типа Си.

Впрочем - бухгалтерские программы писали задолго до появления 1С, писали много и активно. Без русских букв в идентификаторах.

watchcat382 ★★
(05.04.26 16:32:48 MSK)

Ответ на: комментарий от ugoday 05.04.26 14:22:27 MSK

Правильные технологии отлично работают с файлами, имя которых включают пробелы, лидирующие дефисы, переводы строк и т.д. Если ваши скрипты так не умеют, ну, мне вас жаль

Проблема в том, что я пользуюсь скриптами(и прочим софтом), написанными не только мной, но и другими людьми. И не могу быть уверенным что там правильно обрабатываются всякие экзотические штуки в именах файлов. Более того, почти уверен что можно найти такое на чем спотнутся скрипты, написанные даже вами.

Если там имена с иероглифами, значит там и содержание скорее всего такое же. Так что я либо умею работать с этим языком, либо те файлы для меня всё равно бесполезные.

Например электронщики нередко используют даташиты на китайском. Потому что язык принципиальных схем универсален, а других источников информации по китайским железкам может и не быть вовсе.

Существование в лексиконе таких слов как «цивилизованный мир» свидетельствует о серьёзных когнитивных искажениях. Поберегитесь. Причём в «цивилизованном мире» могут за такое и срок впаять.

К счастью, я живу в не слишком цивилизованной стране поэтому могу использовать эти слова не опасаясь срока. А еще я могу негров неграми называть,а не афрославянами.

watchcat382 ★★
(05.04.26 16:54:25 MSK)

Ответ на: комментарий от ugoday 05.04.26 15:05:56 MSK

А зачем пихать транслит туда где он не нужен? Вот в адресах нужен - там и используется. Аналогично - зачем пихать юникод туда где от него проблем больше чем пользы? В исходники например.

watchcat382 ★★
(05.04.26 16:57:43 MSK)

Ответ на: комментарий от ugoday 05.04.26 15:07:18 MSK

Я не про 8.3, а про FAT. Который и длинные имена умеет уже давно.

Впрочем - я на грабли с именами на FAT наступал. Небольшие, но тем не менее. Как-то раз надо было скопировать кучку mp3 файлов с линуксовой машины на флэшку чтобы пихать ее в переносную «магнитолу» и во дворе слушать в процессе всякой хозяйственной деятельности. Запустил копирование, оно пообещало за полчаса управиться. Прихожу - а на экране запрос «перезаписать или пропустить». И естественно всё остановилось. Оказалось, что некоторые файлы, которые воспринимаются линуксом на ext4 как разные, при копировании на FAT пытаются перезаписать друг друга. Причем никаких русских букв не было. Но у скачанных файлов кое-где были странные имена - ну такие получились при скачивании,а я не доглядел. Пришлось озаботиться изучением вопроса, в процессе чего в дебиане нашлась программа detox, находящая файлы с потенциально проблемными именами. Не все к сожалению, что-то пришлось переименовывать руками.

watchcat382 ★★
(05.04.26 17:05:33 MSK)

Ответ на: комментарий от X512 05.04.26 15:09:57 MSK

FAT уже давным давно была расширена для поддержки длинных юникодных имён файлов

Чтобы не повторяться, взгляните на мое преидущее сообщение.

Также добавлю, что во всяких микроконтроллерных девайсах флэшка с FAT может быть, а вот поддержки длинных имен может и не быть. А уж поддержки русских букв в них - точно не будет. В лучшем случае крокозяблики покажет, в худшем пустое место. Просто за отсутствием русских глифов в встроенным шрифте. И хорошо еще если этот шрифт не в ПЗУ знакосинтезирующего индикатора прошит намертво.

watchcat382 ★★
(05.04.26 17:09:03 MSK)

Ответ на: комментарий от watchcat382 05.04.26 16:27:18 MSK

использование в именах файлов символов национальных алфавитов разной степени экзотичности.

Проблема в том, что люди возгордились и решили построить небоскрёб. Господь осерчал и теперь есть много народов со своими языками и алфавитами. Кто из них нормальный, а кто экзотичный (и не очень нужный, зря вообще существующий) — этот вопрос в разное время дебатировался в истории. Окончательное решение вопроса письменности справа-налево было довольно близко к разрешению в середине прошлого века, но не срослось, а там и методы такие вышли из моды. Так что теперь так.

У юникогда есть свои границы применимости

Юни — в слове «юникод» означает «универсальный», т.е. повсеместно используемый, такой, при наличии какового, любые другие кодировки более не нужны.

И имена файлов - одно из таких мест.

Вот мне радости больше нет, чтоб данные файла в одной кодировке, а методанные — в другой.

ugoday ★★★★★
(05.04.26 17:10:00 MSK)

Ответ на: комментарий от X512 05.04.26 15:11:54 MSK

многие люди не знают английский язык и не могут назвать файлы кроме как на русском языке.

Они могут назвать файл транслитом или каким-нибудь сокращением из латинских букв. А человекочитаемую информацию поместить в метаданные, которые даже формат doc поддерживает. И вот там уже писать по-русски.

на работе большинство файлов документов с именами на японском языке.

Это допустимо если не предполагается пересылать файлы туда где не знают японского. А это большая часть мира. И наоборот - большая часть мира знает если не английский то хотябы латиницу, в отличие от иероглифов.

watchcat382 ★★
(05.04.26 17:12:20 MSK)

Ответ на: комментарий от watchcat382 05.04.26 16:54:25 MSK

Проблема в том, что я пользуюсь скриптами(и прочим софтом), написанными не только мной, но и другими людьми.

Создавайте отчёты об ошибках, а лучше шлите исправления. Сделаем этот мир лучше! Иначе так в болоте говнокода и потонем.

Например электронщики нередко используют даташиты на китайском.

Ну, значит китайские иероглифы не являются для них проблемой.

ugoday ★★★★★
(05.04.26 17:12:46 MSK)

Ответ на: комментарий от watchcat382 05.04.26 16:57:43 MSK

А зачем пихать транслит туда где он не нужен

Убогие ограничения на имена файлов тоже не нужны. Но вы же пихаете.

Аналогично - зачем пихать юникод туда где от него проблем больше чем пользы? В исходники например.

Никаких проблем с этим нет.
Лучшей альтернативы тоже нет.

ugoday ★★★★★
(05.04.26 17:14:17 MSK)

Ответ на: комментарий от ugoday 05.04.26 15:19:32 MSK

А вот опции find, чтоб найти все варианты транслитерации фамилии Шостакович или Щекочихин-Крестовоздвиженский не предусмотрено.

Для таких случаев неплохо подходит алгоритм Левенштейна. Есть реализации и на Перле и на Питоне - можно искать ими. apt-cache search levenshtein выдает довольно много вариантов реализации.

watchcat382 ★★
(05.04.26 17:16:24 MSK)

Ответ на: комментарий от watchcat382 05.04.26 17:16:24 MSK

И эти люди запрещают мне ковыряться пальцем в носу!

ugoday ★★★★★
(05.04.26 17:17:52 MSK)

Ответ на: комментарий от ugoday 05.04.26 15:22:10 MSK

С регистрами латиницы и кириллицы find работает строго одинаково.

Это не совсем так. С латиницей он работает примерно всегда, а вот с кириллицей - только если установлена нужная локаль. Причем кириллических локалей больше одной.

watchcat382 ★★
(05.04.26 17:17:58 MSK)

Ответ на: комментарий от ugoday 05.04.26 15:30:10 MSK

Попробуйте заставить тот же find правильно игнорировать регистр русских букв без установленной русской локали - ничего внятного не получится. Хуже того, в зависимости от того какая локаль будет активна - могут получиться некорректные результаты при отсутствии каких-либо сообщений об ошибках.

watchcat382 ★★
(05.04.26 17:21:23 MSK)

Похожие темы