LINUX.ORG.RU

Переводим Debian на UTF-8


0

0

Что-то в последнее время много новостей про Debian ;) Вот ещё одна: Обновился до версии 0.3.8 документ под названием "Пошаговое руководство по переводу вашей инсталляции Debian на кодировку utf-8"(http://melkor.dnp.fmph.uniba.sk/~gara...). Среди изменений - добавления по-поводу "Midnight Commander". Забавно выглядит фраза "This text is valid for debian unstable (woody) distribution as of April 2003." :)

>>> Читать HOWTO

Переход на UTF-8 - это Самая Большая Ошибка. Ибо число проблем, которые он помогает решить, _меньше_ числа проблем, которые он вызывает.

anonymous
()
Ответ на: комментарий от anonymous

Да, проблем - есть. Но их надо решать, а не ждать пока их за нас решат. Переход на уникод неизбежен.

anonymous
()
Ответ на: комментарий от anonymous

На какой именно unicode? Utf-8, UTF-16, UCS-2, UCS-4? А может хрен с ним, юникодом, перейдем на COMPOUND TEXT? buzzword этот ваш юникод - никто не знает зачем он нужен, но все знают, что на него надо переходить.

anonymous
()
Ответ на: комментарий от anonymous

> никто не знает зачем он нужен, но все знают, что на него надо переходить.

Попробуй сделать сайт с поддержкой нескольких языков, поймешь. У меня сейчас есть такие грабли.

AlexKuklin

anonymous
()
Ответ на: комментарий от anonymous

Как твой сайт связан с моим десктопом? Mozillой? Так она умеет разные кодировки и без "перевода debian на utf-8".

anonymous
()
Ответ на: комментарий от anonymous

Ты глупый ? Мозилла сможет показать немецкие умлауты в документе кои-8 ? Арабскую вязь и иероглифы в cp1251 ? Повторюсь , в одном документе без клацанья по менюхам , смены кодировок броузера и так далее .. В UTF сможет . Что собственно и требуется .

На десктопе та же херня , вид с севера . Мне нужно в муте или гнусе суметь увидеть и напечатать в одном письме и немецкий текст с умлаутами и кириллицу не пиная каждый раз consolechars или емаксовские настройки. Вполне себе частая задача и именно для уникода . Впрочем емакс это отдельная песня .

Cannabinolus
()
Ответ на: комментарий от anonymous

дык нах разные кодировки! Столько зоопарка из-за них, запар как у юзверей так и у админов и программеров.
Уникод единственная правильная кодировка.. и переход на неё надо двигать.

anonymous
()
Ответ на: комментарий от anonymous

Это точно. Траблы нужно фиксить а не ругаться на них. Я вот уже кода три на юникоде в Debian sid живу и все время наблюдаю улучшения в этом плане. По крайней мере все современные десктопные приложения уже на gtk2 и qt3, что не может не радовать. Как-нибудь залью скриншот, у меня файлы на ФС в 4-х языках - русский, английский, французкский и японский. Рулз?

anonymous
()
Ответ на: комментарий от anonymous

Вы бы сначала разобрались что есть "utf-8, UTF-16, UCS-2, UCS-4" - может и вопрос бы отпал на "какой переходить"

anonymous
()

> Забавно выглядит фраза "This text is valid for debian unstable (woody) distribution as of April 2003." :)

А чего забавного -- UTF-8 уже черти сколько в Debian используется.

Dselect ★★★
()
Ответ на: комментарий от Dselect

Забавно то, что woody названа unstable ;) Насколько я помню она вполне себе была stable в апреле прошлого года. :)

aim1159 ★★★★★
() автор топика
Ответ на: комментарий от Dselect

Забавно выглядит вот эта фраза:
Midnight Commander in Debian does not support UTF-8. You can use the RedHat version from http://rpmfind.net/, download version for RawHide or Fedora.

Я-то надеялся, что они пофиксили то, что не сделал rh, уже качать приготовился, чтобы в fedora воткнуть... :)

jackill ★★★★★
()

Дурной пример заразителен - переход на UTF-8 желателен, но крайне затруднен наличием огромного зоопарка пакетов не ведающих о его существовании.

В самой статейке удручающе малый список UTF-8 ready пакетов (А куда деваться, если так оно и есть). В самом начале статьи стыдливо прокладывается путь к отступлению на родную 8859-1 8) И это переход на UTF-8 ?? Не позорились бы - RH уже перешла: появились статейки об откате на KOI8. Нетрудно предвидеть развитие событий. 8)

V0ID ★★★
()
Ответ на: комментарий от anonymous

Вы бы сначала разобрались что есть "utf-8, UTF-16, UCS-2, UCS-4" - может и вопрос бы отпал на "какой переходить"

Читай компьютерру или лазай в инете. Там черным по белому написано что выбирать нужно UTF-8. Если у тебя английский текст, на него будет аналогично и совместимо ANSII расходоваться один байт так что нет проблем в UFT-8 на английском жить всему софту. Ежели добавляется другой язык, количество байт под символ растет. Например для русского нужно два байта, для китайского ... посчитай сколько ;)

Ну а UFT-16 он тратит от 2-х байт, может где-нить или кому-нить это и нужно.

Lautre ★★★★★
()

utf-8 нужна очень малому числу людей -- тем, кто юзает более 2 языков одновременно. Для юзеров, которым нужен только русский и английский, utf-8 вообще ни к чему -- а таких 99,(9)% юзеров рунета, IMHO. Если вы юзаете utf-8, ваш текст весит в 2 раза больше (для русского) и обрабатывается в 8 раз дольше (текстовым редактором). Для чего такое щастье -- непонятно. Ну ладно -- эмигранты. Их можно понять. Нужен язык страны пребывания (для всего) + английский (иногда) + русский (для флейма на LOR). А остальным-то юзерам оно нафига? Может кто-нибудь объяснить внятно?

nobody ★★
()
Ответ на: комментарий от nobody

>Может кто-нибудь объяснить внятно?

Это на порядки упрощает программисту программировать всё что связанно с языком и локализацией. + ты не верно определил потребности юзеров - тем кому нужно больше, чем два языка, гораздо больше.

anonymous
()
Ответ на: комментарий от nobody

>utf-8 нужна очень малому числу людей -- тем, кто юзает более 2 языков >одновременно. Для юзеров, которым нужен только русский и английский, >utf-8 вообще ни к чему -- а таких 99,(9)% юзеров рунета, IMHO.

Не рунетом единым ... Даже для двух языков - применение, например, английского и японского или того же англ. и арабской вязи (в другую сторону написание), для простых кодировок сгенерит тебе стока проблем, что жить не захочется. Под виндой это уже пройденный этап (красивый пример - цитата в арабской вязи английского выражения при написании и редактированиее, без всяких костылей со стороны программиста - как будто самое обычное явление), очень хорошо, что Линух начал движение в ту же сторону, хотя и серьёзно отстаёт.

anonymous
()

А zsh можно заставить работать на UTF-8?

timon
()

Что-то там про X-ы маловато написанно.
У меня в xterm с русским все нормально.

Но вот со шрифтами:
В заголовках openbox'а квадратики.
А в Mozilla какой-то кривой шрифт, вроде и кирилица, но украиснких букв нет, и какой-то он разреженный сильно.

Какие шрифты нужно поставить, я имею ввиду apt-get install что?
Т.к. из Fedora с которой я мигрирую тянуть ручками не хочеться.

kka
()
Ответ на: комментарий от anonymous

> ты не верно определил потребности юзеров - тем кому нужно больше, чем два языка, гораздо больше.

Ок, статистики у меня нет, спорить не стану.

> Это на порядки упрощает программисту программировать всё что связанно с языком и локализацией.

А по-моему -- наоборот. Усложняет ввод текста от пользователя. Например, русская буква "ё" может быть представлена в юникоде как один символ "ё", а может как последовательность двух символов "е" + ".."(две точки близко друг к другу и являющиеся одним символом). И отображаться такой символ может как "ё", а может как "е" + ".." -- в зависимости от реализации. И что я должен в этом случае делать? Допустим, я могу методом эксперимента определить, как данная версия xfree86 отображает такой символ. Но кто мне даст гарантии, что другая реализация X работает также? Я вывожу текст, вывожу курсор и готов обрабатывать ввод пользователя. Курсор стоит под "ё", юзер нажимает "курсор_вправо". На сколько я должен переместить курсор? Если буква "ё" -- это один символ, значит на один символ вправо. Если два символа -- на два символа вправо. А кто мне скажет конкретно: на один или на два? Это зависит от реализации X сервера.

Допустим, я считал текстовый файл. Вывожу его юзеру. А в файле есть коды, недопустимые с точки зрения юникод. Что я должен делать в этом случае? Отображение таких кодов отдается на откуп реализации. Как конкретная реализация X их обрабатывает? Пропускает? Выводит квадратиками? Я же должен это знать, чтобы корректно обрабатывать пользовательский ввод. А я этого узнать не могу, поскольку стандарт не дает однозначного ответа на этот вопрос.

Если из стандарта будут выкинуты все неоднозначности, его поддержка лично у меня вопросов вызывать не будет, даже несмотря на ее сложность. Возможно, я невнимательно читал стандарт, и пропустил те места, где неоднозначности разъясняются?

nobody ★★
()
Ответ на: комментарий от anonymous

> Не рунетом единым ... Даже для двух языков - применение, например, английского и японского или того же англ. и арабской вязи (в другую сторону написание), для простых кодировок сгенерит тебе стока проблем, что жить не захочется.

Да, в случае японского, арабского и т.п. -- согласен. А как в том случае, если заранее известно, что юзать софт будут исключительно российские организации?

Лично для меня вопросы, связанные с юникодом, отнюдь не праздные. Встает вопрос поддержки юникода в разрабатываемом софте. Мне интересно, насколько это нужно. Потому что поддержка юникода автоматом означает неслабый геморрой. Пока что у меня ощущение, что оно того не стоит.

nobody ★★
()
Ответ на: комментарий от nobody

2nobody

доку читай и все жить станет проще

а юникод это будующие, даже винда это понимает.

и тянуть сейчас куда-либо не в сторону юникода - это значит создавать проблемы

anonymous
()
Ответ на: комментарий от nobody

Я под линухом тока на Java работаю, поэтому как там, чесно говоря не знаю. Но под Вынь у меня при работе с Уникодом ни каких проблем - есть куча библиотек, которые реализуют все фишки уникода, и я ни коим образом не замарачивают о букве ё и т.п. вопросах, а просто пишу код :), и нормально он будет работать(работает) на NT под любым языком (проверял той же арабской вязью). Даже в рунете - ведь есть те же Беларусы и Украинцы, которым нужно ещё свою кодировку добавлять к рус и анг. А, если вспомнить о миллионах русских програмерах в Германии и Израиле, то ... :)) Так что Уникод это хорошо и программистам и пользователям.

anonymous
()
Ответ на: комментарий от anonymous

UTF-8 does suck, UTF-16 does not. MS Windows NT has right one.

anonymous
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.