Неужели браузеры такое говно?

0

1

Меня это уже изрядно ДОСТАЛО.

Окей, я, конечно, понимаю, что интеграция с «сервисами» это ооочень и ооочень нужно и круто, почти так же как штампование новых версий каждый месяц (ага, и такие же частые обновления), но блин... это же просто тупейший бред. (речь о firefox если чё, вебкит подобными вообще невозможно пользоваться)

Недавно залил себе txt файлик на веб сервер. С русскими буквами и UTF-8. Дал прямую ссылку другу, заодно сам решил проверить. Файл открывается, но я вижу кракозябры.

Что, простите? ЧТО, ПРОСТИТЕ, ЭТО ТАКОЕ?!

Я-то переключил на юникод, а друг не нашел. В итоге самым (!) простым способом прочитать всё это стало тупое добавление html тегов с meta charset в utf-8. Форматирование уехало. Окей. Юзаю тег <pre>. Строки улетели вправо. Чел, кому предназначался текст, сказал чтобы я больше не ругался, затем он скопировал текст из <pre> себе в блокнот. На этом история закончилась. 2015 год на дворе, автоопределение кодировки для лохов, я так понимаю, cp-1251 наше всё.

Теперь сегодня. Один сайтик закрылся. Причем навсегда. Решил юзнуть web.archive.com. А они обновили интерефейс! Который редиректит на его «презентацию» при нажатии на 50% ссылок самих архивов, даже если я у них выбрал «классический сайт». Пришлось гуглить «контроль редиректов». Перебрал несколько плагинов, потратил время на их настройку. 0 толку. Плюнул, юзнул

$ links2 http://needed.url

вуаля, то, что мне нужно.

Выдохнул. Теперь, скажи мне ЛОР:

1) Это нормально?
2) Я старпёр?
3) Я требую от современного софта/мира/etc. чего-то невменяемого?

Я вот в процессе изучения яп... Возникает желание таки серьезно взяться за вопрос этих ваших браузеров, которые просто ДРЯНЬ по всем параметрам. Параметры, если интересуетесь, могу сообщить. Благо, их немало.

Ссылка

← 12 часов в автобусе

Почему современные экранизации комисков выглядят как анимэ →

← 1 2 →

Настрой вебсервер чтоб в заголовках писал что ютф8.

PolarFox ★★★★★
(13.06.15 22:15:34 MSK)

Ответ на: комментарий от PolarFox 13.06.15 22:15:34 MSK

Ну свой-то веб сервер я настрою, а с другими что делать?

Перешел по file://path/to/file - аналогичная ситуация

reprimand ★★★★★
(13.06.15 22:20:51 MSK) автор топика
Последнее исправление: reprimand 13.06.15 22:24:14 MSK (всего исправлений: 1)

www уже довольно опухло.

~~rezedent12~~ ☆☆☆
(13.06.15 22:44:21 MSK)

Ссылка

Ответ на: комментарий от reprimand 13.06.15 22:20:51 MSK

Либо хидер, либо явное указание кодировки в хтмле.

PolarFox ★★★★★
(13.06.15 22:45:46 MSK)

Ответ на: комментарий от PolarFox 13.06.15 22:45:46 MSK

это понятно

а если txt файл? в примере с file:// так и было

reprimand ★★★★★
(13.06.15 22:46:56 MSK) автор топика

автоопределение кодировки

В 2015 сервер сообщает кодировку. Это нормально.

Deleted
(13.06.15 22:58:11 MSK)

Что тут можно сказать, учи ЯП, пили свой.

~~Unununij~~ ★★★★
(13.06.15 22:59:55 MSK)

Ссылка

Ответ на: комментарий от Deleted 13.06.15 22:58:11 MSK

В 2015 сервер сообщает кодировку. Это нормально.

а если кодировка не предопределена? что тогда?

reprimand ★★★★★
(13.06.15 22:59:56 MSK) автор топика

Ответ на: комментарий от reprimand 13.06.15 22:59:56 MSK

Тогда берется дефолтная, и она зависит от локали, насколько я знаю.

deep-purple ★★★★★
(13.06.15 23:02:14 MSK)

что насчет BOM?

~~rogerw~~ ★
(13.06.15 23:03:39 MSK)

Ответ на: комментарий от rogerw 13.06.15 23:03:39 MSK

Не влияет. Если сервер не сказал кодировку, то клиенту плевать, будет юзать дефолтную.

deep-purple ★★★★★
(13.06.15 23:05:31 MSK)

Ссылка

Ответ на: комментарий от Deleted 13.06.15 22:58:11 MSK

Не всегда. И в браузерах при отсутствии указания кодировки (если у тебя выставлена русская локаль) по умолчанию идёт как раз cp-1251. Это сделано давно по вине сами знаете какой компании и ленивых русских сайтостроителей.

Deleted
(13.06.15 23:06:10 MSK)

Ставь десяточку.

Deleted
(13.06.15 23:23:00 MSK)

Ссылка

Ответ на: комментарий от reprimand 13.06.15 22:59:56 MSK

Тогда ССЗБ. Есть ещё такая штука как секьюрити иссьюз UTF-8, поэтому… :)

Deleted
(13.06.15 23:31:41 MSK)

Ответ на: комментарий от Deleted 13.06.15 23:31:41 MSK

Хотя, вроде, с UTF-8 нет такой бороды как с https://encoding.spec.whatwg.org/#security-background хм… %)

Deleted
(13.06.15 23:41:59 MSK)

Ссылка

Ответ на: комментарий от reprimand 13.06.15 22:59:56 MSK

В 2015 сервер сообщает кодировку. Это нормально.
а если кодировка не предопределена?

В 2015-м всё переводи в UTF-8. И отдавай с соответствующим заголовком сервера. Это нормально.

...

(Вот уж сколько .txt отдавал, никогда проблем с кодировкой не было)

~~KRoN73~~ ★★★★★
(13.06.15 23:44:20 MSK)

Ссылка

Ответ на: комментарий от Deleted 13.06.15 23:06:10 MSK

Ну, это то да :)

Deleted
(13.06.15 23:45:57 MSK)

Ссылка

2015 год

автоопределение кодировки для лохов

Внезапно, уже давно как. До всех давно дошло, что автоопределить кодировку в общем случае невозможно, что плейнтекста не существует от слова вообще и что кодировку текста всегда надо прикладывать к тексту явно, в данном случае это — обязанность (не право) веб-сервера.

x3al ★★★★★
(13.06.15 23:48:03 MSK)

Ответ на: комментарий от rogerw 13.06.15 23:03:39 MSK

что насчет BOM?

Кто сказал, что файл юникодный? Сервер? В случае ТС он промолчал, что браузер вполне корректно интерпретировал.

А, да. BOM в UTF-8 — ересь. Надеюсь, не надо объяснять, почему.

x3al ★★★★★
(13.06.15 23:51:45 MSK)
Последнее исправление: x3al 13.06.15 23:52:41 MSK (всего исправлений: 1)

Ответ на: комментарий от x3al 13.06.15 23:51:45 MSK

Почему?

Harald ★★★★★
(13.06.15 23:54:42 MSK)

Ответ на: комментарий от Harald 13.06.15 23:54:42 MSK

Почему?

UTF-8 использует побайтовое кодирование, ей пофиг, в каком порядке укладываются в память машинные слова. Это для UTF-16 имеет смысл.

static_lab ★★★★★
(14.06.15 00:02:57 MSK)

Ответ на: комментарий от static_lab 14.06.15 00:02:57 MSK

оно ж как бы является в данном случае маркером, что «вот эта вот последовательность байтов есть текст в UTF-8»

Harald ★★★★★
(14.06.15 00:04:34 MSK)

Ответ на: комментарий от Harald 14.06.15 00:04:34 MSK

Этот маркер работает только если предположить, что текст в юникоде. А в этом случае всё очевидно и без маркера.

x3al ★★★★★
(14.06.15 00:31:32 MSK)

Ссылка

Если декодер от Лебедева определит верно кодировку, значит браузеры действительно такое г.

Да и вообще, лучше Opera <=12 не создали нормального браузера. Один сплошной вебкитошлак. Ни нормального дебаггера, ни нормальной верстки на сайтах, ибо -moz-/-webkit- теги расползлись по сети так, что никто по стандарту без всяких этих у***щных «хаков» ни один сайт не напишет. Это даже хуже, чем во времена IE6, тогда был один браузер, а сейчас уже 2 и каждый из них считает, что он замена ослика.

~~gh0stwizard~~ ★★★★★
(14.06.15 00:42:58 MSK)

Ответ на: комментарий от Harald 14.06.15 00:04:34 MSK

1) открой vim или практически любой другой текстовый редактор, который не пихает в файл того, что ты туда не писал

2) введи русский текст при локали ru_RU.UTF8

3) сохрани

4) ищи BOM хоть до старости

cvs-255 ★★★★★
(14.06.15 00:52:30 MSK)
Последнее исправление: cvs-255 14.06.15 00:53:07 MSK (всего исправлений: 1)

Ссылка

Недавно залил себе txt файлик на веб сервер. С русскими буквами и UTF-8. Дал прямую ссылку другу, заодно сам решил проверить. Файл открывается, но я вижу кракозябры.

И при чем тут браузер, если твой сервер, скорее всего, не говорит, что

Content-Type: text/html; charset=utf-8

А, да, в браузерах есть автоопределение. По крайней мере, когадя в это меню последний раз заглядывал, была.

http://wstaw.org/m/2015/06/14/enc_autodetect_chromium.png

invy ★★★★★
(14.06.15 01:06:20 MSK)
Последнее исправление: invy 14.06.15 01:15:11 MSK (всего исправлений: 2)

2) Я старпёр?

Это в двадцать с лишним лет? Дите еще.

andreyu ★★★★★
(14.06.15 01:16:42 MSK)

Ссылка

Ответ на: комментарий от Harald 13.06.15 23:54:42 MSK

Почему?

Потому, что BOM - это byte order mark. А на кой хер он нужен в utf-8?

andreyu ★★★★★
(14.06.15 01:19:09 MSK)

Ссылка

Ответ на: комментарий от gh0stwizard 14.06.15 00:42:58 MSK

Если декодер от Лебедева определит верно кодировку, значит браузеры действительно такое г.

Он как бы создан в предположении, что целевой текст на русском, а значит набор кодировок заранее ограничен. Отсюда и возможность подбора последовательности перекодирований.

static_lab ★★★★★
(14.06.15 01:59:01 MSK)

В Хроме переключается элементарно, Инструменты - Кодировка.

~~Den_Zurin~~
(14.06.15 03:26:01 MSK)

Ссылка

А вообще это сервер должен передавать кодировку. Типа так:

<?php
header("Content-Type: text/plain; charset=utf-8");
echo "Простой текст.";
?>

~~Den_Zurin~~
(14.06.15 03:30:29 MSK)

Ссылка

Ответ на: комментарий от invy 14.06.15 01:06:20 MSK

Content-Type: text/html

text/plain же.

~~h578b1bde~~ ★☆
(14.06.15 03:46:40 MSK)

Ссылка

В треде определённо не хватает ~~Eddy_Em~~.

~~StReLoK~~ ☆☆
(14.06.15 09:33:22 MSK)

Ссылка

1) Это нормально?

Да.

2) Я старпёр?

Тебе виднее. Возможно, это маразм.

3) Я требую от современного софта/мира/etc. чего-то невменяемого?

Да.

Для кодировки надо было просто нормально настроить apache, nginx, или что там у тебя вместо сервера. Да и вообще надо было другу взять да сразу написать «wget url/filename.txt», зачем открывать в браузере и копировать в текстовый редактор, потом сохранять? Пляски вокруг костра какие-то. А так он бы сразу скачался в том виде, в каком есть.

Вторая проблема — вообще косяки реализации конкретного сайта, а не косяки браузера.

~~Psych218~~ ★★★★★
(14.06.15 09:43:45 MSK)

Ответ на: комментарий от static_lab 14.06.15 01:59:01 MSK

Он как бы создан в предположении, что целевой текст на русском, а значит набор кодировок заранее ограничен.

Безгранична только лень разработчиков. Масса способов узнать какой язык предпочтителен пользователю. Конец сообщения.

~~gh0stwizard~~ ★★★★★
(14.06.15 10:20:47 MSK)

Ссылка

Ответ на: комментарий от x3al 13.06.15 23:48:03 MSK

Внезапно, уже давно как. До всех давно дошло, что автоопределить кодировку в общем случае невозможно

самый простой алгоритм - сравнивать с системной locale. И если кодировка отличается - не тыкать пальцем в небо. В 90% получится то, что требуется.

плейнтекста не существует от слова вообще и что кодировку текста всегда надо прикладывать к тексту явно

ага, это я уже понял, что в этом вашем вебе плейнтекст - непозволительная роскошь. Но когда я просто сохраню файл на флешку и отнесу другу, текстовые редакторы обычно МОГУТ себе позволить детект кодировки.

Pluma (gedit):
http://i.imgur.com/XivhVC7.png

reprimand ★★★★★
(14.06.15 10:45:33 MSK) автор топика

Ответ на: комментарий от invy 14.06.15 01:06:20 MSK

А, да, в браузерах есть автоопределение.

не всегда корректно работает. Посмотрел алгоритм в хромиуме - примитивнейший до ужаса

reprimand ★★★★★
(14.06.15 10:53:18 MSK) автор топика

Ссылка

Ответ на: комментарий от Psych218 14.06.15 09:43:45 MSK

надо было другу взять да сразу написать «wget url/filename.txt»

он вендоузятник. От одного подобного предложения он посчитает, что я неадекват.

косяки реализации конкретного сайта

у меня на сайте всё отлично. Но ты забыл, что

file.txt

reprimand ★★★★★
(14.06.15 10:55:31 MSK) автор топика

Ссылка

Ответ на: комментарий от reprimand 14.06.15 10:45:33 MSK

сравнивать с системной locale

wat, как моя koi8r тут участвует вообще?

детект кодировки

ну вот кстати только кеды умеют угадывать кодировку почти во всех случаях, в чём секрет? наверняка эта операция весьма ресурсоёмкая.

wakuwaku ★★★★
(14.06.15 10:56:27 MSK)

1) Это нормально?

Нет, но да.

2) Я старпёр?

Да, но нет.

3) Я требую от современного софта/мира/etc. чего-то невменяемого?

Чего-то вменяемого вместо веба? Да.

t184256 ★★★★★
(14.06.15 10:57:59 MSK)

Ссылка

Ответ на: комментарий от wakuwaku 14.06.15 10:56:27 MSK

наверняка эта операция весьма ресурсоёмкая

[продумал в голове алгоритм]
не думаю, что она НАСТОЛЬКО ресурсоёмкая

reprimand ★★★★★
(14.06.15 10:58:47 MSK) автор топика

кстати, что интересно, никто не сказал что он думает о самопроизвольных редиректах

ибо они меня намного больше беспокоят чем какие-то кракозябры

reprimand ★★★★★
(14.06.15 11:00:05 MSK) автор топика

Ответ на: комментарий от reprimand 14.06.15 10:58:47 MSK

ну во всяком случае, когда я добавил детектирование кодировки в свой парсер, 99% времени (привет, icu) стало уходить на угадывание (низкокачественное), 1% собственно на лексический анализ.

wakuwaku ★★★★
(14.06.15 11:02:09 MSK)
Последнее исправление: wakuwaku 14.06.15 11:02:30 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от reprimand 14.06.15 10:45:33 MSK

И если кодировка отличается - не тыкать пальцем в небо.

Ты предлагаешь тыкать пальцем в небо, не я. Я ж не предлагаю определять кодировку эвристикой.

Due to the unreliability of heuristic detection, it is better to properly label datasets with the correct encoding. HTML documents served across the web by HTTP should have their encoding stated out-of-band using the Content-Type: header.

Нельзя поощрять говноадминов, не осиливших настроить отдачу кодировки на сервере.

x3al ★★★★★
(14.06.15 11:48:22 MSK)

Ссылка

Ответ на: комментарий от reprimand 14.06.15 11:00:05 MSK

Если веб-мастер хочет сделать редирект — у него обычно есть причина делать это. Думаешь, что умнее его — докажи.

x3al ★★★★★
(14.06.15 11:51:51 MSK)

Браузеры катятся в то самое... Накатил свежую версию FF - перестали открываться морды всяческих железок, биллингов и прочих необходимых по работе вещей. Думал спасусь старым добрым Seamonkey - вот он дал мне спастись (ладонь поперёк локтя, выставленный вперёд кулак), видимо этот же уродский движок перенесли и в креветку. Ну и куда лису с креветкой теперь? На дваче сидеть тока? Приходится работать в богомерзком хроме.

yu-boot ★★★★★
(14.06.15 15:04:52 MSK)

Ссылка

Ответ на: комментарий от x3al 14.06.15 11:51:51 MSK

Если веб-мастер хочет сделать редирект — у него обычно есть причина делать это

да, есть причина
например та, что вебмастер - мудак

Думаешь, что умнее его — докажи

думаешь что я тупее его? докажи

reprimand ★★★★★
(14.06.15 15:33:59 MSK) автор топика

Ссылка

Ответ на: комментарий от reprimand 13.06.15 22:46:56 MSK

а если txt файл? в примере с file:// так и было

Значит поставь дистр нормальный.

upd: Fedora 22 этим грешит. Так что да, ты прав и девелоперы дибилы

Siado ★★★★★
(14.06.15 22:52:44 MSK)
Последнее исправление: Siado 14.06.15 22:54:28 MSK (всего исправлений: 2)

Ссылка

Ответ на: комментарий от deep-purple 13.06.15 23:02:14 MSK

Тогда берется дефолтная, и она зависит от локали, насколько я знаю.

Хреново знаешь. Если накидать какой-нибудь простенький хтмл-файл с текстом на русском и открыть его лисой, то при отсутствии явного указания UTF-8 в meta charset с далеко ненулевой вероятностью ты увидишь кракозябры. Потому что оно непонятно с какого хрена попытается прочитать его как cp1251. Локаль в системе, естественно, юникод.

~~Valkeru~~ ★★★★
(14.06.15 23:06:34 MSK)

Ссылка

Внезапно стандарт на HTML, п. 12.2.2.2 определяет последовательность действий для определения кодировки:

юзер явно указал требуемую кодировку для страницы или фрейма;
браузер получает порцию данных для определения кодировки;
проверяются BOM-маркеры;
проверяется HTTP-заголовок Content-Type;
проверяется наличие meta-тегов, указывающих кодировку;
проверяется кодировка родительского документа;
проверяется кеш для данного документа;
браузеру предлагается автодетектировать кодировку, однако для документов из сети это не рекомендуется;
кодировка документа для контролируемых окружений предлагается UTF-8, в общих случаях — по текущей локали; для башкирской, белорусской, болгарской, казахской, киргизской, македонской, русской, таджикской, татарской, украинской, якутской локалей это Windows-1251.

static_lab ★★★★★
(15.06.15 00:49:32 MSK)