Русские буковки

0

1

Поможите, люди добрые!

В общем, нужно либо выделить из текстового файла все строки, содержащие русские буковки.

Либо определить, содержит ли строка русские буковки.

Последнее, в принципе, предпочтительнее.

А так же, может быть, кто-нибудь знает утилитки (ну или алгоритмы), умеющие переводить какое-нибудь «Ghjcnj ntrcn nfrjq rhbdjq» в нормальный русский текст?

Ссылка

← Зависает BeagleBone Black

У кого-нибудь Awesome v3.4.15 из Factory (OpenSUSE) работает? →

← 1 2 →

Ответ на: комментарий от emulek 12.02.14 09:45:07 MSK

Диапазоны зависят от локали!

И тут поведение grep зависит от того, как он был собран, --without-included-regex или --wth-included-regex.

С --with-included-regex всё работает правильно.

anarquista ★★★★★
(12.02.14 12:57:32 MSK)

Ответ на: комментарий от emulek 12.02.14 12:42:53 MSK

Что значит НЕСТАНДАРТНОЕ?

ru_RU.UTF-8 это стандартное для русского языка! Я русский!

anarquista ★★★★★
(12.02.14 13:02:13 MSK)

Ответ на: комментарий от bormant 12.02.14 12:56:07 MSK

$ echo Ghjcnj ntrcn nfrjq rhbdjq |\
sed 'y/QWERTYUIOP{}ASDFGHJKL:"ZXCVBNM<>qwertyuiop[]asdfghjkl;'"'"'zxcvbnm,./ЙЦУКЕНГШЩЗХЪФЫВАПРОЛДЖЭЯЧСМИТЬБЮйцукенгшщзхъфывапролджэячсмитьбю/'

Просто текст такой кривой

emulek ★
(12.02.14 13:04:59 MSK)

Ссылка

Ответ на: комментарий от anarquista 12.02.14 13:02:13 MSK

ru_RU.UTF-8 это стандартное для русского языка

4.2! Это в каком ГОСТе написано, что говно-юникод — стандарт? Что за бред?

~~Eddy_Em~~ ☆☆☆☆☆
(12.02.14 13:09:51 MSK)

Ссылка

Ответ на: комментарий от anarquista 12.02.14 12:57:32 MSK

Диапазоны зависят от локали!

я знаю. Что орёшь?

С --with-included-regex всё работает правильно.

у меня так и собрано, успокойся. Просто у меня LC_COLLATE=C, что-бы не ломать скрипты и что-бы быстрее работало.

emulek ★
(12.02.14 13:10:23 MSK)

Ответ на: комментарий от anarquista 12.02.14 13:02:13 MSK

Вот — стандарт! Я даже не знаю, используется ли он где-нибудь...

~~Eddy_Em~~ ☆☆☆☆☆
(12.02.14 13:12:07 MSK)

Ответ на: комментарий от anarquista 12.02.14 13:02:13 MSK

Что значит НЕСТАНДАРТНОЕ? ru_RU.UTF-8 это стандартное для русского языка! Я русский!

русофил что-ли?

А КАКОГО ХРЕНА У ТЕБЯ LC_COLLATE=ru_RU.UTF-8 БАСУРМАНСКИМИ ЗНАЧКАМИ НАПИСАНО???!!! ЧИТАЙ РОЗЕНТАЛЯ, И ИЩИ СЛОВО COLLATE!!!!111

emulek ★
(12.02.14 13:12:44 MSK)

Ссылка

Ответ на: комментарий от emulek 12.02.14 13:10:23 MSK

А в чем сакральный смысл делать LC_COLLATE=C?

~~Eddy_Em~~ ☆☆☆☆☆
(12.02.14 13:17:32 MSK)

Ответ на: комментарий от Eddy_Em 12.02.14 13:17:32 MSK

А в чем сакральный смысл делать LC_COLLATE=C?

как раз в том и смысл, что-бы буквы НЕ СОРТИРОВАТЬ. Это время отнимает, и ведёт к неожиданным глюкам. А без сортировки как ты узнаешь, что Ф лежит МЕЖДУ А-Я?

emulek ★
(12.02.14 13:22:43 MSK)

Ответ на: комментарий от Eddy_Em 12.02.14 13:12:07 MSK

Я даже не знаю, используется ли он где-нибудь...

В Искре 1030.11 в ПЗУ знакогенератора были зашиты 4 таблицы с возможностью переключения налету с клавиатуры или командой в порт, первой/основной была как раз гостовская.

А альтернативная кодировка, несмотря на разрыв в последовательности русских символов блоком символов псевдографики, прижилась из-за наличия в VGA режима с автоматической подсветкой 9-го пикселя как раз для указанного диапазона. Если же там расположить буковки, имеющие активной 8-ю точку, они получали уродливое утолщение справа на тот самый 9-й пиксель (речь о текстовых режимах).

bormant ★★★★★
(12.02.14 13:22:54 MSK)

Ссылка

Ответ на: комментарий от emulek 12.02.14 13:22:43 MSK

Ты ему предлагаешь его koi8-r не сортировать? И диапазоны разворачивать ручками?

anonymous
(12.02.14 13:39:47 MSK)

Ответ на: комментарий от anonymous 12.02.14 13:39:47 MSK

Ты ему предлагаешь его koi8-r не сортировать? И диапазоны разворачивать ручками?

а зачем их сортировать и разворачивать? Скрипт вроде этого работает правильно в любой кодировке, хоть utf, хоть кои. А для диапазона нужна информация, о том, КАКИЕ это байты, и ЧТО они означают.

emulek ★
(12.02.14 13:44:09 MSK)

Ответ на: комментарий от anarquista 12.02.14 12:57:32 MSK

С --with-included-regex всё работает правильно.

[incline]echo і | grep '[а-я]'? По-моему, это гвозди.

anonymous
(12.02.14 13:47:53 MSK)

Ответ на: комментарий от anonymous 12.02.14 13:39:47 MSK

диапазоны

Однозначное зло даже для латинницы. И непортабельны.

x3al ★★★★★
(12.02.14 13:51:07 MSK)

Ответ на: комментарий от emulek 12.02.14 13:44:09 MSK

работает правильно в любой кодировке

Конечно, правильно, он к раскладке прибит.

LC_COLLATE=C
о том, КАКИЕ это байты, и ЧТО они означают.

Сначала херим информацию, потом плачемся. Ну да с диапазонами подвохов много: нужно учесть кодировку, collation, для гнутого grep как подсказывают еще ?-included-regex.

anonymous
(12.02.14 13:55:33 MSK)

Ответ на: комментарий от x3al 12.02.14 13:51:07 MSK

Сначала рабочий вариант выкати (а еще лучше рецепт, как быстро его написать), бо твой вариант в общем случае не катит.

// для изначально проблемы да, строки с кириллицей, но без русских символов были бы странным входом

anonymous
(12.02.14 14:00:03 MSK)

Ответ на: комментарий от anonymous 12.02.14 13:55:33 MSK

работает правильно в любой кодировке
Конечно, правильно, он к раскладке прибит.

можно подумать, что [а-я] не прибит...

Сначала херим информацию, потом плачемся. Ну да с диапазонами подвохов много: нужно учесть кодировку, collation, для гнутого grep как подсказывают еще ?-included-regex.

я не понимаю твоего возмущения. Ты завидуешь, что в твоей говнооси это не работает?

emulek ★
(12.02.14 14:18:54 MSK)

Ответ на: комментарий от anonymous 12.02.14 13:47:53 MSK

echo і | grep '[а-я]'?

echo -n і | hexdump -C
d1 96

http://www.utf8-chartable.de/unicode-utf8-table.pl?start=1024
U+0456 і d1 96 CYRILLIC SMALL LETTER BYELORUSSIAN-UKRAINIAN I

echo -e "з\nи\nй\nк\nі" |sort
з
и
і
й
к

По порядку сортировки (COLLATE) она в диапазоне [а-я]. Что не так? Если нужен не диапазон, тогда и не надо его использовать, перечислив нужное руками.

bormant ★★★★★
(12.02.14 14:20:28 MSK)

Ответ на: комментарий от anonymous 12.02.14 14:00:03 MSK

Сначала рабочий вариант выкати (а еще лучше рецепт, как быстро его написать), бо твой вариант в общем случае не катит.

если именно кириллицу, то [абвгдеёжзиклмнопрстуфхцчшщьыъэюя]. Если просто букву, то \w (она ессно и с латиницей матчится, и с китайскими иероглифами тоже).

для изначально проблемы да, строки с кириллицей, но без русских символов были бы странным входом

почему?

emulek ★
(12.02.14 14:22:04 MSK)

Ответ на: комментарий от anonymous 12.02.14 13:47:53 MSK

echo і | grep '[а-я]'? По-моему, это гвозди.

что не так?

emulek ★
(12.02.14 14:26:02 MSK)

Ссылка

Ответ на: комментарий от bormant 12.02.14 14:20:28 MSK

Что не так?

Скромно напомню, что тема была про _русские буквы_, а не кириллицу.

перечислив нужное руками

С чего бы? Возьму халяльный plan9-ports, вспомню как символы идут в юникоде, что 0x400-0x4FF отображает «чотко», укажу COLLATE=C (для страховки, он все равно вряд ли умеет) и 9 grep '[ёа-я]'.

anonymous
(12.02.14 14:32:42 MSK)

Ответ на: комментарий от anonymous 12.02.14 14:32:42 MSK

что 0x400-0x4FF отображает

utf8 отображает

anonymous
(12.02.14 14:33:27 MSK)

Ответ на: комментарий от anonymous 12.02.14 14:33:27 MSK

utf8 отображает

Юникодные 0x400-0x4FF кодируются в utf8 как 0xd0 0x80 — 0xd3 0xbf.
utf8 — это лишь один из способов кодирования юникодных codepoints.

bormant ★★★★★
(12.02.14 14:39:25 MSK)

Ответ на: комментарий от emulek 12.02.14 14:22:04 MSK

если именно кириллицу, то [абвгдеёжзиклмнопрстуфхцчшщьыъэюя]

То есть надо каждый раз вводить? Стабильне^Wнадежненько, и окружение может быть неродным (то есть ru_letters.txt уже не подходит).

почему?

Если будет осмысленная строка, то вероятно будут и символы из русского алфавита => нужно подсвечивать. (В любом случае маловероятность такого входа ослабляет мой аргумент: рус ⊂ cyr , типа «уступка».)

anonymous
(12.02.14 14:41:11 MSK)

Ответ на: комментарий от bormant 12.02.14 14:39:25 MSK

Юникодные 0x400-0x4FF кодируются в utf8 как 0xd0 0x80 — 0xd3 0xbf.

Спасибо, знаю, и к чему вы это, батенька? Не отрицаю, что мой вариант предназначен для utf-8 локали.

anonymous
(12.02.14 14:42:48 MSK)

Ссылка

Ответ на: комментарий от emulek 12.02.14 14:18:54 MSK

можно подумать, что [а-я] не прибит...

utf-8 локаль, русский/кириллица: Для [а-я] могу перед gnu/grep без included-regex указать LC_COLLATE, или взять плановский. koi8-r: для кириллицы, как показал эдди - сойдет.

Ты завидуешь, что в твоей говно_оси_ это не работает?

В какой это, мистер мессинг?

anonymous
(12.02.14 14:50:07 MSK)

Ответ на: комментарий от anonymous 12.02.14 14:32:42 MSK

Скромно напомню, что тема была про _русские буквы_, а не кириллицу.

ну вот потому и не нужно использовать эти ваши диапазоны, потому-что они не всегда работают так, как ожидается.

emulek ★
(12.02.14 15:00:34 MSK)

Ссылка

Ответ на: комментарий от anonymous 12.02.14 14:41:11 MSK

То есть надо каждый раз вводить?

ну если тебе нужны только ЭТИ буквы, то да, ввести нужно. Если твой комп не умеет сохранять строки — да, каждый раз. Если ты идиот — да, это неизлечимо.

Стабильне^Wнадежненько, и окружение может быть неродным (то есть ru_letters.txt уже не подходит).

может быть всё что угодно.

Если будет осмысленная строка, то вероятно будут и символы из русского алфавита

ORLY?

emulek ★
(12.02.14 15:03:37 MSK)

Ответ на: комментарий от anonymous 12.02.14 14:50:07 MSK

Ты завидуешь, что в твоей говно_оси_ это не работает?
В какой это, мистер мессинг?

телепатия за дополнительную плату.

emulek ★
(12.02.14 15:04:44 MSK)

Ответ на: комментарий от emulek 12.02.14 15:03:37 MSK

ORLY?

Было сугубо субъективное мнение, впрочем, не откажусь от (не маловероятного) примера символов на 50.

anonymous
(12.02.14 15:05:36 MSK)

Ответ на: комментарий от emulek 12.02.14 15:04:44 MSK

телепатия за дополнительную плату

Значит, я тебе уже должен? Сумму долга и процент за несвоевременное погашение можно озвучить?

anonymous
(12.02.14 15:07:28 MSK)

Ответ на: комментарий от anonymous 12.02.14 15:05:36 MSK

Было сугубо субъективное мнение, впрочем, не откажусь от (не маловероятного) примера символов на 50.

ja tebe i bol'she mogu napisat', osobenno esli mojno citiroivat' (:

emulek ★
(12.02.14 15:10:13 MSK)

Ответ на: комментарий от anonymous 12.02.14 15:07:28 MSK

телепатия за дополнительную плату
Значит, я тебе уже должен?

увы...

Сумму долга и процент за несвоевременное погашение можно озвучить?

эта услуга бесплатная лишь при установке нашей libastral.so.

emulek ★
(12.02.14 15:11:33 MSK)

Ссылка

Ответ на: комментарий от emulek 12.02.14 15:10:13 MSK

Не-не-не, дэвид блейн, здесь была аппеляция к такому сообщению. Надо чтобы без «русских буковок», но перл выводил.

anonymous
(12.02.14 15:15:34 MSK)

Ответ на: комментарий от anonymous 12.02.14 15:15:34 MSK

ну это не моя идея была. Ни [а-я] ни хрень на перловке я не предлагал. Своё решение я изложил здесь. и отвечать буду только за него, а не за чужой говнокод. Там как заказывали — только русская кириллица.

emulek ★
(12.02.14 17:51:52 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 →

← Зависает BeagleBone Black

General

У кого-нибудь Awesome v3.4.15 из Factory (OpenSUSE) работает? →

Похожие темы