GNU grep 2.13

0

1

4 июля Джим Мейеринг сообщил о выходе очередной версии GNU grep. За десять недель разработки 4 программиста сделали 24 коммита, отмечает он.

Исправлено две ошибки появившиеся в версии 2.6:

grep -i в многобайтовых локалях теперь правильно выводит строки, содержащие буквы, чьё представление в верхнем и нижнем регистре занимает различное число байтов. Это, например, «и-с-точкой» в турецком языке. Прежние версии GNU grep могли либо пропустить часть строки, либо, наоборот, вывести мусор;
опции --include и --exclude теперь снова можно совмещать друг с другом. Так, «grep --include='*.[ch]' --exclude='system.h' PATTERN *» читает все файлы *.c и *.h, кроме system.h.

Новые особенности:

grep без опции -z теперь считает разреженные файлы бинарными, если можно легко определить, что файл действительно разреженный.

>>> Подробности

Ссылка

← Новая версия программы ДЭНСИ:КАССА

Опубликован roadmap RHEL7 →

← 1 2 3 4 →

Ответ на: комментарий от drull 06.07.12 18:27:38 MSK

Порядка трёх сотен. Какое правило в русском языке имеет такой же порядок исключений? :)

Binary ★★★★★
(06.07.12 18:36:48 MSK)

Ссылка

Ответ на: комментарий от Hertz 06.07.12 00:46:33 MSK

То ли дело кириллица/латиница − комбинирование символов в слова, всё просто и понятно. И изучать язык легче на много порядков. Проще читать, проще писать и печатать. Даже если не знаешь значения слова, то хотя бы можешь прочитать и запомнить его чтобы потом узнать что почём. Короче, сливает азиатчина...

Если б все писали иероглифы, то письменно все бы друг друга понимали. Кстати в повседневной жизни 4-5 тыщ иероглифов хватает вполне. Они достаточно логичные (по своему, по китайски). В словаре реально искать иероглиф, который видишь впервые.

Прикинь, что например амеры думают про кириллицу, особенно глядя на твою аватарку.

Esh ★★★★
(06.07.12 18:49:04 MSK)

Ответ на: комментарий от Binary 06.07.12 17:20:15 MSK

Правда? Где мне прочесть правила?

Я думаю buddhist имеет с виду, что там не все «от балды» а есть заметные закономерности.

Иначе говоря, правил типа «Ж и Ш пиши с буквой И» там нет, но зато эти «неправильности» понятны для людей, знакомых с историей языка.

P.S. К тому же, этих «неправильных» глаголов в английском довольно мало.

~~rtvd~~ ★★★★★
(06.07.12 19:07:20 MSK)

Ответ на: комментарий от Xintrea 06.07.12 17:03:45 MSK

Попробуй заменить через sed подстроку в текстовике гигов на 20, и увидишь что будет с памятью и свопом, если у тебя 4 гига оперативки.

У меня 8, но, что будет я хорошо знаю. :)
Ладно, sed это хорошо, а что про grep-то? У тебя есть двадцатигиговые файлы без единого /n?

imul ★★★★★
(06.07.12 19:59:20 MSK)

Ссылка

Ответ на: комментарий от Binary 06.07.12 17:20:15 MSK

В учебнике староанглийского? :)

buddhist ★★★★★
(06.07.12 21:11:01 MSK)

Ответ на: комментарий от drull 06.07.12 18:27:10 MSK

Сейчас — да.

buddhist ★★★★★
(06.07.12 21:11:08 MSK)

Ссылка

Ответ на: комментарий от Xintrea 06.07.12 17:03:45 MSK

Sed весь поток засасывает в память.

4.2.

Запусти:

for ((a=0;;a++)); do echo «sed is not stream editor»; done |sed s/^/4.2:/ >/dev/null

gena2x ★★★
(06.07.12 21:28:11 MSK)

Ответ на: комментарий от drull 06.07.12 14:36:02 MSK

славянские языки

зависимость смысла от порядка слов

Вот это как раз неверно, см. http://ru.wikipedia.org/wiki/Аналитический_язык

Sahas ★★★★☆
(06.07.12 21:48:17 MSK)

Ссылка

Ответ на: комментарий от Hertz 06.07.12 00:46:33 MSK

У японцев есть азбука, вощемто.

leiche ★★
(06.07.12 21:52:46 MSK)

Ссылка

Ответ на: комментарий от gena2x 06.07.12 21:28:11 MSK

Хм, походу действительно допилили. Раньше было просто нереально обработать файл, размер которого больше память+своп.

Xintrea ★★★★★
(06.07.12 22:14:51 MSK)

Ответ на: комментарий от Xintrea 06.07.12 22:14:51 MSK

Хм, походу действительно допилили. Раньше было просто нереально обработать файл, размер которого больше память+своп.

Ты вероятно просто пытался делать sed -i, или работать с файлами без перевода строк.

gena2x ★★★
(06.07.12 22:25:43 MSK)

Ответ на: комментарий от imul 06.07.12 14:55:47 MSK

Вот мы и приходим к идее создания искусственного языка с письменностью на основе образов, ведь наш мозг слова, мысли и понятия сохраняет в виде сложных образов. Если бы их можно было извлекать и записывать минуя наши стандартные каналы общения - общаться с машиной нам было бы гораздо легче. Правда «письменность» стала бы невероятно сложной, подходящей только для работы с машинными интерфейсами. На самом деле и подход китайцев к письменности, и подход европейцев - оба имеют свои плюсы и минусы. Нужна возможность обмениваться образами, на уровне которых работает мозг.

lucentcode ★★★★★
(06.07.12 23:27:03 MSK)

Ответ на: комментарий от overmind88 06.07.12 15:07:39 MSK

Да вьетнамцев привели в пример. А про различия в сложности китайского языка и вьетнамского не упомянули. Про то, что эта письменность общая для многих непохожих друг на друга диалектов - тоже. Убрать её - и китайцы перестанут понимать друг друга вообще:)

lucentcode ★★★★★
(06.07.12 23:30:31 MSK)

Ответ на: комментарий от lucentcode 06.07.12 23:27:03 MSK

Ой, не стоит, пожалуй образы прямо из мозга извлекать. Безопаснее как-нибудь по старинке, а то же побьют.

imul ★★★★★
(06.07.12 23:45:13 MSK)

Ссылка

Ответ на: комментарий от lucentcode 06.07.12 23:30:31 MSK

Да вьетнамцев привели в пример.

И что?

overmind88 ★★★★★
(07.07.12 00:01:24 MSK)

Ссылка

Ответ на: комментарий от buddhist 06.07.12 21:11:01 MSK

Например, здесь: http://www.study.ru/support/verb/

Люди даже поиск по вторым/третьим формам делают, чтобы проще в этом ориентироваться, а вы говорите мало!

Binary ★★★★★
(07.07.12 00:12:09 MSK)

Ссылка

Ответ на: комментарий от rtvd 06.07.12 19:07:20 MSK

Там не закономерности, там есть сходства. Но явного порядка нет. Когда начинаешь их учить, это понимаешь, и это ещё больше рвёт шаблон, что вот вроде идут похожие, а тут раз и вся закономерность к чертям.

Ну и правила, это всё же правила, безо всяких притянутых за уши «закономерностей». Насколько я понимаю, неправильные глаголы появились как упрощение частоиспользуемых глаголов. При таком порядке образования сложно надеятся, что они упростятся по каким-то там правилам.

ЗЫ. конечно же, всё сказанное имхо по собственному опыту изучения языка.

Binary ★★★★★
(07.07.12 00:15:00 MSK)

Ответ на: комментарий от lucentcode 06.07.12 23:27:03 MSK

Твоя аналогия на счёт низкоуровневого английского и высокоуровневого китайского некорректна. Высокоуровневый язык подразумевает возможность построения сложных абстракций из простых элементов. Правда ли, что каждый китайский иероглиф состоит из более простых слов, которые вместе по значению организуют сложное слово?

Тут скорее лучше другая аналогия: язык с иероглифами - CISC, с буквами - RISC.

unlog1c ★★★
(07.07.12 00:31:16 MSK)

Ответ на: комментарий от gena2x 06.07.12 22:25:43 MSK

sed -i

Он просто создает временный файл, но не держит все в памяти. На больших файлах его можно успеть увидеть.

YAR ★★★★★
(07.07.12 00:31:32 MSK)

Ссылка

Ответ на: комментарий от unlog1c 07.07.12 00:31:16 MSK

возможность построения сложных абстракций из простых элементов.

Есть такое.

каждый китайский иероглиф состоит из более простых слов, которые вместе по значению организуют сложное слово?

Не каждый. Но таких полно. Хотя бы тройки вроде 木林森. Вообще, зайди сюда и пощёлкай по случайным иероглифам, желательно тем, что выглядят достаточно брутально.

x3al ★★★★★
(07.07.12 01:02:31 MSK)

Ответ на: комментарий от Esh 06.07.12 18:49:04 MSK

Если б все писали иероглифы, то письменно все бы друг друга понимали.

<sarcasm>Как японцы китайцев.</sarcasm>

x3al ★★★★★
(07.07.12 01:10:02 MSK)

Ответ на: комментарий от leave 06.07.12 00:46:06 MSK

Объясните пожалуйста мне - программисту, в чем состоит облегчение?

A-234 ★★★★★
(07.07.12 10:19:14 MSK)

Ответ на: комментарий от x3al 07.07.12 01:02:31 MSK

Спасибо за информацию, познавательно.

Спрошу у вас, как предположительно человека осведомленного: какой основной способ набора иероглифов на клавиатуре? Нечто по типу автозамены, вроде набираешь несколько простых, бах по пробелу и они превращаются в один?

unlog1c ★★★
(07.07.12 11:50:47 MSK)

Ответ на: комментарий от unlog1c 07.07.12 11:50:47 MSK

Те, кто знают пиньинь, обычно юзают его. Особенно вантузятники, M$-пиньинь офигеннен, впрочем, поделки от байду и гугля тоже ничего. Работает так: набирается упрощённая транскрипция латинницей, всплывают варианты (по дефолту сами) конверсии, хоткеями выбираешь нужный, предсказание печати, все дела.

Среди тех, кто не знает или не хочет печатать пиньинем (популярно среди юзеров достаточно далёких от путунхуа языков) встречаются direct-han методы ввода. Иероглифы как правило определены однозначным сочетанием простых частей. Т.е. учишь раскладку некоторое время, потом можешь без автозамен писать сразу иероглифами, не думая об их путунхуа-чтении. Примеры: Cangjie тот же wubizixing. В IME часто реализуются свистелки вроде wildcard key и некоторого предсказания, но если очень хочется, то можно закостылить их через обычный xcompose, благо, сочетание клавиш однозначно определяет ханзи.

Плюс есть всякие извращения для юзеров мобильников типа wubihua, да и банальное рисование иероглифов с распознаванием (работает за счёт строго определённого порядка написания).

Были попытки сделать метод ввода с вводом сложных иероглифов через простые именно через те части, что выделяют этимологически, но они заглохли. Потому, что есть несколько иероглифов, фигово в это вписывающихся. Современные wubizixing и cangjie близки к этому, но разбивают ханзи на графические куски, выкидывая лишнее, а не на этимологические.

x3al ★★★★★
(07.07.12 13:27:01 MSK)
Последнее исправление: x3al 07.07.12 13:27:17 MSK (всего исправлений: 1)

Ответ на: комментарий от x3al 07.07.12 13:27:01 MSK

Спасибо и за этот ответ.

Впрочем, я спросил не просто так. Как вы считаете, если для того, чтобы набирать на «пиньинь» нужно знать транскрипцию латиницей, то целесообразно ли будет и уметь читать эту латинскую транскрипцию? И вообще пользоваться ею?

Не совсем правда понимаю, как эта транскрипция может быть универсальна, если вы сами (если я не ошибаюсь) сказали, что иероглифы помогают понимать друг друга через фонетические различия диалектов. Как в таком случае разговаривающие на разных диалектах могут знать единую транскрипцию?

unlog1c ★★★
(07.07.12 13:37:20 MSK)

Ответ на: комментарий от unlog1c 07.07.12 13:37:20 MSK

Так пиньинь же знают не все, отсюда и альтернативные методы набора. И при наборе даже не нужны тона (без которых тебя никто не поймёт).

При наборе транскрипции предложат выбор. Иногда из десятка вариантов. Даже с тонами омофонов овердофига, поэтому путём вьетнамцев носители путунхуа пойти не могут, даже если отбросить политические причины. С другой стороны, некоторые другие языки (кантонский, к примеру) можно латинизировать с тонной диакритики (6 тонов против 4 в путунхуа, следовательно, пиньине).

x3al ★★★★★
(07.07.12 13:43:20 MSK)

Ответ на: комментарий от x3al 07.07.12 13:43:20 MSK

Да уж, непростая ситуация.

А как например со скоростью набора? Соразмерно ли время набора на китайском (понимаю, что их много, предположим на «самом простом», если так можно выразиться) при самом эффективном методе с набором, скажем, на английском? Интересно и для двух профессиональных наборщиков, и для двух обычных пользователей.

unlog1c ★★★
(07.07.12 13:59:49 MSK)

Ответ на: комментарий от A-234 07.07.12 10:19:14 MSK

Нравится парсить UTF-8 руками?

leave ★★★★★
(07.07.12 14:11:55 MSK)

Ответ на: комментарий от unlog1c 07.07.12 13:59:49 MSK

Порядка 160 символов в минуту для wubizixing давно норма и 300 вполне ок для профессионала, но современные умные IME на пиньине на типичной речи спокойно обгоняют любителей (за счёт предсказания, такого в английском нет). Плюс китайские слова заметно короче, поэтому сравнивать только по скорости набора некорректно. Может, по числу бит в секунду...

Все цифры для упрощённого китайского, в традиционном всё сложнее.

x3al ★★★★★
(07.07.12 15:03:58 MSK)

Ответ на: комментарий от x3al 07.07.12 15:03:58 MSK

Плюс китайские слова заметно короче, поэтому сравнивать только по скорости набора некорректно. Может, по числу бит в секунду...

Я имел в виду не скорость набора отдельных символов, естественно. Скажем, два одинаковых текста на разных языках.

Но в целом картиная ясна. Благодарю за то, что не поленились ответить.

unlog1c ★★★
(07.07.12 15:54:02 MSK)

Ссылка

Ответ на: комментарий от unlog1c 07.07.12 00:31:16 MSK

Пожалуй, ваша аналогия точнее будет.

lucentcode ★★★★★
(07.07.12 16:06:37 MSK)

Ссылка

Ответ на: комментарий от leave 07.07.12 14:11:55 MSK

«Руками»? Ну что вы, библиотек полно. Единственный недостаток UTF-8 - переменная длина символа, что затрудняет прямой доступ, но такое в чистом виде редко надо. Обычно оперировать приходится с указателями на первое/последнее вхождение подстроки и т.п.

A-234 ★★★★★
(07.07.12 16:14:04 MSK)
Последнее исправление: A-234 07.07.12 16:18:32 MSK (всего исправлений: 1)

Ответ на: комментарий от Esh 06.07.12 18:49:04 MSK

В словаре реально искать иероглиф, который видишь впервые.

А кстати, а как они их сотрируют в словаре? Да еще и запоминают последовательность из 4-5 тысяч? Здорово, наверное, искать в в словаре неизвестный иероглиф на неизвестном месте...

~~AVL2~~ ★★★★★
(07.07.12 16:36:18 MSK)

Ответ на: комментарий от A-234 07.07.12 16:14:04 MSK

Единственный недостаток UTF-8 - переменная длина символа, что затрудняет прямой доступ,

А выделение памяти под строку в n-символов, замену символов в строке и вообще редактирование куска текста не затрудняет?

~~AVL2~~ ★★★★★
(07.07.12 16:39:01 MSK)

Ответ на: комментарий от AVL2 07.07.12 16:39:01 MSK

Кто-то оперирует утф-8 строками в памяти? Я думал её только для трансфера и хранения данных используют, а при работе перекодируют в кодировку с постоянной длиной.

Binary ★★★★★
(07.07.12 16:42:31 MSK)

Ответ на: комментарий от Binary 07.07.12 16:42:31 MSK

Кто-то оперирует утф-8 строками в памяти? Я думал её только для трансфера и хранения данных используют, а при работе перекодируют в кодировку с постоянной длиной.

что есть оверхед.

~~AVL2~~ ★★★★★
(07.07.12 16:44:46 MSK)

Ответ на: комментарий от AVL2 07.07.12 16:44:46 MSK

Да, но зато другие плюсы.

Binary ★★★★★
(07.07.12 16:53:02 MSK)

Ссылка

Ответ на: комментарий от AVL2 07.07.12 16:36:18 MSK

А кстати, а как они их сотрируют в словаре?

По алфавиту (пиньинь же), либо по числу черт.

Здорово, наверное, искать в в словаре неизвестный иероглиф на неизвестном месте

Есть несколько индексов для поиска; по ключу, 4угольный, по числу черт. Но с распространением электронных словарей оно не слишком нужно, в них хоть по рисунку можно искать.

x3al ★★★★★
(07.07.12 19:21:27 MSK)
Последнее исправление: x3al 07.07.12 19:22:24 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от Bagrov 06.07.12 04:57:59 MSK

«w» в латинском алфавите отсутствовал.

anonymous
(07.07.12 20:38:43 MSK)

Ответ на: комментарий от anonymous 07.07.12 20:38:43 MSK

«w» в латинском алфавите отсутствовал.

Поэтому я и написал через плюс. Если быть совсем точным, то в классической латыни не различались I и J, V и U. J и U - такие же заплатки к латинице, как и W.

~~Bagrov~~ ★★★★★
(07.07.12 23:09:20 MSK)

Ссылка

Ответ на: комментарий от AVL2 07.07.12 16:39:01 MSK

Замену, редактирование, поиск не затрудняет. Выделение памяти под n символов конечно становится уже невозможным, но вы ведь не удивляетесь тому, что смс на русском и английском языках имеют разное максимальное количествор символов. Тут дело скорее в подходе.

A-234 ★★★★★
(08.07.12 00:27:57 MSK)

Ответ на: комментарий от A-234 08.07.12 00:27:57 MSK

смс то причём тут? там в обоих вариантах кодировки с фиксированным к-вом байт на символ.

Binary ★★★★★
(08.07.12 00:29:39 MSK)

Ссылка

Ответ на: комментарий от A-234 08.07.12 00:27:57 MSK

Как это не затрудняет замену? Замени кириллическую букву на латинскую...

Binary ★★★★★
(08.07.12 00:30:30 MSK)

Ответ на: комментарий от Binary 07.07.12 00:15:00 MSK

Ну и правила, это всё же правила, безо всяких притянутых за уши «закономерностей». Насколько я понимаю, неправильные глаголы появились как упрощение частоиспользуемых глаголов. При таком порядке образования сложно надеятся, что они упростятся по каким-то там правилам.

Понимаешь неправильно.

Неправильные глаголы это глаголы, что пока еще не упрощены.

Упрощаются в первую очередь малоиспользуемые слова, т.к. человек слышит одну форму слова и потом пользуется словом, образуя другие формы по привычному шаблону. А частоиспользуемые слова упрощаются плохо, т.к. их каждый ребенок слышит с детства и легко запоминает все формы так, как их произносят окружающие.

Похожий эффект есть и в русском языке. В русском есть шесть падежей. Это вроде как правило. Но есть как минимум одно слово, где используется звательный падеж. Как ты думаешь, какое это слово и часто ли его используют? :-)

Что до того, что неправильные глаголы в английском изменяются по-разному, так это тоже тривиально. Британию завоёвывали много раз и привнесли слова разных языков вместе с правилами словообразования. Например, слово «королевский» на английском может быть «kingly», «royal» и «regal». Все варианты в принципе эквивалентны. Разница лишь в происхождении. «kingly» идет из германской группы, «royal» из французского а «regal» из латыни.

~~rtvd~~ ★★★★★
(08.07.12 00:46:24 MSK)

Ответ на: комментарий от leave 07.07.12 14:11:55 MSK

Нравится парсить UTF-8 руками?

Руками вообще-то никто ничего не парсит.

Что до сложности парсинга UTF-8 в принципе, у Вас есть заметно более простые альтернативы, да еще и без допольнительных проблем?

~~rtvd~~ ★★★★★
(08.07.12 00:49:22 MSK)

Ответ на: комментарий от rtvd 08.07.12 00:46:24 MSK

Я нифига не понял. По-вашему, неправильные глаголы редко используются?

Binary ★★★★★
(08.07.12 00:53:28 MSK)

Ответ на: комментарий от rtvd 08.07.12 00:46:24 MSK

А, кажется, вкурил. Ну да хоть так, хоть так, результат то один.

Binary ★★★★★
(08.07.12 00:55:13 MSK)

Ссылка

Ответ на: комментарий от x3al 07.07.12 01:10:02 MSK

<sarcasm>Как японцы китайцев.</sarcasm>

Мне один тайванец говорил что так и спасался в японии - писал на бумажке и его понимали. А на англ отвечать отказывались почему-то

Esh ★★★★
(08.07.12 08:36:30 MSK)

Ссылка

Ответ на: комментарий от AVL2 07.07.12 16:36:18 MSK

А кстати, а как они их сотрируют в словаре? Да еще и запоминают последовательность из 4-5 тысяч? Здорово, наверное, искать в в словаре неизвестный иероглиф на неизвестном месте...

Все иероглифы состоят из ключей, которых немного. По ним и ищут. Я уже подробности забыл (много лет прошло с универа).

Esh ★★★★
(08.07.12 08:37:31 MSK)

Ссылка

Ответ на: комментарий от Binary 08.07.12 00:30:30 MSK

смс то причём тут? там в обоих вариантах кодировки с фиксированным к-вом байт на символ.

Нет конечно, английских букв в два раза больше влезает и сообщение может содержать как те так и другие одновременно.

Замени кириллическую букву на латинскую...

Никакой принципиальной разницы между заменой «ы» на «S», и заменой «grep» на «sed» нету. Суть - замена одной последовательности на другую с возможным сдвигом, тут на кодировку вообще пофиг.

A-234 ★★★★★
(08.07.12 11:03:41 MSK)

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 3 4 →

← Новая версия программы ДЭНСИ:КАССА

GNU's Not Unix

Опубликован roadmap RHEL7 →

Похожие темы