оставить только уникальные URL

cut -d \| -f 6 | sort -u

lazyklimm ★★★★★
(09.01.13 17:56:32 MSK)

Ссылка

Нужно всего-то как у Микелианжело «отсечь всё лишнее» - оставить только уникальные URL

Тебе нужны только URL? Если нет, то в случае одинаковых URL какое из описаний оставлять?

Если да, то

awk -F'|' '{print $6}' file | sort | uniq

derlafff ★★★★★
(09.01.13 18:06:45 MSK)

обработка большого текстового файла.

насколько большого?

q11q11 ★★★★★
(09.01.13 18:46:24 MSK)

Ответ на: комментарий от derlafff 09.01.13 18:06:45 MSK

Приношу извинения...

Мне нужны строки с уникальными URL, а не сами URL (такую выборку я могу и сам организовать опираясь на минимум утилит).

zzdnx ★★
(10.01.13 09:57:58 MSK) автор топика

Ответ на: Приношу извинения... от zzdnx 10.01.13 09:57:58 MSK

строки с уникальными URL

и какой критерий выбора предлагает мусьё?

lazyklimm ★★★★★
(10.01.13 09:59:05 MSK)

Ответ на: комментарий от q11q11 09.01.13 18:46:24 MSK

насколько большого?

Метров 400 или даже более того. Формат документа - открытый текст.

zzdnx ★★
(10.01.13 09:59:46 MSK) автор топика

Ответ на: комментарий от lazyklimm 10.01.13 09:59:05 MSK

формат строки: «||*|||URL»

Так что нужен парсер выделяющий последний элемент строки (всё, что осталось за последним символом «|») и опирается на его уникальность для сбора нового документа (в котором все ссылки будут уникальными). Сортировка не нужна и даже больше того - её желательно избежать.

zzdnx ★★
(10.01.13 10:03:31 MSK) автор топика
Последнее исправление: zzdnx 10.01.13 10:04:14 MSK (всего исправлений: 1)

Ответ на: формат строки: «*|*|*|*|*|URL» от zzdnx 10.01.13 10:03:31 MSK

Предлагаю использовать AWK

awk 'BEGIN { FS = «|»}; {if (!($NF in a)) {print; a[$NF] = 0;}}'

anarquista ★★★★★
(10.01.13 10:58:45 MSK)

Ссылка

Ответ на: формат строки: «*|*|*|*|*|URL» от zzdnx 10.01.13 10:03:31 MSK

все ссылки будут уникальными

а остальные поля?

lazyklimm ★★★★★
(10.01.13 11:09:18 MSK)

Ссылка

и вообще, возьми уже нормальный браузер

lazyklimm ★★★★★
(10.01.13 11:09:40 MSK)

Ответ на: формат строки: «*|*|*|*|*|URL» от zzdnx 10.01.13 10:03:31 MSK

1) 'cat -n' для нумерации.
2) sort -t '|' -u -k 6
3) sort без параметров восстановит первоначальный порядок.
4) sed 's/^ *[0-9]*//' - удаляешь номера.
всё это в pipe.

ABW ★★★★★
(10.01.13 11:23:38 MSK)

Ответ на: комментарий от lazyklimm 10.01.13 11:09:40 MSK

а остальные поля?

а остальные поля?

Они не важны. Главное - убрать строки с уже имеющимися URL.

и вообще, возьми уже нормальный браузер

Чем Вам не нравится мой текущий браузер? Не нармальный браузер? - Тогда какой из них НОРМАЛЬНЫЙ? о_О

zzdnx ★★
(10.01.13 11:43:25 MSK) автор топика

Ответ на: комментарий от ABW 10.01.13 11:23:38 MSK

Как я понимаю: пронумеровать строки, сортировать по последнему полю, потом сортировать по «заголовку» (номера строк), и в конце очиска - удаление нумерации. Много действий... Но лучшего варианта пока не предложено.

zzdnx ★★
(10.01.13 11:47:12 MSK) автор топика

Ссылка

Ответ на: а остальные поля? от zzdnx 10.01.13 11:43:25 MSK

Они не важны. Главное - убрать строки с уже имеющимися URL.

есть две строки с одним URL, но различающимися полями. Какую брать? Если любую - то получается, что остальные поля не важны, если не любую - то как определить, какую оставить?

Чем Вам не нравится мой текущий браузер?

Ну, я так понимаю ты для него костылишь?

lazyklimm ★★★★★
(10.01.13 11:48:58 MSK)

Ответ на: комментарий от lazyklimm 10.01.13 11:48:58 MSK

ты для него костылишь?

нет. Не для браузера, а для самодельного бота-паучка, который вытаскивает только то что мне нужно из сети.

есть две строки с одним URL, но различающимися полями. Какую брать?

Оставить первую, а вторую-третью-n`ную - удалить за дубликатность URL.

zzdnx ★★
(10.01.13 12:07:40 MSK) автор топика

Ответ на: комментарий от zzdnx 10.01.13 12:07:40 MSK

Не для браузера, а для самодельного бота-паучка, который вытаскивает только то что мне нужно из сети.

запихивай в базу, вытаскивай запросом

Оставить первую, а вторую-третью-n`ную - удалить за дубликатность URL.

а почему именно первую?

lazyklimm ★★★★★
(10.01.13 12:20:02 MSK)

nawk -F'|' '{print $6}' | sort -u

anonymous
(10.01.13 12:24:05 MSK)

Ссылка

Ответ на: комментарий от derlafff 09.01.13 18:06:45 MSK

Уважаемые, вы так аккуратно использовали sort и uniq (вместо sort -u), но, видимо, не знаете, что оригинальный awk не понимает -F. Либо nawk либо gawk.

anonymous
(10.01.13 12:26:09 MSK)

Ответ на: комментарий от lazyklimm 10.01.13 12:20:02 MSK

запихивай в базу, вытаскивай запросом

Для меня это пока сложно и не понятно в реализации. Я и примитивную БД создать не могу, не то чтобы запросом из неё нечто вытягивать из cli в текстовый документ.

а почему именно первую?

Особой причины такого выбора нет. Думаю что при обработке sed/awk оставить её будет проще всего.

zzdnx ★★
(10.01.13 12:27:26 MSK) автор топика

Ответ на: комментарий от anonymous 10.01.13 12:26:09 MSK

оригинальный awk не понимает -F

а кто-то его использует?

lazyklimm ★★★★★
(10.01.13 12:30:34 MSK)

Ссылка

Ответ на: комментарий от zzdnx 10.01.13 12:27:26 MSK

ну можно и в лоб

cut -d \| -f 6 /tmp/shit | sort -u | while read url
do                                     
   grep -m 1 $url /tmp/shit               
done

lazyklimm ★★★★★
(10.01.13 12:49:48 MSK)

Ответ на: ну можно и в лоб от lazyklimm 10.01.13 12:49:48 MSK

«cut -d \| -f Х» оставит только URL`ы (обрежет все предшествующие поля до искомого поля Х), а мне нужны только ссылки, мне нужны строки с уникальными URL в окончании.

zzdnx ★★
(10.01.13 13:14:17 MSK) автор топика
Последнее исправление: zzdnx 10.01.13 13:14:38 MSK (всего исправлений: 1)

Ответ на: комментарий от zzdnx 10.01.13 13:14:17 MSK

grep -m 1 $url /tmp/shit

там по-твоему зачеМ?

lazyklimm ★★★★★
(10.01.13 13:14:43 MSK)

Ответ на: комментарий от lazyklimm 10.01.13 13:14:43 MSK

Извини, затупил. Теперь разобрался. Идеальная конструкция.

Я думал решить это через SED потому что она умеет хранить буфер и сопоставлять с регуляркой.

zzdnx ★★
(10.01.13 13:19:30 MSK) автор топика

Ответ на: комментарий от zzdnx 10.01.13 13:19:30 MSK

да наверное можно и sed-ом, но для решения задачи иногда проще решить быстро и в лоб, хотя никто не мешает тут помериться, у кого короче выйдет :)

lazyklimm ★★★★★
(10.01.13 13:21:48 MSK)

Ссылка

Ответ на: комментарий от zzdnx 10.01.13 12:07:40 MSK

В наличии bash

а для самодельного бота-паучка

/0

тогда пользуй чтото из 3P/ruby + sqlite и не виеживайся

ZuBB ★★★★★
(10.01.13 13:25:04 MSK)

Ответ на: комментарий от zzdnx 10.01.13 13:19:30 MSK

но вообще алгоритм конечно медленный и неидеальный, в идеале можно просто было бы один раз пробежаться по строкам, откидывая те, что с повторяющимися полями, но на баше это пожалуй будет не очень удобно

lazyklimm ★★★★★
(10.01.13 13:25:35 MSK)

Ответ на: комментарий от lazyklimm 10.01.13 13:25:35 MSK

А можно узнать у Вас как реализовать следующее: Вышеупомянутый файл (с внутренним форматом в виде таблицы *|*|*|*|*) запихнуть в sql, потом сделать вышеописаную выборку строк в новый текстовый файл?

Просто в моём случае имеется трудность незнания sql/ruby/python/other_СЯП, а такое решение может не хило облегчить мне жизнь (за одно и появятся первые навыки работы с БД и теми языками, которых не знаю).

zzdnx ★★
(10.01.13 13:37:13 MSK) автор топика

Ссылка

Ответ на: комментарий от zzdnx 10.01.13 09:59:46 MSK

Метров 400 или даже более того

всего-то?
не парься с SED, возьми gVIM
с макросами он очень даже не плох как комбайн по обработке данных
главное знать что тебе точно нужно сделать
я так из дампа базы в 1.2 гига выдернул весь нужный мне контент минут за 10-20

q11q11 ★★★★★
(10.01.13 13:39:23 MSK)
Последнее исправление: q11q11 10.01.13 13:40:23 MSK (всего исправлений: 1)

Ответ на: комментарий от ZuBB 10.01.13 13:25:04 MSK

3P/ruby + sqlite и не виеживайся

А если я этого не знаю - изучить? А если на это нет времени - искать готовые решения?

Изучать-то я и сам хочу, но сейчас нет времени на изучение нового материала (нужно результаты выдавать) + мой инглицкий на уровне «с кОла, да на лебедя», и обычные мануалы на буржуйском мне осваивать тяжко.

zzdnx ★★
(10.01.13 13:41:33 MSK) автор топика

Ссылка

Ответ на: комментарий от q11q11 10.01.13 13:39:23 MSK

я так из дампа базы в 1.2 гига выдернул весь нужный мне контент минут за 10-20

Мне как раз это и нужно. Пусть сейчас масштабы поменьше, но их рост - это только вопрос времени. gVIM тут чем и как помочь может?

zzdnx ★★
(10.01.13 13:45:05 MSK) автор топика

Имеем файл исписаный строками «*|*|*|*|*|URL». Во всём тексте не последовательно имеется не мало совершенно разных по содержанию строк, но с одним URL. Нужно всего-то как у Микелианжело «отсечь всё лишнее» - оставить только уникальные URL.

самый быстрый метод - сначала отрезать лишнее, потом sort -u. Если в URL не бывает |, тогда типа:

sed 's/.*|//' | sort -u

не думаю, что есть способ быстрее (тут даже свой парсер с БД на асме ИМХО не поможет).

Но мне эта последовательность как-то не нравится...

правильно, что не нравится. Такое работает, но только на тестовых примерах.

~~drBatty~~ ★★
(10.01.13 13:47:53 MSK)

Ответ на: комментарий от zzdnx 10.01.13 13:45:05 MSK

Мне как раз это и нужно. Пусть сейчас масштабы поменьше, но их рост - это только вопрос времени. gVIM тут чем и как помочь может?

(g)VIM умеет выполнять команды sed. И внешние команды. Т.е. что-то типа

:%s/.*|//
!!sort -u

должно помочь. Вот только зачем?

~~drBatty~~ ★★
(10.01.13 13:50:35 MSK)

Ссылка

Ответ на: комментарий от zzdnx 10.01.13 13:45:05 MSK

Пусть сейчас масштабы поменьше, но их рост - это только вопрос времени

тогда пока не поздно - почитай туториал по sql,

у тебя для начала задача достаточно простая:

- создать таблицу с полями соответствующих типов

- для каждой строки делать insert (если в шелле - придется разделители «|» сменить на запятые и нужное обернуть в кавычки)

а с потом уже можно с языком запросов разбираться

русская дока по sqlite нпример вот: http://sb-money.ru/sqlite.php?page=21

lazyklimm ★★★★★
(10.01.13 13:51:59 MSK)

Ответ на: комментарий от drBatty 10.01.13 13:47:53 MSK

URL будут во всех строках. Гарантировано. И нужны не ссылки, а строки с этими ссылками.

zzdnx ★★
(10.01.13 13:53:38 MSK) автор топика

Ответ на: комментарий от lazyklimm 10.01.13 13:51:59 MSK

русская дока по sqlite

Спасибо за помощь. Буду ковырять.

zzdnx ★★
(10.01.13 13:54:53 MSK) автор топика

Ссылка

Ответ на: комментарий от lazyklimm 10.01.13 13:51:59 MSK

тогда пока не поздно - почитай туториал по sql,

ИМХО здравый совет. На будущее всё равно костыль из sed не покатит. Нужна БД.

~~drBatty~~ ★★
(10.01.13 14:00:00 MSK)

Ссылка

Ответ на: комментарий от zzdnx 10.01.13 13:53:38 MSK

URL будут во всех строках. Гарантировано. И нужны не ссылки, а строки с этими ссылками.

а... Тогда можно обойтись одной только GNU sort (ЕМНИП не везде она есть). Sort умеет сортировать полями, и если полей всегда одно число, то задаём разделитель:

-t, --field-separator=SEP use SEP instead of non-blank to blank transition

-k, --key=KEYDEF sort via a key; KEYDEF gives location and type

KEYDEF is F[.C][OPTS][,F[.C][OPTS]] for start and stop position, where F is a field number and C a character position in the field; both are origin 1, and the stop position defaults to the line's end. If neither -t nor -b is in effect, characters in a field are counted from the beginning of the preceding whitespace. OPTS is one or more single-letter ordering options [bdfgiMhnRrV], which over‐ ride global ordering options for that key. If no key is given, use the entire line as the key.

тогда sort тупо отсортирует всё по url (и выкинет лишнее)

~~drBatty~~ ★★
(10.01.13 14:05:28 MSK)

Ссылка

Ответ на: комментарий от zzdnx 10.01.13 13:53:38 MSK

URL будут во всех строках. Гарантировано. И нужны не ссылки, а строки с этими ссылками.

а... Тогда можно обойтись одной только GNU sort (ЕМНИП не везде она есть). Sort умеет сортировать полями, и если полей всегда одно число, то задаём разделитель:

-t, --field-separator=SEP use SEP instead of non-blank to blank transition

-k, --key=KEYDEF sort via a key; KEYDEF gives location and type

KEYDEF is F[.C][OPTS][,F[.C][OPTS]] for start and stop position, where F is a field number and C a character position in the field; both are origin 1, and the stop position defaults to the line's end. If neither -t nor -b is in effect, characters in a field are counted from the beginning of the preceding whitespace. OPTS is one or more single-letter ordering options [bdfgiMhnRrV], which over‐ ride global ordering options for that key. If no key is given, use the entire line as the key.

тогда sort тупо отсортирует всё по url (и выкинет лишнее)

~~drBatty~~ ★★
(10.01.13 14:06:34 MSK)

Ответ на: комментарий от drBatty 10.01.13 14:06:34 MSK

отсортирует всё по url (и выкинет лишнее)

Почему-то в этом примере главная задача оказалась как побочный эффект (в скобочках), а не нужная - на месте главной. И ещё - я очень плох в английском, так что буду пока переводить...

zzdnx ★★
(10.01.13 14:17:51 MSK) автор топика

Ответ на: комментарий от zzdnx 10.01.13 13:45:05 MSK

gVIM тут чем и как помочь может?

открываешь файл, записываешь нужные тебе макросы, выполняешь, получаешь нужный тебе контент
очевидно же

q11q11 ★★★★★
(10.01.13 14:30:51 MSK)

Ответ на: комментарий от zzdnx 10.01.13 14:17:51 MSK

http://translate.google.ru

LMD ★
(10.01.13 14:38:37 MSK)

Ссылка

Ответ на: комментарий от q11q11 10.01.13 14:30:51 MSK

Я не умею работать даже с vim. Откуда мне знать про макросы и на каких языках, куда и как их писать (про исполнение молчу)?..

zzdnx ★★
(10.01.13 14:51:20 MSK) автор топика

Ответ на: комментарий от zzdnx 10.01.13 14:17:51 MSK

Почему-то в этом примере главная задача оказалась как побочный эффект (в скобочках), а не нужная - на месте главной.

ИМХО тебе нужно таки про SQL читать. Наверное таки про MySQL больше всего книжек/статей по-русски. Хотя SQLite попроще.

И ещё - я очень плох в английском, так что буду пока переводить...

ну на пальцах:

сортировка по полю №4

$ echo "1 2 3 4
2 3 6 2
1 1 1 0
1 7 7 3
1 9 1 2
0 0 0 0" | sort -k4
0 0 0 0
1 1 1 0
1 9 1 2
2 3 6 2
1 7 7 3
1 2 3 4

сортировка по полю №4, но выкидываем повторы

$ echo "1 2 3 4
2 3 6 2
1 1 1 0
1 7 7 3
1 9 1 2
0 0 0 0" | sort -k4 -u
1 1 1 0
2 3 6 2
1 7 7 3
1 2 3 4

тут поля разделяются пробелом, но можно и |.

~~drBatty~~ ★★
(10.01.13 15:21:47 MSK)

Ответ на: комментарий от zzdnx 10.01.13 14:51:20 MSK

эээ, а что ты знаешь вообще и зачем тебе (при малых знаниях) внезапно понадобилось парсить 400мегов текста?

q11q11 ★★★★★
(10.01.13 15:58:26 MSK)

Ответ на: комментарий от drBatty 10.01.13 15:21:47 MSK

В том и дело, что в этом примере происходит упорядочивание по полю, а этого хотелось бы избежать (хотя это и не критично в данном случае). Строки дописываются в конец (то есть ссылки появляются в файле «по возрасту»: чем старее, тем ближе к началу файла).

Однако пример очень хороший.

zzdnx ★★
(10.01.13 16:04:10 MSK) автор топика

Ответ на: комментарий от q11q11 10.01.13 15:58:26 MSK

Зачем: работа с очень большим количеством запросов в сеть. Отсюда и размеры файла. И он будет не один такой.

Парсить зачем: дальнейшая оработка. И предвижу следующий вопрос: А почему сразу не в БД?

Дальнейший конвейер на входе принимает только текст (при том для корректной работы этот текст должен быть ожидаемо отформатирован) и с СУБД я толком не знаком, поэтому не в состоянии решить вопрос грамотно. Плюс очень хочется избежать «лишней» работы типа создания промежуточных файлов и тому подобное.

zzdnx ★★
(10.01.13 16:10:36 MSK) автор топика

Ссылка

Ответ на: комментарий от zzdnx 10.01.13 16:04:10 MSK

В том и дело, что в этом примере происходит упорядочивание по полю, а этого хотелось бы избежать (хотя это и не критично в данном случае). Строки дописываются в конец (то есть ссылки появляются в файле «по возрасту»: чем старее, тем ближе к началу файла).

не так. Это неустойчивая сортировка. Строки дописываются как Патрег на душу положит. Что-бы строки сохраняли своё положение, надо использовать устойчивую сортировку

-s, --stable stabilize sort by disabling last-resort comparison

http://ru.wikipedia.org/wiki/Устойчивая_сортировка

(устойчивая часто намного дольше работает)

~~drBatty~~ ★★
(10.01.13 16:13:39 MSK)

Ответ на: комментарий от drBatty 10.01.13 16:13:39 MSK

устойчивая часто намного дольше работает

Ясен фиг, что дольше. Там алгоритмы более сложные (и по крайней мере должно больше памяти использоваться).

zzdnx ★★
(10.01.13 16:19:28 MSK) автор топика

Ответ на: комментарий от zzdnx 10.01.13 16:19:28 MSK

Ясен фиг, что дольше.

неясен. Например списки сортируют слиянием, а она устойчивая. Вот если специальный случай сортировки «на месте», то да, неустойчивая сортировка должна быть дольше.

~~drBatty~~ ★★
(10.01.13 16:32:16 MSK)

Приношу извинения...

формат строки: «*|*|*|*|*|URL»

Предлагаю использовать AWK

а остальные поля?

ну можно и в лоб

Похожие темы

формат строки: «||*|||URL»