вывод списка ссылок из большого txt файла

0

2

Добрый вечер!

Есть файл XML со списком URL, которые располагаются хаотично, необходимо из него составить другой файл с теми же URL, но отсечь весь остальной текст...

маска <![CDATA[http:bla-bla-bla]]>

По форумам нашел только как sed awk и прочее работают по-строчно... а тут прикол в том что файл - это одна большая строка.

Подскажите регулярное выражение, чтобы шел поиск по маске «от http:// до ]]» и готовые URL-ы складывать в отдельный файл.

Спасибо!

Ссылка

← condition_variable + timed_mutex

Библиотека С++. Стандарты?. →

Есть файл XML
XML

man XSLT

пример файла в студию

anonymous
(03.04.14 18:15:43 MSK)

Ссылка

Напиши несколькострочник на пайтоне, там есть findall. Ещё можно использовать ключ, чтобы поиск шел игнорируя переходы строк. Регулярное выражение...

http:\/\/.+?[^\]]

Как-то вот так, но в разных диалектах регэкспов есть отличия, тебя какой интересует?

Lilly ★
(03.04.14 18:17:35 MSK)

grep -Po 'http://.*(?=]])' in.txt >> out.txt

а тут прикол в том что файл - это одна большая строка.

Прошу прощения, не заметил сразу. Ну если задача позволяет, можно <![CDATA заменить на \n<![CDATA, а затем использовать grep.

~~xtraeft~~ ★★☆☆
(03.04.14 18:29:40 MSK)
Последнее исправление: xtraeft 03.04.14 18:34:01 MSK (всего исправлений: 3)

Ссылка

http://emulek.github.io/sed/ch04s10.html#id2522878

emulek ★
(03.04.14 18:34:11 MSK)

Ссылка

По форумам нашел только как sed awk и прочее работают по-строчно... а тут прикол в том что файл - это одна большая строка.

гм, ну и что?

emulek ★
(03.04.14 18:35:11 MSK)

Ссылка

CDATA тут хреново подходит для нормального (не sed сотоварищи) распознавания (лучше если есть внешний тег), но можно по префиксу:

echo "<Obj><Name><![CDATA[SomeText]]></Name></Obj>" | xmlstarlet sel -t -v "/Obj/Name[starts-with(text(),"Some")]"

anonymous
(03.04.14 19:15:42 MSK)

Ответ на: комментарий от anonymous 03.04.14 19:15:42 MSK

Поправлюсь) :

xmlstarlet sel -t -m "/Obj/Name/text()" -v . -n

anonymous
(03.04.14 19:19:27 MSK)

Ссылка

Задача однократная ? Если да, то открой этот файл в офисе - Writer да скопируй оставшийся текст.

TEX ★★★
(03.04.14 19:20:42 MSK)

Ссылка

прикол в том что файл - это одна большая строка.

Если быстро и грязно: скорее всего сработает преварительный sed 's/>/>\n/g'.

anonymous
(03.04.14 19:23:20 MSK)

Ссылка

Ну или что то вроде

xmlstarlet pyx account.acctype.xml | grep "http:" | cut -d " " -f 2,3,4,5

TEX ★★★
(03.04.14 19:37:18 MSK)

Ссылка

Ответ на: комментарий от Lilly 03.04.14 18:17:35 MSK

вообще я с опаской зашел в форум Разработчиков, ибо я знаю только консольные awk sed cut и смежные... поэтому мне бы что-нить базовыми командами линукса)

dev-ice
(04.04.14 00:14:37 MSK) автор топика

Ответ на: комментарий от Lilly 03.04.14 18:17:35 MSK

В питоне и split есть, раз у него одна строка.

Dispetcher14 ★★★★★
(04.04.14 00:16:00 MSK)

Ссылка

grep --only-matching --perl-regexp "http(s?):\/\/[^ \"\(\)\<\>]*"

nikitos ★★★
(04.04.14 09:30:40 MSK)

Ссылка

Ответ на: комментарий от dev-ice 04.04.14 00:14:37 MSK

На вкус и цвет же решения разные. Тем более их тут набросали вагон и тележку - используй какое больше по духу, я своё решение не считаю единственно верным, а консольные и выше и ниже варианты есть. А вместо awk+sed рекомендую один раз выучить перл - для работы с текстом идеальный инструмент. Альтернатива - пайтон. Но тут, опять таки, настаивать не могу, только советовать.

Lilly ★
(04.04.14 17:52:21 MSK)

Ответ на: комментарий от dev-ice 04.04.14 00:14:37 MSK

sed 's/>/>\n/g' file.txt | grep -Po 'http://.*(?=]])' >> out.txt

Как сказали выше - быстро, грязно и выполняется дефолтными утилитами.

~~xtraeft~~ ★★☆☆
(04.04.14 17:56:07 MSK)
Последнее исправление: xtraeft 04.04.14 17:56:19 MSK (всего исправлений: 1)

egrep -o «https?:[^]]*»

teod0r ★★★★★
(04.04.14 18:04:28 MSK)

Ответ на: комментарий от teod0r 04.04.14 18:04:28 MSK

а тут прикол в том что файл - это одна большая строка.

~~xtraeft~~ ★★☆☆
(04.04.14 18:19:33 MSK)

Ответ на: комментарий от xtraeft 04.04.14 18:19:33 MSK

и что?

teod0r ★★★★★
(04.04.14 19:59:54 MSK)

Ответ на: комментарий от teod0r 04.04.14 19:59:54 MSK

Спасибо, не знал.

~~xtraeft~~ ★★☆☆
(04.04.14 20:04:30 MSK)

Ссылка

Ответ на: комментарий от Lilly 04.04.14 17:52:21 MSK

спасибо буду пробовать, как найду решение - отпишусь

dev-ice
(09.04.14 13:47:12 MSK) автор топика

Ответ на: комментарий от dev-ice 09.04.14 13:47:12 MSK

Что ты собрался искать, если в этом треде тебе уже с десяток решений привели?

~~xtraeft~~ ★★☆☆
(09.04.14 13:57:14 MSK)

Ссылка

Ответ на: комментарий от xtraeft 04.04.14 17:56:07 MSK

sed 's/>/>\n/g' file.txt | grep -Po 'http://.*(?=]])' >> out.txt

Да спасибо!!! Этот вариант подходит!

dev-ice
(09.04.14 14:07:14 MSK) автор топика

Ответ на: комментарий от dev-ice 09.04.14 14:07:14 MSK

egrep -o «http?:[^]]*»

еще проще и правильнее

~~xtraeft~~ ★★☆☆
(09.04.14 14:20:42 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← condition_variable + timed_mutex

Development

Библиотека С++. Стандарты?. →

Похожие темы