Вытягивание данных сайта, в чём ошибка Bash кода?

0

2

Пытаюсь сделать скрипт который будет вытягивать данные сайта с использыванием гет запроса и вытягиваем из исходного кода страницы кусок кода с заточением оного в фаил. Собственно код

#!/bin/bash
cat input.txt | while read ; do
wget --quiet -O -  "http://xxx.ru/goods.aspx?search=$REPLY&page=1" | tr -d '\n' | sed 's|^[^>]*>||;s|<[^<]*$||' | grep -o'<div id="Начало блока "'.*'</table>' | sed 's/<h3>[^>]*>//g' | sed 's/<a[^>]*>//g' | sed 's/<[^>]*>//g' | >> output.txt
done;
exit 0

В файл не отправляется ничего.

Убрал

tr -d '\n' | sed 's|^[^>]*>||;s|<[^<]*$||' | grep -o'<div id="Начало блока "'.*'</table>' | sed 's/<h3>[^>]*>//g' | sed 's/<a[^>]*>//g' | sed 's/<[^>]*>//g' |

файл стачивается, и отправляет по списку норм, то есть я не знаю только как вырвать правильно кусок, может кто сказать?

Ссылка

← Анимированная пунктирная линия «муравьи» на C++ / Qt.

QThread + signals →

sed 's/<[^>]*>//g' | >> output.txt
| >>

что эта

zolden ★★★★★
(20.11.12 19:18:45 MSK)

Ответ на: комментарий от zolden 20.11.12 19:18:45 MSK

По идее это я хочу убрать лишние теги, а после то что вообще в принцепе получилось отправить в файл output.txt

CrazyFox
(20.11.12 19:24:19 MSK) автор топика

Ссылка

http://stackoverflow.com/a/1732454/1203698

Тут кстати как раз срачик пытаются разжечь: В продолжение темы о парсинге HTML regexp'ами.

<div id="Начало блока "

Лол, серьёзно, такая вёрстка? Так даже в пятой версии нельзя.

Kalashnikov ★★★
(20.11.12 19:24:31 MSK)

Ответ на: комментарий от Kalashnikov 20.11.12 19:24:31 MSK

«Начало блока» это я от балды заменил.

CrazyFox
(20.11.12 19:29:13 MSK) автор топика

Ссылка

grep -o'<div id=«Начало блока »'.*'</table>'

Кодировка точно совпадает с системной?

| >> output.txt

Пайп уберите, он лишний.

Совет: добавляйте команды в пайп по одной и смотрите, после какой вывод прекратится.

AITap ★★★★★
(20.11.12 19:32:52 MSK)

Ссылка

Ответ на: комментарий от Kalashnikov 20.11.12 19:24:31 MSK

Если честно не очень понял суть темы, из за узконаправленного сленга -.- А если честно то кто-нибудь может подсказать как в моём случае вырвать кусок кода который находится в див блоке с известным id, внутри этого блока находятся ещё дивы.

CrazyFox
(20.11.12 19:35:49 MSK) автор топика

Теперь получаю файл, но все пробелы и подобные символы превращаются в Как теперь превратить их в пробелы понятные для блокнота? и .txt формата в частности.

CrazyFox
(20.11.12 19:53:49 MSK) автор топика

Ответ на: комментарий от CrazyFox 20.11.12 19:53:49 MSK

"&nbsp;"

CrazyFox
(20.11.12 19:54:33 MSK) автор топика

Ссылка

Ответ на: комментарий от CrazyFox 20.11.12 19:35:49 MSK

Тебе все подскажут, если ты приведёшь пример входных и выходных данных, не заставляя взрослых бородатых дядей гадать, что ты там имел в виду

zolden ★★★★★
(20.11.12 19:58:39 MSK)

Ответ на: комментарий от CrazyFox 20.11.12 19:35:49 MSK

Ни регэкспы, ни баш особо не подходят для задачи, лучше всего взять готовый хтмл парсер (SAX более чем подойдёт) для любимого ЯП. На каком-нибудь питоне всё решается в несколько аккуратных строчек.

Kalashnikov ★★★
(20.11.12 20:03:11 MSK)

Ссылка

Ответ на: комментарий от zolden 20.11.12 19:58:39 MSK

Прошу прощения, уже разобрался, собственно можно сказать сам разобрался, но есть ещё несколько вопросов. 1) Как проще всего реализовать вставку после определённого набора символов вставку своего слова (Есть в документе n количество упоминаний надписи «р.» Надо после каждого упоминания вставить «<br />» 2) Надо удалить Одинаковые повторяющиеся строчки (Для примера тот же фаил и там местами упоминается две строчки " Разработка: что то там © 2011«Фирма name»" )

CrazyFox
(20.11.12 20:05:54 MSK) автор топика