LINUX.ORG.RU

История изменений

Исправление crutch_master, (текущая версия) :

Берешь paralell и качаешь хоть во сколько хочешь потоков. Потом cat page1.html | hxnormalize | hxselect <css_selector> | perl -pe "/regexp/" | grep | sed | ... | perl -pe "..." >> profit.txt Кода минимум и ничего знать не надо вообще, кроме регулярок и css селекторов. Но парсинг это такое дело, что каждую новую задачу будешь решать разными средствами. Где-то хватит curl, а где-то нужен selenium. Где-то можно hxselect | регулярками, а где-то есть нормальный api и можно обойтись jq / нодой.

Исправление crutch_master, :

Берешь paralell и качаешь хоть во сколько потоков. Потом cat page1.html | hxnormalize | hxselect <css_selector> | perl -pe "/regexp/" | grep | sed | ... | perl -pe "..." >> profit.txt Кода минимум и ничего знать не надо вообще, кроме регулярок и css селекторов. Но парсинг это такое дело, что каждую новую задачу будешь решать разными средствами. Где-то хватит curl, а где-то нужен selenium. Где-то можно hxselect | регулярками, а где-то есть нормальный api и можно обойтись jq / нодой.

Исправление crutch_master, :

Берешь paralell и качаешь/парсишь хоть во сколько потоков. Потом cat page1.html | hxnormalize | hxselect <css_selector> | perl -pe "/regexp/" | grep | sed | ... | perl -pe "..." >> profit.txt Кода минимум и ничего знать не надо вообще, кроме регулярок и css селекторов. Но парсинг это такое дело, что каждую новую задачу будешь решать разными средствами. Где-то хватит curl, а где-то нужен selenium. Где-то можно hxselect | регулярками, а где-то есть нормальный api и можно обойтись jq / нодой.

Исправление crutch_master, :

Берешь paralell и качаешь/парсишь хоть во сколько потоков. Потом cat page1.html | hxnormalize | hxselect <css_selector> | perl -pe "/regexp/" | grep | sed | ... | perl -pe "..." >> profit.txt Кода минимум и ничего знать не надо вообще, кроме регулярок и css селекторов.

Исправление crutch_master, :

Берешь paralell и качаешь/парсишь хоть во сколько потоков. Потом cat page1.html | hxnormalize | hxselect <css_selector> | perl -pe "/regexp/" | grep | sed | ... | perl -pe "..." >> profit.txt Когда минимум и ничего знать не надо вообще, кроме регулярок и css селекторов.

Исправление crutch_master, :

Берешь paralell и качаешь/парсишь хоть во сколько потоков. Потом cat page1.html | hxnormalize | hxselect <css_selector> | perl -pe "/regexp/" | grep | sed | ... | perl -pe "..." >> profit.txt

Исходная версия crutch_master, :

Берешь paralell и качаешь/парсишь хоть во сколько потоков. Потом cat page1.html | hxnormalize | hxselect <css_selector> | perl -pe "/regexp/" | grep | sed | ... | perl -pe "..." | >> profit.txt