История изменений

Берешь paralell и качаешь хоть во сколько хочешь потоков. Потом cat page1.html | hxnormalize | hxselect <css_selector> | perl -pe "/regexp/" | grep | sed | ... | perl -pe "..." >> profit.txt Кода минимум и ничего знать не надо вообще, кроме регулярок и css селекторов. Но парсинг это такое дело, что каждую новую задачу будешь решать разными средствами. Где-то хватит curl, а где-то нужен selenium. Где-то можно hxselect | регулярками, а где-то есть нормальный api и можно обойтись jq / нодой.

Берешь paralell и качаешь хоть во сколько потоков. Потом cat page1.html | hxnormalize | hxselect <css_selector> | perl -pe "/regexp/" | grep | sed | ... | perl -pe "..." >> profit.txt Кода минимум и ничего знать не надо вообще, кроме регулярок и css селекторов. Но парсинг это такое дело, что каждую новую задачу будешь решать разными средствами. Где-то хватит curl, а где-то нужен selenium. Где-то можно hxselect | регулярками, а где-то есть нормальный api и можно обойтись jq / нодой.

Берешь paralell и качаешь/парсишь хоть во сколько потоков. Потом cat page1.html | hxnormalize | hxselect <css_selector> | perl -pe "/regexp/" | grep | sed | ... | perl -pe "..." >> profit.txt Кода минимум и ничего знать не надо вообще, кроме регулярок и css селекторов. Но парсинг это такое дело, что каждую новую задачу будешь решать разными средствами. Где-то хватит curl, а где-то нужен selenium. Где-то можно hxselect | регулярками, а где-то есть нормальный api и можно обойтись jq / нодой.