выбор инструментов для парсинга

0

3

задача: быстро и удобно извлекать/парсить нужный контент генерируемый javascript и/или pdf файлы с разных вебсайтов.

какие инструменты - языки, библиотеки - посоветуете?

Ссылка

←	Qt рендер формул

Сплайсинг в ядре

→

генерируемый javascript

phantomjs и подобные?

risenshnobel ★★★
(10.07.14 23:18:22 MSK)

perl

~~sergijoo~~ ★
(10.07.14 23:23:36 MSK)

Ссылка

Ответ на: комментарий от risenshnobel 10.07.14 23:18:22 MSK

наверное да

например:

http://www.sciencedirect.com/science/article/pii/S0166531610001264

и мне интересно к какой школе относится данная статья:

Show more:

Department of Computing, Imperial College London, 180 Queen’s Gate, London SW7 2AZ, UK

Sonsee ☆
(10.07.14 23:27:08 MSK) автор топика

Ссылка

perl + CPAN

KennyMinigun ★★★★★
(10.07.14 23:29:53 MSK)

Ответ на: комментарий от KennyMinigun 10.07.14 23:29:53 MSK

а почему не python или java?

Sonsee ☆
(10.07.14 23:35:13 MSK) автор топика

Ответ на: комментарий от Sonsee 10.07.14 23:35:13 MSK

java
парсинг

srsly?

python

ну.. возможно

KennyMinigun ★★★★★
(10.07.14 23:38:27 MSK)

Парсинг PDF? O_o

tailgunner ★★★★★
(10.07.14 23:39:30 MSK)

Ответ на: комментарий от tailgunner 10.07.14 23:39:30 MSK

что не так то?))

Sonsee ☆
(10.07.14 23:44:59 MSK) автор топика

Ответ на: комментарий от Sonsee 10.07.14 23:44:59 MSK

что не так то?))

Потому что годных библиотек для парсинга PDF, кроме poppler, и нет нифига.

iVS ★★★★★
(10.07.14 23:45:58 MSK)

Ответ на: комментарий от KennyMinigun 10.07.14 23:38:27 MSK

srsly и «ну возможно» - веские аргументы конечно ))

Sonsee ☆
(10.07.14 23:57:12 MSK) автор топика

Ссылка

Ответ на: комментарий от Sonsee 10.07.14 23:44:59 MSK

Скорее всего ТС как-то по своему понимает, что такое «парсинг». Так что antlr ему советовать бесполезно.

anonymous
(10.07.14 23:57:15 MSK)

Ответ на: комментарий от anonymous 10.07.14 23:57:15 MSK

ну я понимаю что парсинг - это уже из готовых данных

наверное неправильно задал тему: мне нужно получить - легко и быстро - контент, который потом я уже сам разберусь как классифицировать.

простой пример выше с http://www.sciencedirect.com

или представим, что мне нужно тоже самое, только там ссылка на pdf а не javascript.

Sonsee ☆
(11.07.14 00:01:22 MSK) автор топика

Про PDF не скажу, а иногда особо хитро-генерируемый контент удобнее всего парсить из дамп-файла консольного браузера. А какой язык - это на любителя.

peregrine ★★★★★
(11.07.14 00:34:22 MSK)

Ссылка

Можно попробовать разобраться откуда javascript берет данные. Однажды нужно было соскрапить таблицу с данными которая наполнялась джаваскриптом, оказалась что там джаваскрипт делает простые запросы на аддресс типа http://api.com/?offset=100000&length=50, естественно параметры не проверялись на адекватность и запрос http://api.com/?offset=0&length=800000 выдал мне здоровый удобночитаемый json-файл.

zinfandel ★★
(11.07.14 00:34:54 MSK)
Последнее исправление: zinfandel 11.07.14 00:35:34 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от Sonsee 11.07.14 00:01:22 MSK

простой пример выше с http://www.sciencedirect.com

или представим, что мне нужно тоже самое, только там ссылка на >pdf а не javascript.

Там и так ссылка на pdf.

curl "http://www.sciencedirect.com/science/book/9780080402628" | grep 'main.pdf'

Бери язык который знаешь хорошо и любую вменяемую библиотеку для парсинга html.

zinfandel ★★
(11.07.14 00:42:15 MSK)

Ссылка

Ответ на: комментарий от Sonsee 11.07.14 00:01:22 MSK

Ну я и говорю, что ты не понимаешь, что такое «парсинг». Не используй это слово, только путаешь всех.

anonymous
(11.07.14 01:22:03 MSK)

Ссылка

Qt/C++ - идеальный вариант, но только если ты его уже знаешь. Остальные языки/фреймворки/парсеры идут лесом. Вся фишка в том, что методы почти любого Qt класса можно вызывать из JS без всяких биндов. И решение твоего квеста простое - пишешь свой JS скрипт, который будет выбирать данные со страницы и передавать их назад. Затем с помощью Qt добавляешь его к своей странице.

frozenix ★★★
(11.07.14 02:12:04 MSK)

Ответ на: комментарий от frozenix 11.07.14 02:12:04 MSK

А зачем тут Qt с крестами?

tensai_cirno ★★★★★
(11.07.14 02:59:17 MSK)

Ссылка

контент генерируемый javascript

Разобрать что делает javascript. В итоге думаю всё сведётся к получению данных из api.
ЯП любой.

ritsufag ★★★★★
(11.07.14 03:00:38 MSK)

Ссылка

Ответ на: комментарий от frozenix 11.07.14 02:12:04 MSK

Мсье знает толк в извращениях.

peregrine ★★★★★
(11.07.14 03:08:09 MSK)

Ссылка

Ответ на: комментарий от KennyMinigun 10.07.14 23:38:27 MSK

java
парсинг

srsly?

y not?

ANTLR, https://github.com/renggli/PetitParserJava

yoghurt ★★★★★
(11.07.14 08:11:45 MSK)

Ссылка

Ответ на: комментарий от anonymous 10.07.14 23:57:15 MSK

ну почему бесполезно, забей в antlr грамматику PDF (лопата), а потом кошерным обраом будешь из аста доставать контент :)

~~stevejobs~~ ★★★★☆
(11.07.14 09:52:10 MSK)

Ссылка

1) Вам, вероятно, нужен не parsing, а scraping.

2) Для скрейпинга веб-страниц подойдет phantomjs и/или selenium web driver.

dmitry_vk ★★★
(11.07.14 11:05:27 MSK)

Ответ на: комментарий от frozenix 11.07.14 02:12:04 MSK

А я всегда подозревал кутешников в терминальной упоротости.

anonymous
(11.07.14 11:17:09 MSK)

Ссылка

Ответ на: комментарий от dmitry_vk 11.07.14 11:05:27 MSK

скрейпинга

а русского слова нет?

Sonsee ☆
(11.07.14 13:51:18 MSK) автор топика

Ответ на: комментарий от Sonsee 11.07.14 13:51:18 MSK

скрейпинга

а русского слова нет?

scraping {имя существительное} - соскабливание [соскабливание]
to scrape {глаг.} - скрести [скрести́] {глаг.} отскабливать {глаг.} обдирать [обдира́ть] {глаг.}

это такая поеботина, которая переводит отрендеренное содержимое динамического представления одного формата в другие форматы (например, в TXT, CSV или XML)? или тебя интересует сам ебаторий по распознаванию и классификации элементов динамического представления конкретного формата данных?

P.S. интересно, а в других языках существует такая развитая система местоимений с дополнительной информационной нагрузкой о трудозатратах или эмоциональной окраске, например, включая этакие «местоимения»-действия-шаблонизаторы?

anonymous
(11.07.14 18:39:31 MSK)

Ответ на: комментарий от anonymous 11.07.14 18:39:31 MSK

интересно, а в других языках существует такая развитая система местоимений с дополнительной информационной нагрузкой о трудозатратах или эмоциональной окраске, например, включая этакие «местоимения»-действия-шаблонизаторы?

во французском точно есть, а в других языках?

anonymous
(11.07.14 18:42:11 MSK)