LINUX.ORG.RU

Ответ на: комментарий от KennyMinigun

srsly и «ну возможно» - веские аргументы конечно ))

Sonsee
() автор топика
Ответ на: комментарий от Sonsee

Скорее всего ТС как-то по своему понимает, что такое «парсинг». Так что antlr ему советовать бесполезно.

anonymous
()
Ответ на: комментарий от anonymous

ну я понимаю что парсинг - это уже из готовых данных

наверное неправильно задал тему: мне нужно получить - легко и быстро - контент, который потом я уже сам разберусь как классифицировать.

простой пример выше с http://www.sciencedirect.com

или представим, что мне нужно тоже самое, только там ссылка на pdf а не javascript.

Sonsee
() автор топика

Про PDF не скажу, а иногда особо хитро-генерируемый контент удобнее всего парсить из дамп-файла консольного браузера. А какой язык - это на любителя.

peregrine ★★★★★
()

Можно попробовать разобраться откуда javascript берет данные. Однажды нужно было соскрапить таблицу с данными которая наполнялась джаваскриптом, оказалась что там джаваскрипт делает простые запросы на аддресс типа http://api.com/?offset=100000&length=50, естественно параметры не проверялись на адекватность и запрос http://api.com/?offset=0&length=800000 выдал мне здоровый удобночитаемый json-файл.

zinfandel ★★
()
Последнее исправление: zinfandel (всего исправлений: 1)
Ответ на: комментарий от Sonsee

простой пример выше с http://www.sciencedirect.com

или представим, что мне нужно тоже самое, только там ссылка на >pdf а не javascript.

Там и так ссылка на pdf.

curl "http://www.sciencedirect.com/science/book/9780080402628" | grep 'main.pdf'

Бери язык который знаешь хорошо и любую вменяемую библиотеку для парсинга html.

zinfandel ★★
()
Ответ на: комментарий от Sonsee

Ну я и говорю, что ты не понимаешь, что такое «парсинг». Не используй это слово, только путаешь всех.

anonymous
()

Qt/C++ - идеальный вариант, но только если ты его уже знаешь. Остальные языки/фреймворки/парсеры идут лесом. Вся фишка в том, что методы почти любого Qt класса можно вызывать из JS без всяких биндов. И решение твоего квеста простое - пишешь свой JS скрипт, который будет выбирать данные со страницы и передавать их назад. Затем с помощью Qt добавляешь его к своей странице.

frozenix ★★★
()

контент генерируемый javascript

Разобрать что делает javascript. В итоге думаю всё сведётся к получению данных из api.
ЯП любой.

ritsufag ★★★★★
()
Ответ на: комментарий от anonymous

ну почему бесполезно, забей в antlr грамматику PDF (лопата), а потом кошерным обраом будешь из аста доставать контент :)

stevejobs ★★★★☆
()

1) Вам, вероятно, нужен не parsing, а scraping.

2) Для скрейпинга веб-страниц подойдет phantomjs и/или selenium web driver.

dmitry_vk ★★★
()
Ответ на: комментарий от frozenix

А я всегда подозревал кутешников в терминальной упоротости.

anonymous
()
Ответ на: комментарий от Sonsee

скрейпинга

а русского слова нет?


scraping {имя существительное} - соскабливание [соскабливание]
to scrape {глаг.} - скрести [скрести́] {глаг.} отскабливать {глаг.} обдирать [обдира́ть] {глаг.}

это такая поеботина, которая переводит отрендеренное содержимое динамического представления одного формата в другие форматы (например, в TXT, CSV или XML)? или тебя интересует сам ебаторий по распознаванию и классификации элементов динамического представления конкретного формата данных?

P.S. интересно, а в других языках существует такая развитая система местоимений с дополнительной информационной нагрузкой о трудозатратах или эмоциональной окраске, например, включая этакие «местоимения»-действия-шаблонизаторы?

anonymous
()
Ответ на: комментарий от anonymous

интересно, а в других языках существует такая развитая система местоимений с дополнительной информационной нагрузкой о трудозатратах или эмоциональной окраске, например, включая этакие «местоимения»-действия-шаблонизаторы?

во французском точно есть, а в других языках?

anonymous
()
Ответ на: комментарий от iVS

MuPDF, и она гораздо более годная чем poppler. Последний очень любит задыхаться на некоторых файлах

buddhist ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.