LINUX.ORG.RU

Парсинг Веб-страниц


1

0

Всего сообщений: 16

См. также:

 

Открыт код Gumbo, библиотеки для унификации парсинга HTML5

Группа Google

Компания Google выпустила под лицензией Apache 2.0 библиотеку Gumbo, представляющую собой реализацию разбора HTML5 на языке программирования C.

В качестве причин для её создания указывается на фрагментацию существующих уже библиотек, либо их неоптимальность. Так, большинство реализаций привязаны к определённым браузерам или движкам, а некоторые были написаны на весьма специфичных скриптовых языках, что сильно усложняло их интеграцию в развивающиеся проекты.

Gumbo представляет собой простую и легковесную библиотеку, не имеющую зависимостей от сторонних приложений и библиотек.

Возможности, на которые указывают разработчики:

  • Полная совместимость со спецификациями HTML 5
  • Качественный обработчик ошибок
  • Простой API с возможностью интегрирования в различные языки программирования
  • Легковесность и отсутствие зависимостей
  • Прохождение html5-tests
  • Возможность получения обратных ссылок на исходный код фрагмента
  • Тщательно протестировано на более чем 2.5 миллиардах страниц из поискового индекса Google

Gumbo на GitHub

Новость на OpenNet

>>> Новость в блоге Google OpenSource

 , , , ,

Falcon-peregrinus ()

Форум

2018

2017

2016

2015

2014

2013

2012