LINUX.ORG.RU

Открыт код Gumbo, библиотеки для унификации парсинга HTML5

 , , , ,


3

1

Компания Google выпустила под лицензией Apache 2.0 библиотеку Gumbo, представляющую собой реализацию разбора HTML5 на языке программирования C.

В качестве причин для её создания указывается на фрагментацию существующих уже библиотек, либо их неоптимальность. Так, большинство реализаций привязаны к определённым браузерам или движкам, а некоторые были написаны на весьма специфичных скриптовых языках, что сильно усложняло их интеграцию в развивающиеся проекты.

Gumbo представляет собой простую и легковесную библиотеку, не имеющую зависимостей от сторонних приложений и библиотек.

Возможности, на которые указывают разработчики:

  • Полная совместимость со спецификациями HTML 5
  • Качественный обработчик ошибок
  • Простой API с возможностью интегрирования в различные языки программирования
  • Легковесность и отсутствие зависимостей
  • Прохождение html5-tests
  • Возможность получения обратных ссылок на исходный код фрагмента
  • Тщательно протестировано на более чем 2.5 миллиардах страниц из поискового индекса Google

Gumbo на GitHub

Новость на OpenNet

>>> Новость в блоге Google OpenSource

★★★★★

Проверено: maxcom ()
Последнее исправление: Falcon-peregrinus (всего исправлений: 1)

Ответ на: комментарий от rtvd

Работать в коллективе с минимальной вероятностью встречи имбецилов среди разработчиков и менеджеров. Сложность собеса тому способствует

vertexua ★★★★★
()
Ответ на: комментарий от vertexua

Работать в коллективе с минимальной вероятностью встречи имбецилов среди разработчиков и менеджеров. Сложность собеса тому способствует

Нда, no comments.

Почитай что ли, может снизойдёт на тебя просветление.

http://www.ere.net/2013/06/24/googles-weird-interview-questions-a-complete-wa...

rtvd ★★★★★
()
Ответ на: комментарий от rtvd

Как раз эти вопросы уже отменили. Вместо этого спрашивают сложные вопросы по алгоритмам, масштабированию, архитектуре, планированию разработки, тестированию, сетям, Linux, устройстве ОС

vertexua ★★★★★
()
Ответ на: комментарий от vertexua

Как раз эти вопросы уже отменили. Вместо этого спрашивают сложные вопросы по алгоритмам, масштабированию, архитектуре, планированию разработки, тестированию, сетям, Linux, устройстве ОС

Аллилуйя.

Кстати, а что, нигде кроме как в Google, такие вопросы не задают?

rtvd ★★★★★
()
Ответ на: комментарий от rtvd

Там очень качественные вопросы, в тему и очень адекватное обсуждение, есть инфа от очевидцев. Почти всегда рядовой инженер легко общается с тобой на темы, которые ты даже глубоко копнул. Но в рамках именно алгоритмов, архитектуры, сетей, устройства и работы с Linux. Никаких спрингов, гибернейтов и ораклов

vertexua ★★★★★
()
Последнее исправление: vertexua (всего исправлений: 1)
Ответ на: комментарий от vertexua

Там очень качественные вопросы, в тему и очень адекватное обсуждение, есть инфа от очевидцев. Почти всегда рядовой инженер легко общается с тобой на темы, которые ты даже глубоко копнул. Но в рамках именно алгоритмов, архитектуры, сетей, устройства и работы с Linux

Это хорошо. Но всё же, это единственная такая компания на всей планете Земля? :) Или просто их PR сработал и теперь они являются олицетворением всего самого лучшего в глазах инженеров?

rtvd ★★★★★
()
Ответ на: комментарий от rtvd

Ну да, хотя и не далеки от правды. Что в этом плохого? Не единственное место на земле, но до 30 там точно есть что делать. Потом - не знаю

vertexua ★★★★★
()
Ответ на: комментарий от vertexua

Ну да, хотя и не далеки от правды. Что в этом плохого? Не единственное место на земле, но до 30 там точно есть что делать. Потом - не знаю

OK. Ну я в принципе рад, что они есть. Если «нашему брату» там хорошо, то почему бы и нет.

В принципе мне этот феномен интересен с психологической точки зрения. Очевидно, что PR сработал, и их HRам теперь чуток проще.

rtvd ★★★★★
()
Ответ на: комментарий от rtvd

У них много на кону и им нужны люди прошедшие всесторонний отбор, например 8 собеседований, не мало?

Потому что в обычных аутсорс проектах которыми кишит рынок у нас собеседований толком и нет. И программисты соответсвующие, тольк название

vertexua ★★★★★
()
Ответ на: комментарий от Deleted

а ничо, что всё это написано гуглом?

почему тогда не сразу Хромиум? Он какой-то несвободный?

stevejobs ★★★★☆
()
Ответ на: комментарий от rtvd

Но всё же, это единственная такая компания на всей планете Земля? :)

у нас в Нске почти все Академовские конторы — сплошная работорговля. Где не работорговля — нищенские зарплаты. А в гугле и зарплата норм, и проекты интересные (для новичка).

а «сложные вопросы на собеседовании» имхо нафиг не нужны. Был бы человек, а технология приложится. Важно не то, какой матан ты знаешь, а какой ты человек.

stevejobs ★★★★☆
()
Ответ на: комментарий от d_Artagnan

на языке программирования C.

есть ли такая библиотека, но для Си ?

d_Artagnan

вот сразу видно, что дартаньян.

false ★★★★★
()
Ответ на: комментарий от stevejobs

у нас в Нске

Это в Woodside что-ли?

почти все Академовские конторы — сплошная работорговля.

И что такое Академовские конторы?

Вообще звучит устрашающе.

rtvd ★★★★★
()
Ответ на: комментарий от DNA_Seq

Да ладно, любой школьник начинает либо с си, либо с пых-пыха.

Да ладно, не каждый. :)

rtvd ★★★★★
()
Ответ на: комментарий от stevejobs

А в гугле и зарплата норм, и проекты интересные (для новичка).

Кстати, а сколько нынче платят в Google, если не секрет? И в какой стране?

rtvd ★★★★★
()
Ответ на: комментарий от DNA_Seq

Что, простите, ...

... курить изволите?

А может сразу в машинных кодах? В перле хотя бы регэкспы искаропки, а значит унифицированы. А си-строки вообще отдельная песня, то есть по-хорошему придется дергать кучу сторонних либ, и фрагментация - вопрос времени.

Да будет Вам известно, что регулярки «как в перле» доступны через libpcre (perl compatible regular expression) ->http://www.pcre.org. Но API libpcre очень хорошо «перекликается» с POSIX.2 реализацией, которая поставляется со стандартной библиотекой. Найдите в заголовочных файлах Вашей системы regexp.h и возрадуйтесь. Это оно. Пользуюсь и той и другой реализацией. Всё хорошо. Дёргать ни чего не нужно.

/* Ну, разве что, можете дёрнуть себя за бейцы, когда захочется в следующий раз воспользоваться «доводом» скрипторуких — «переписать всё на ассемблере». С и без того «портируемый ассемблер». */

anonymous
()

отличная новость, правильный выбор ЯП, и либа, наверняка, много кому пригодится. не ожидал, что в гугеле что-то кодят на С без ++.

waker ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.