Статья о производительности xml-парсеров

0

0

Scott Sanders опубликовал статью с результатами сравнения различных xml-парсеров. Проверке подверглись как известные продукты, такие как RapidXml, DOM4J, libxml2sax, Java6, так и менее известные - Aalto, Javolution, Woodstox, StaX, phobos и Tango.

По результатам сравнения видно, что с задачей обработки файлов одинакового объема быстрее всех справляется Tango pull parser. С небольшим отставанием идут Tango SAX, Tango DOM и RapidXml.

>>> XML Benchmarks - pros and cons of each library

>>> Why is D/Tango so fast at parsing XML?

>>> Результаты

Ссылка

← Audacious отказывается от GUI в стиле XMMS?

Audacious 1.5.0 released →

← 1 2 →

Ну, кто-нибудь еще считает, что D - отстой?

ShprotX ★
(13.03.08 22:53:47 MSK)

Ответ на: комментарий от ShprotX 13.03.08 22:53:47 MSK

Насколько я помню, никто и не считал, что D - отстой. Просто ему будет сложно конкурировать с уже устоявшимися гигантами. А парсер, аналогичный по скорости Tango можно написать и на C/C++, хоть и будет он ужасно страшным. Тут вся заслуга в квалификации автора - Kris Bell. Исходники, кстати, открыты: www.dsource.org/projects/tango/browser

naryl ★★★★★
(13.03.08 23:01:27 MSK) автор топика

Ответ на: комментарий от ShprotX 13.03.08 22:53:47 MSK

> Ну, кто-нибудь еще считает, что D - отстой?

Если писать исключительно XML-парсилки, то D - мой выбор! Аминь.

Дайте ему устаканиться, обрости библиотеками и биндингами, а потом уже сравнивайте его со старожилами.

troorl ★★
(13.03.08 23:08:20 MSK)

Ответ на: комментарий от ShprotX 13.03.08 22:53:47 MSK

А зачем он нужен? Для институтских поделий - возможно. А на предприятиях кодебейз С/С++ переписывать в него точно не будут.

anonymousI ★
(13.03.08 23:10:11 MSK)

А где expat ? :)

alex_custov ★★★★★
(13.03.08 23:11:34 MSK)

Кто знает неплохой гуй под D?

JackYF ★★★★
(13.03.08 23:11:56 MSK)

Ответ на: комментарий от troorl 13.03.08 23:08:20 MSK

> Дайте ему устаканиться, обрости библиотеками и биндингами, а потом уже сравнивайте его со старожилами.

+1 Этот тест доказывает, что на D можно написать _очень_ быструю xml парсилку, а на java - нет, но не более.

Чтобы добрые люди не копались в глубокой древовидной структуре: http://www.dsource.org/projects/tango/browser/trunk/tango/text/xml

PS Сам давно предпочитаю D для личных проектов.

naryl ★★★★★
(13.03.08 23:12:14 MSK) автор топика

Ссылка

Вы попытались получить доступ к адресу http://dotnot.org/blog/archives/2008/03/10/xml-benchmarks-updated-graphs-with..., который сейчас не доступен

ЛОР-эффект, однако

alex_custov ★★★★★
(13.03.08 23:12:20 MSK)

Ответ на: комментарий от anonymousI 13.03.08 23:10:11 MSK

> на предприятиях кодебейз С/С++ переписывать в него точно не будут.

А что, _новых_ приложений на Си/Си++ больше не нужно? Именно на это нацелен D.

tailgunner ★★★★★
(13.03.08 23:12:59 MSK)

Ответ на: комментарий от alex_custov 13.03.08 23:11:34 MSK

В Опере 9.2x

А в 9.5 они от него отказались.

anonymous
(13.03.08 23:15:43 MSK)

Ссылка

anonymousl, дизайнер языка лично сказал, что уже имеющиеся приложения на нем переписывать не надо.

alex_custov, обещали добавить. Следи за блогом.

JackYF, http://www.prowiki.org/wiki4d/wiki.cgi?action=browse&id=GuiLibraries&... Я использую fltk4D.

naryl ★★★★★
(13.03.08 23:15:46 MSK) автор топика

Ответ на: комментарий от anonymousI 13.03.08 23:10:11 MSK

C-codebase переписывать не нужно, он с ним совместим. Вот с С++ - нет.

JackYF ★★★★
(13.03.08 23:15:58 MSK)

Ссылка

Ответ на: комментарий от alex_custov 13.03.08 23:12:20 MSK

> ЛОР-эффект, однако

Первый раз наблюдаю ЛОР-эффект в действии. :) Буквально 10 минут назад по этой самой ссылке ходил.

naryl ★★★★★
(13.03.08 23:17:37 MSK) автор топика

Ссылка

А может кто-нибудь в двух словах расписать, как оно работает? То есть, его особенности я в общих чертах знаю, но как они достигаются?

troorl ★★
(13.03.08 23:18:08 MSK)

Ответ на: комментарий от JackYF 13.03.08 23:11:56 MSK

Вроде GTK+ пытаются прикрутить

http://www.gtk.org/language-bindings.html

anonymous
(13.03.08 23:19:11 MSK)

Ответ на: комментарий от troorl 13.03.08 23:18:08 MSK

Особенности чего? Языка, библиотеки, pull parser'ов?

naryl ★★★★★
(13.03.08 23:20:59 MSK) автор топика

Ссылка

Ответ на: комментарий от anonymous 13.03.08 23:19:11 MSK

> Вроде GTK+ пытаются прикрутить

DUI - объектно-ориентированная обертка. Саму GTK+ можно использовать прямо из D.

naryl ★★★★★
(13.03.08 23:22:48 MSK) автор топика

Ссылка

Ответ на: комментарий от naryl 13.03.08 23:15:46 MSK

Блогу плохо. Так нужно С++ переписывать или нет?

А что делать адептам мелкософт, которых в ынтерпрацзе завались?

anonymousI ★
(13.03.08 23:31:11 MSK)

Ответ на: комментарий от anonymousI 13.03.08 23:31:11 MSK

C++ можно привязать через C. Подругому никак. Только если переписать.

А адепты M$ один @#$ будут .NET продвигать, независимо от того, что лучше и удобнее.

naryl ★★★★★
(13.03.08 23:35:52 MSK) автор топика

Ссылка

Если X создано ради X, то X = отстой.

mono = отстой, d = отстой, windows = отстой.

C = ъ, Perl = Ъ, UNIX= Ъ.

Дальше сами.

~~ip1981~~ ☆☆
(13.03.08 23:41:35 MSK)

Ответ на: комментарий от naryl 13.03.08 23:01:27 MSK

> А парсер, аналогичный по скорости Tango можно написать и на C/C++, хоть и будет он ужасно страшным.

Не страшным, а просто недоступным для понимания людям с улицы.

Displacer ★★
(13.03.08 23:43:12 MSK)

Ссылка

Ответ на: комментарий от tailgunner 13.03.08 23:12:59 MSK

> А что, _новых_ приложений на Си/Си++ больше не нужно?

Приложения нужны, но еще нужнее грамотные люди, которые будут их писать. С этим нынче напряг, все ушли на жаводотнет.

Displacer ★★
(13.03.08 23:46:26 MSK)

Ответ на: комментарий от ip1981 13.03.08 23:41:35 MSK

> Если X создано ради X, то X = отстой.

Qt - отстой, Eclipse - отстой, дальше сами...

naryl ★★★★★
(13.03.08 23:48:19 MSK) автор топика

Ссылка

Ответ на: комментарий от Displacer 13.03.08 23:46:26 MSK

PS: ушли, конечно же не все, скорее те кто, был, те остались, новый народ не хочет учиться :)

Displacer ★★
(13.03.08 23:48:23 MSK)

Ссылка

Ответ на: комментарий от Displacer 13.03.08 23:46:26 MSK

На жаводотнет ушли неосилившие C/C++, и в этом нет ничего плохого... почти. Пусть лучше человек пишет глючные программки жаводотнете, чем не пишет вообще.

naryl ★★★★★
(13.03.08 23:51:58 MSK) автор топика

Ответ на: комментарий от naryl 13.03.08 23:15:46 MSK

>http://www.prowiki.org/wiki4d/wiki.cgi?action=browse&id=GuiLibraries&;... Я использую fltk4D.

Жить уже потихоньку можно. Пожелаем удачи проекту.

P.S. Пока юзаем C++/Qt... :)

eduard_pustobaev ★★
(14.03.08 00:01:42 MSK)

Ответ на: комментарий от Displacer 13.03.08 23:46:26 MSK

За деньги вам хоть на COBOL напишут ядро.

anonymousI ★
(14.03.08 00:09:13 MSK)

Ответ на: комментарий от eduard_pustobaev 14.03.08 00:01:42 MSK

Согласно главной странице проекта flkt4d, оно использует С++-код, поэтому там какие-то затыки со сборкой мусора. А нафиг тогда оно надо, если Qt есть?

Есть там один гуй на OpenGL, но он уже как полгода не разивается. Остаётся... официальный dwt. Кстати, а gdc с dwt дружит-то?

JackYF ★★★★
(14.03.08 00:16:29 MSK)

Ответ на: комментарий от anonymousI 14.03.08 00:09:13 MSK

За сколько человеко-лет? Внуки дождутся?

JackYF ★★★★
(14.03.08 00:16:54 MSK)

Ответ на: комментарий от JackYF 14.03.08 00:16:54 MSK

Деньги решают ^_^

Только сегодня разговаривал с работником фирмы обслуживающей всякие банки. Легаси софта на коболе говорит еще полно.

anonymousI ★
(14.03.08 00:26:57 MSK)

Ответ на: комментарий от naryl 13.03.08 23:51:58 MSK

> На жаводотнет ушли неосилившие C/C++

О да, там есть, что осиливать. :-D

Bohtvaroh ★★★★
(14.03.08 00:40:09 MSK)

Ссылка

Я, помнится, интереса ради проводил замеры втягивания 20-мегабайтного xml с помощью нескольких парсеров для плюсов (xerces-c, boost::property_tree, libxml++), и перетягивание в s-exp в Емаксе и sbcl (xml.el в emacs, xmls в sbcl. Медленнее всех оказался property_tree, а быстрее всех - sbcl и xmls. xml.el. Интерпретируемый elisp оказался где-то в середине.

mv ★★★★★
(14.03.08 00:47:31 MSK)

Ответ на: комментарий от anonymousI 14.03.08 00:26:57 MSK

> Деньги решают ^_^

Решает for fun, а деньги - бумага. Не так ли, товарищи линуксоиды?
*неуверенный голос из аудитории* истинно так, товарищ Жуков.

troorl ★★
(14.03.08 00:49:41 MSK)

Ответ на: комментарий от naryl 13.03.08 23:51:58 MSK

>На жаводотнет ушли неосилившие C/C++, и в этом нет ничего плохого... почти. Пусть лучше человек пишет глючные программки жаводотнете, чем не пишет вообще.

Чушь и провокация, вы либо совсем не в теме либо пионер короткие штанишки.

satellite13
(14.03.08 00:58:04 MSK)

Ответ на: комментарий от troorl 14.03.08 00:49:41 MSK

Можешь отдать всю эту бумагу мне, а fun оставь себе, я как-нибудь обойдусь.

anonymous
(14.03.08 01:02:45 MSK)

Ссылка

Ответ на: комментарий от anonymousI 13.03.08 23:10:11 MSK

>А зачем он нужен? Для институтских поделий - возможно. А на предприятиях кодебейз С/С++ переписывать в него точно не будут.

Когда-то точно также зарекались от переписывания тонн софта на FORTRAN и COBOL :D

~~KRoN73~~ ★★★★★
(14.03.08 01:09:21 MSK)

Ответ на: комментарий от ip1981 13.03.08 23:41:35 MSK

>Если X создано ради X, то X = отстой.

>mono = отстой, d = отстой, windows = отстой.

>C = ъ, Perl = Ъ, UNIX= Ъ.

Вот буквально в соседнем топике рвали тельняшку на груди, утверждая, что mono писался для Gnome. По этой трактовке выходит, что mono - Ъ :)

~~KRoN73~~ ★★★★★
(14.03.08 01:11:32 MSK)

Ссылка

Ответ на: комментарий от mv 14.03.08 00:47:31 MSK

Предложи автору добавить xmls.

naryl ★★★★★
(14.03.08 01:12:32 MSK) автор топика

Ссылка

Ответ на: комментарий от satellite13 14.03.08 00:58:04 MSK

> Чушь и провокация

Прошу прощения, сболтнул неподумав.

naryl ★★★★★
(14.03.08 01:13:53 MSK) автор топика

Ссылка

Ответ на: комментарий от JackYF 14.03.08 00:16:29 MSK

> Согласно главной странице проекта flkt4d, оно использует С++-код, поэтому там какие-то затыки со сборкой мусора.

Суть в том, что fltk4D своевременно убирает объекты fltk используя reference counting. Никаких затыков. По крайней мере утечек памяти быть не должно.

naryl ★★★★★
(14.03.08 01:29:03 MSK) автор топика

Ответ на: комментарий от KRoN73 14.03.08 01:09:21 MSK

В чем приемущества D? Где революционность-то? Новый мутант ЖабоЦеПепе? Нигде, ах извините.

anonymousI ★
(14.03.08 02:37:13 MSK)

Ответ на: комментарий от anonymousI 14.03.08 02:37:13 MSK

> Новый мутант ЖабоЦеПепе

4.2

Революционность (эволюционность) пару раз уже обсуждалась. Воспользуйтесь поиском.

naryl ★★★★★
(14.03.08 02:53:54 MSK) автор топика

Уже давно пытаюсь осилить D... Вот пока что нарыл:
1) GUI - http://www.dsource.org/projects/dwt, скрины - http://www.dsource.org/projects/dwt/wiki/ControlExample . Насчет GDC написано "not tested", но думаю работать должно - D 2.0 фичей не требует.
Есть еще DFL с Entice(IDE+form editor), но оно пока windows-only. Хотя от портирования автор не отказывался.
2) IDE - http://www.dsource.org/projects/poseidon . Написана на DWT, значит он вполне юзабельный, да и работа идет.
3) Библиотеки - http://www.dsource.org/projects/tango/wiki/Features .
Весьма немаленький список, да и бинарная совместимость с Си-либами есть.
4) Отладчик - http://ddbg.mainia.de/releases.html .

Для моих жалких студенческих поделий (компилятор недопаскаля) D вполне подходит.

//captcha lipter

anonymous
(14.03.08 06:28:44 MSK)

Ссылка

Ответ на: комментарий от naryl 14.03.08 02:53:54 MSK

Еще один красноглазый фанат D? Добро пожаловать! :)

anonymous
(14.03.08 06:29:30 MSK)

Ссылка

Ответ на: комментарий от naryl 13.03.08 23:51:58 MSK

> На жаводотнет ушли неосилившие C/C++

Жаба душит? Джава-программисты спать спокойно не дают? А по существу есть что сказать?

Bioreactor ★★★★★
(14.03.08 09:51:58 MSK)

Я так понимаю, что сервак с блогом тоже на D написан?

anonymous
(14.03.08 09:53:32 MSK)

Ответ на: комментарий от anonymous 14.03.08 09:53:32 MSK

> Я так понимаю, что сервак с блогом тоже на D написан?

:) +1 ни вчера, ни сегодня не открывается

dilmah ★★★★★
(14.03.08 10:38:31 MSK)

Ссылка

Sounds like one of the design choices is to ignore DTDs and entities. Fine, but they shouldn't call what they are parsing XML. By definition, this is not an XML parser.

No solution that requires the entire XML file be in memory can be called memory efficient. XML files are often program-generated data files and can be hundreds to thousands of megabytes long. OTOH, if their parser works out of a buffer and doesn't guarantee that array slices are valid after they are reported, they have some interesting buffer boundary issues. Further, if the parser is used DOM-style, there is no reduction in memory allocation; they are just passing the memory allocation burden to the parser user.

Как правильно замечают иностранные коллеги, сравнивали непонятно что с непонятно чем. Да, быстро, но - только в памяти, и - не XML-парзер, а "библиотека, обрабатывающая нечто, отдаленно похожее на XML".

stellar ★
(14.03.08 11:09:42 MSK)