Помните тему о UUID?

0

1

Там зафакали идею с UUID. На работе спрашивал, тоже зафакали, мол тормозить будет. Но она красиво вписывается в мой код. Почему долго обьяснять. Вдаваться в подробности не буду, но вкратце мне это удобнее из-за генерации id сущности не в централизированном месте чтобы обеспечить уникальность.

Но что эти все разговоры стоят без прототипирования и бенчмарка?

Сделал небольшой бенч http://fileshare.in.ua/4519189

Запустил

MAVEN_OPTS="-Xbatch -Xmx800m" mvn clean package exec:java

Хотя вообщем-то память там до лампочки. Оно создает и чистит папку ./db. Вообще ничего страшного, но имею твердое правило предупреждать что моя программа что-то чистит.

Итак результат такой.

Inserts count:500000
Read count:100000
Putting 'uuid': 79.893 sec
Putting 'int': 70.266 sec
Reading 'uuid': 4.085 sec
Reading 'int': 2.734 sec
Reading 'uuid': 3.06 sec
Reading 'int': 2.687 sec
Reading 'uuid': 2.859 sec
Reading 'int': 9.188 sec
Reading 'uuid': 7.87 sec
Reading 'int': 6.901 sec
Reading 'uuid': 7.094 sec
Reading 'int': 6.844 sec

Могу это истолковать как отклонения в пределах погрешности, при достаточно высокой скорости около 30000 read/s, что в программе, которая собирается еще прочитаное отправлять по сети не будет играть роли. В программе для которой производится бенч блобы будут реально читаться и будут достаточно большими (>100 kb) чтобы их чтение занимало больше времени чем поиск

Ваши коментарии. Бенч не идеален, но думаю в определенной мере репрезентативен.

Ссылка

← Почему разработчики Linux не используют UML для документации?

Вопрос по getopts →

Ну вот, видно, что тормозит. ))))))))))))))

pathfinder ★★★★
(15.05.11 11:07:16 MSK)

Reading 'uuid': 2.859 sec
Reading 'int': 9.188 sec

WAIT, OH SHI...

pathfinder ★★★★
(15.05.11 11:09:21 MSK)

Ссылка

Ответ на: комментарий от pathfinder 15.05.11 11:07:16 MSK

Так как в принципе выполение этого кода - малый процент от всего кода, то я имел ввиду медленнее на порядок. Если нет, то мне подходит

~~vertexua~~ ★★★★★
(15.05.11 11:10:20 MSK) автор топика

Ссылка

Большое спасибо за исследование, мне оно как раз актуально.

Divius ★★
(15.05.11 14:33:02 MSK)

Ответ на: комментарий от Divius 15.05.11 14:33:02 MSK

Вместо спасибо я бы попросил запустить прогу один раз у себя и скинуть результат )

~~vertexua~~ ★★★★★
(15.05.11 14:34:47 MSK) автор топика

Ответ на: комментарий от vertexua 15.05.11 14:34:47 MSK

С удовольствием, если расскажешь, как это сделать (с Java не знаком, PostgreSQL стоит).

Divius ★★
(15.05.11 17:08:01 MSK)

Ответ на: комментарий от Divius 15.05.11 17:08:01 MSK

Это исследование специфичное для pure-java базы H2. Его нужно переделывать для Postgre. Если у тебя Linux, то тебе нужно установить Maven, распаковать архив по ссылке и выполнить ту команду которую я написал в топике. Maven остально сделает за тебя, скачает все плагины, все библиотеки, скачает СУБД, соберет программу, запустит СУБД, запустит программу, результаты будут выведены в консоль.

~~vertexua~~ ★★★★★
(15.05.11 17:11:23 MSK) автор топика

Ответ на: комментарий от vertexua 15.05.11 17:11:23 MSK

«Необходимо скачать 122 MБ архивов.» брррр...

Ща переделаю на Python, SQLAlchemy и PostgreSQL

Divius ★★
(15.05.11 18:32:44 MSK)

Ответ на: комментарий от Divius 15.05.11 18:32:44 MSK

Ну у вас я так понимаю вообще Java не стоит. Ну пропробуйте. Интерестно посмотреть как будет на PostgreSQL. Только может лучше не надо через ORM, будет оверхед не связанный с вопросом?

~~vertexua~~ ★★★★★
(15.05.11 18:38:11 MSK) автор топика

Ответ на: комментарий от vertexua 15.05.11 18:38:11 MSK

Мне интересно именно с ORM. К тому же сомневаюсь, что ORM внесёт существенную разницу.

Итак, воспроизвёл. Схема базы такая же, но добавил 3ю таблицу, где UUID хранился в VARCHAR. Используется UUID версии 1. В качестве бесполезной нагрузки в последнее поле записывался 1 кБ букв «X». Код не привожу, так как он сильно завязан на мой рабочий проект. Количество записей уменьшил.

Режим работы ORM - без autocommit. Вставка тестируется 2 раза: в первый всё добавляется одним блоком, ORM группирует вставки, в второй раз после каждой вставки делается flush.

Использовалось: PostgreSQL 8.4, Python 2.7.1, Psycopg2 2.4.1, SQLAlchemy 0.6.7.

Результаты:

$ /opt/ibd3/bin/python test.py 
Scheduling main function
Running reactor
Initializing RDBMS
Creating classes
Generating data
Inserting without flush (total count: 10000)
- INT: 4.375206 sec.
- Native UUID: 4.834080 sec.
- VARCHAR UUID: 4.819657 sec.
Inserting with flush (total count: 10000)
- INT: 90.772417 sec.
- Native UUID: 91.859727 sec.
- VARCHAR UUID: 92.680923 sec.
Reading results (total count: 10000)
- INT: 11.621372 sec.
- Native UUID: 12.285052 sec.
- Native UUID: 12.496054 sec.
Reactor stopped

Принципиальной разницы между INT и UUID, а также между «родным» UUID и просто VARCHAR я не вижу.

Divius ★★
(15.05.11 19:27:44 MSK)

Ответ на: комментарий от Divius 15.05.11 19:27:44 MSK

Поправка: с autocommit.

Divius ★★
(15.05.11 19:30:01 MSK)

Ссылка

Ответ на: комментарий от Divius 15.05.11 19:27:44 MSK

Можно сделать вывод что ему пофиг на тип в обеих БД, так как боттлнек не в этом. Так как естественно что 128 бит эфективнее VARCHAR. Наверное просто разница именно на этой операции несоизмерима с главной нагрузкой IO или чего-то еще. Вообще у вас как-то намного медленнее получается. У меня то embedded и H2 и так быстрее PostgreSQL если не надо сильно масштабировать, но похоже SQLAlchemy у вас дает какой-то неадекватный оверхед

У меня не было пакетного добавления. Но в моем алгоритме самой программы таки мало этого будет.

~~vertexua~~ ★★★★★
(15.05.11 19:34:06 MSK) автор топика

Ответ на: комментарий от vertexua 15.05.11 19:34:06 MSK

Тут надо делать поправку на Python ещё. Ну и на прочие непредвиденные вещи. Вот, например, насчёт «128 бит эффективнее VARCHAR»: Postgres всё равно всё в строку переводит.

Так или иначе, для моих задач это подходит с избытком,

Divius ★★
(15.05.11 20:13:45 MSK)

Ответ на: комментарий от Divius 15.05.11 20:13:45 MSK

Ну там строка короче )

~~vertexua~~ ★★★★★
(15.05.11 20:14:14 MSK) автор топика

Ссылка

Ответ на: комментарий от Divius 15.05.11 20:13:45 MSK

Вообще согласно бенчмаркам H2 во встроенном режиме, тоесть без оверхеда на связь быстрее в 10 раз чем PostgreSQL. Если в клиент-серверном, то меньше чем в полтора раза быстрее. Потому может быть таки боттл на связи

~~vertexua~~ ★★★★★
(15.05.11 20:20:00 MSK) автор топика

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← Почему разработчики Linux не используют UML для документации?

Development

Вопрос по getopts →

Похожие темы