200 Мб в день. Стоит ли делать предварительную оптимизацию?

0

2

Здравствуйте!

Пилю тут потихоньку свой проект. И по предварительным расчетам на среднюю нагрузку у меня получается, что на сайте в базу будет добавляться около 200 Мб в день.

Добавляема информация - это XML описания разных объектов. В XML коде много повторяющихся тегов, так что XML описание объекта ужимается ZIP алгоритмом более чем в 10 раз.

Вот и думаю, стоит ли менять формат хранения описания объектов с чистого XML (поле типа TEXT без ограничения длинны) на упакованный XML через ZIP (поле типа BLOB)? Если и менять, то стоит ли вообще перейти с XML на JSON, он вроде более компактный, и его уже зипать?

Что лучше - хранить неупакованные данные в 10 раз больше или зипать/раззипать при чтении-записи, но объем в базе будет в 10 раз меньше?

Обращение к этим данным идет только в ответ на действия пользователей, одни данные пользователь просматривает примерно 2-3 минуты.

Ссылка

←	Авторизация на сайте

Книги по вебдизайну

→

Что лучше - хранить неупакованные данные в 10 раз больше или зипать/раззипать при чтении-записи, но объем в базе будет в 10 раз меньше?

Не стесняйся, скажи, что у тебя маленький... Хард или процессор?

Что дешевле, то и сделай :)

Munhgauzen
(02.06.12 13:54:56 MSK)

Прелагаю тебе осилить какую-нибудь базу данных

derlafff ★★★★★
(02.06.12 13:59:58 MSK)

Ответ на: комментарий от Munhgauzen 02.06.12 13:54:56 MSK

Хард или процессор?

Или память? Или деньги чтоб все это барахло оплатить?

Я вообще такими проектами раньше не занимался. Посему не представляю, где будет узкое место. Если база за полгода станет размером в 30 Гб, как считаешь, на 4 Гб ОЗУ она быстро будет ворочиться?

Xintrea ★★★★★
(02.06.12 14:01:16 MSK) автор топика

Возврат из сжатого состояния при чтении из базы оформить парой строк можно (условно, в смысле там не вагон кода). Помечай записи по типу, сжатые и наоборот. При чтении определяй надо ли разжимать перед десериализацией. Сделай часть данных зазиповаными, и поэксплуатируй, посмотри что тебе больше нравится. Потом можно будет прогнать роботом и все привести в одну форму. А в какую? Решишь на основе наблюдений.

Munhgauzen
(02.06.12 14:01:51 MSK)

Ссылка

Ответ на: комментарий от derlafff 02.06.12 13:59:58 MSK

Да, забыл сказать.

База пока MySQL, таблицы MyISAM, запросы идут через слой абстракции ActiveRecord в Codeigniter, так что перейти на что-то более серьезное большого труда не составит.

Xintrea ★★★★★
(02.06.12 14:02:25 MSK) автор топика

Ссылка

Ответ на: комментарий от Xintrea 02.06.12 14:01:16 MSK

Если база за полгода станет размером в 30 Гб, как считаешь, на 4 Гб ОЗУ она быстро будет ворочиться?

Скорее так, если я захочу ее кэшировать, и у меня много пользователей, а база большая, то памяти надо будет со временем добавить.

И если потом много-много пользователей будут часто-часто дергать данные. То потом проц кончится и все данные разархивируешь.

Munhgauzen
(02.06.12 14:05:45 MSK)

Ссылка

Ответ на: комментарий от Xintrea 02.06.12 14:01:16 MSK

Не парься особо. Введи прогу в эксплуатацию «побыстрее». Если она окажется живучей, и ее не кинут по забывчивости... Потом будешь оптимизировать не на голом месте а по факту наблюдений.

Если бы Бог был, он явно этот мир не оптимизировал предварительно. А мы можем только учиться у великих мастеров :)

Munhgauzen
(02.06.12 14:08:48 MSK)

Ответ на: комментарий от Munhgauzen 02.06.12 14:08:48 MSK

Ну в общем, видимо я все-таки добавлю ZIP упаковку, там всего-то пару строк в модели поправить. А структуру XML (и тем более переводить на JSON) пока трогать никак не буду, пусть просто XML упакованным хранится.

Xintrea ★★★★★
(02.06.12 14:39:23 MSK) автор топика

Тогда уж Protocol Buffers какой-нибудь вместо XML, да и вообще зачем хранить XML в БД? Особенно реляционной.

xpahos ★★★★★
(02.06.12 15:57:16 MSK)

Ссылка

А зачем складывать в базу xml? Не логичнее ли распарсить и сложить непосредственно данные? Как бы хранить теги - не совсем верно, имхо.

shell-script ★★★★★
(02.06.12 16:08:30 MSK)

Ссылка

ИМХО все зависит от того что ты с этими данными делаешь.
В этой таблице еще какие-то данные хранятся? Если да, то xml лучше в файлы складывать или отдельную таблицу. Т.к. если ты выборку по некоторым параметрам из этой таблицы делаешь (не по примари ключу) то база будет тормозить со временем.

pi11 ★★★★★
(02.06.12 17:57:23 MSK)

Ссылка

Мы в аналогичном случае использовали гибрид SQL + NoSQL

В вашем случае XML смело кладется просто в любое NoSQL хранилище и все.

roller ★★★
(02.06.12 22:07:44 MSK)

Я бы заюзал сжатие, но обязательно с хорошими хитрожопыми кешами.

~~moscwich~~ ★
(02.06.12 23:53:47 MSK)

Ссылка

Ответ на: комментарий от roller 02.06.12 22:07:44 MSK

Да вот уже у меня сил не осталось с NoSQL разбираться. Я понимаю что такое key-value хранилище, но не работал с ними, не знаю какие они бывают, вообще темный лес.

Xintrea ★★★★★
(02.06.12 23:57:00 MSK) автор топика

Ответ на: комментарий от Xintrea 02.06.12 23:57:00 MSK

redis бери. Там пара типов данных и SET/GET для них. Вообще почитай что есть, возможно тебе будет проще в Key-Value хранить не сериализованные данные. Например хэши для Redis.

xpahos ★★★★★
(03.06.12 00:07:50 MSK)

Ответ на: комментарий от xpahos 03.06.12 00:07:50 MSK

redis бери.

И как на редисе будет 30 гб база работать?

pi11 ★★★★★
(03.06.12 00:24:53 MSK)

Ответ на: комментарий от Xintrea 02.06.12 23:57:00 MSK

Ты можешь объяснить, что ты с этими данными делаешь?
30 Гб не очень большая таблица, только работать надо по примари кей и все будет ок.

pi11 ★★★★★
(03.06.12 00:28:36 MSK)

Ответ на: комментарий от pi11 03.06.12 00:28:36 MSK

Да по большей части складываю расчеты солвера, каждый расчет 32-50Кб в XML виде, которые представляют интерес примерно неделю. В день 4-5 тыщщ расчетов, итого 200Мб в день, как я и говорил.

Некоторые расчеты скажем так, интересны для истории, и к ним обращаются постоянно, их не больше 1-3%. Основная масса вообще невостребована, но они должны храниться в обязательном порядке, потому что пользователь может обратиться к какому угодно.

Примерно так.

Xintrea ★★★★★
(03.06.12 01:05:02 MSK) автор топика

Ответ на: комментарий от pi11 03.06.12 00:24:53 MSK

И как на редисе будет 30 гб база работать?

есть такая вещь как шардинг, но в любом случае держать сериализованные данные в BLOB'ах идиотизм.

xpahos ★★★★★
(03.06.12 01:12:44 MSK)

Ответ на: комментарий от Xintrea 03.06.12 01:05:02 MSK

Никаких проблем - хранишь в отдельной таблице или можно даже файлах. Тянешь по ID - все будет летать на больших базах.
Параметры (дата отчета и все остальное) - в отдельной таблице по которой и делаешь выборку/поиск отчета.

pi11 ★★★★★
(03.06.12 01:13:07 MSK)

Ответ на: комментарий от xpahos 03.06.12 01:12:44 MSK

есть такая вещь как шардинг

Шардинг для такой задачи - пушкой по воробьям. На одном небольшом сервере все будет летать.

pi11 ★★★★★
(03.06.12 01:14:55 MSK)

Ссылка

Ответ на: комментарий от xpahos 03.06.12 00:07:50 MSK

redis бери. Там пара типов данных и SET/GET для них. Вообще почитай что есть, возможно тебе будет проще в Key-Value хранить не сериализованные данные. Например хэши для Redis.

Меня вот что смущает в Reddis:

Хранит базу данных в оперативной памяти, снабжена механизмами снимков и журналирования для обеспечения постоянного хранения.
...
Все данные во время работы целиком загружаются в память, но в тоже время они сохраняются на диске. После перезапуска сервера они снова загружаются в память.

Это что же получается, для базы в 30 Гб надо ставить операционку на 64 бит и 30 Гб оперативки пихать?

Xintrea ★★★★★
(03.06.12 01:21:20 MSK) автор топика

Ответ на: комментарий от pi11 03.06.12 01:13:07 MSK

Никаких проблем - хранишь в отдельной таблице или можно даже файлах. Тянешь по ID - все будет летать на больших базах.

Ок, сделаю значит таблицу из двух полей - id (Primary key) и data.

Какой тип таблицы выбрать - MyISAM или InnoDB?

Xintrea ★★★★★
(03.06.12 01:41:58 MSK) автор топика

Ответ на: комментарий от Xintrea 03.06.12 01:41:58 MSK

MyISAM быстрее, а фишки InnoDB тут не нужны.

pi11 ★★★★★
(03.06.12 01:50:49 MSK)

Ответ на: комментарий от pi11 03.06.12 01:50:49 MSK

Правда я с MySQL очень давно не работал. Поэтому лучше погугли сравнения.

pi11 ★★★★★
(03.06.12 01:53:59 MSK)

Ссылка

Ответ на: комментарий от Xintrea 03.06.12 01:21:20 MSK

Это что же получается, для базы в 30 Гб надо ставить операционку на 64 бит и 30 Гб оперативки пихать?

ну 128Гб не так уж и много ;)

xpahos ★★★★★
(03.06.12 11:11:04 MSK)

Ссылка

Записывай в БД не XML, а серилизованные объекты, из которых ты этот XML формируешь. Изменений должно быть не много, а по объему выиграешь.

dizza ★★★★★
(03.06.12 21:38:29 MSK)

Ответ на: комментарий от dizza 03.06.12 21:38:29 MSK

Записывай в БД не XML, а серилизованные объекты, из которых ты этот XML формируешь. Изменений должно быть не много, а по объему выиграешь.

Эээ ну тут как бы PHP особо XML не занимается, он только его передает туда-сюда между решателем на C++ и JS на фтронтэнде.

Так что промежуточно сериализивать, а потом постоянно генерить XML для запросов C++/JS - походу нагрузка на CPU будет весьма сильна. ZIP упаковка будет и то быстрее, чем алгоритм на PHP, обходящий узлы объекта/массива и генерящий XML.

Xintrea ★★★★★
(03.06.12 22:45:34 MSK) автор топика

Ссылка

мне кажется ты что-то неверно спроектировал. Если есть инфа, то хранить её надо в табличной форме, как и требует база. В этом случае база сможет применять множество уже давно до нас написанных оптимизаций. Индексы там всякие и прочее. Тормозит не база, тормозит неправильная её структура. Есть базы на сотни гиг, которые правильным одним запросом могут выдать кучу инфы и ничо не надо жать, зипом тем более. Советую попробовать переструктурировать базу и перейти на постгресс.

~~Alve~~ ★★★★★
(03.06.12 22:52:59 MSK)

Ссылка

используй mongodb, складывай туда json. будет даже индексированный поиск по всей этой фигне

heisenberg ★★
(04.06.12 10:14:07 MSK)

Ответ на: комментарий от heisenberg 04.06.12 10:14:07 MSK

используй mongodb

Нафига она тут???

pi11 ★★★★★
(05.06.12 05:00:43 MSK)

Ссылка

я бы на твоем месте оставил все как есть - лучше упереться в диск, в его объем, чем упиреться в то что тебе таки понадобилось иметь не сжатые данные внутри базы ;)

pechorin
(05.06.12 13:35:21 MSK)

Ссылка

Ответ на: комментарий от Xintrea 02.06.12 14:39:23 MSK

Berkeley DB XML.

В качестве отправной точки...

Вот это — http://www.oracle.com/technetwork/products/berkeleydb/overview/index-083851.html

Да вот уже у меня сил не осталось с NoSQL разбираться. Я понимаю что такое key-value хранилище, но не работал с ними, не знаю какие они бывают, вообще темный лес.

Ну и это туда же — http://www.oracle.com/technetwork/articles/cloudcomp/berkeleydb-nosql-323570....

На самом деле, NoSQL дааавным-давно уже используется. Только народ предпочитает об этом не знать. ;)

mr_noone
(06.06.12 15:03:14 MSK)

Ссылка

Ответ на: комментарий от Xintrea 03.06.12 01:41:58 MSK

Будете много смеяться...

... но вот MySQL для быстрой и относительно небольшой БД, я бы не рекомендовал. Berkley DB во все поля (тип базы BDB в MySQL это оно и есть, SQLite это надстройка над нею же, есть возможность писать на практически любом языке код по работе с нею, скорость просто очумевающая, особенно если оттуда убрать все упоминания об SQL и использовать API).

Для быстрой и действительно большой БД, я бы рекомендовал PostgreSQL.

По файловому хранилищу я бы рекомендовал разместить БД на xfs. Это относится к БД любого рода. В особенности, если у Вас «много чтения» при «мало записи». XFS была портирована под Linux, но писалась-то она изначально для мультимедии всяческой — много чтений из файлов довольно больших по объёму. В чём-то похоже на работу БД сч диском.

mr_noone
(06.06.12 15:10:25 MSK)

Ссылка

Возьми постгрес и сериализуй данные туда, там есть специальные типы для этого. Если структура данных постоянна, то гораздо лучше разложить их по таблицам и отношениям, намного лучше. А мускль не используй, он для простеньких баз данных в несколько мегабайт, что бы тебе ни говорили его фанбои.

Wizard_ ★★★★★
(06.06.12 22:01:13 MSK)

Ссылка

Кстати, постгрес умеет напрямую работать с XML, чуешь? А редис тебе не нужен, он для хитрого кеширования часто используемых данных используется, это не твой случай.

Wizard_ ★★★★★
(06.06.12 22:07:02 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	Авторизация на сайте

Web-development

Книги по вебдизайну

→

Berkeley DB XML.

Будете много смеяться...

Похожие темы