LINUX.ORG.RU
ФорумAdmin

распределённая сетевая (p2p?) фс


0

4

Здравствуйте мои дорогие любители мощного железа и unix-подобных операционных систем. Тьфу ты, пересидел в толксах.

Есть ли файлуха без центральной ноды? Желательно присутствующая в ядре или работающая через fuse. Должна быть толерантна к выпадению узлов из сети. Скорость работы значения не имеет, главное чтобы стабильно работала. Нужна для экспериментов с кластером.

PS На википедию не посылайте :)

Желательно присутствующая в ядре

распределённая сетевая (p2p?) фс

Это очень плохо.

А так Apache HDFS

vertexua ★★★★☆ ()

tahoe-lafs, для параноиков tahoe-lafs-i2p

ptah_alexs ★★★★★ ()

GlusterFS. Работает через FUSE, так что в ядре есть :)

blind_oracle ★★★★★ ()

Посмотри вот на это: http://ceph.newdream.net/
Я все не могу добраться до плотно изучения их описания, так что точно сказать подходит оно или нет трудно...

VitalkaDrug ★★ ()
Ответ на: комментарий от vertexua

А так Apache HDFS

нее, только не это :). Я с этим натрахался на всю оставшуюся. Ну и naming node там не резервируется.

true_admin ★★★★★ ()
Ответ на: комментарий от ptah_alexs

tahoe-lafs, для параноиков tahoe-lafs-i2p

эх, тоже не понравилась. Зря я написал что скорость неважна. Неважна, но не настолько :). Плюс их fuse-драйвер не работал, несколько часов с ним ковырялся чтобы запахало... Но на крайний вариант сгодится :)

true_admin ★★★★★ ()
Ответ на: комментарий от VitalkaDrug

VitalkaDrug, blind_oracle, вот я на этих двух и остановился после прочтения википедии. Значит двигаюсь в правильном направлении.

Спасибо, буду тестить...

true_admin ★★★★★ ()
Ответ на: комментарий от true_admin

Пишу подобную штуку в качестве диплома со своими особенностями. Напишите пожалуйста список граблей HDFS и что бы вы хотели видеть в подобного рода разработке.

vertexua ★★★★☆ ()
Ответ на: комментарий от vertexua

Буду писать свои впечатления о 0.20 двухлетней давности (я её тестил)

1) отвратительные скрипты, прям лютый звиздец хардкодинга и быдлокодинга

2) очень тяжёлая, скорость откровенно низкая. Да, я знаю что на ней ставили рекорды скорости. Херня это всё. Это не только моё мнение, у меня знакомые занимались бенчмаркингом таких вещех, хадуп в заднице на их задачах был. В частности, какое-то mpi-based решение в 10тыщ раз O_o. Своими глазами не видел, поэтому может там пару ноликов и пририсовали :). Могу спросить что они делали если пересечёмся.

3) есть центральная точка отказа (naming node). Справедливости ради её можно реплицировать и вообще без неё сложно обойтись.

4) если говорить о hadoop то там нет locality-awareness. Т.е. таски равномерно распределяются по кластеру без учёта того где какие данные лежат

5) Опять-таки про hadoop. Очень медленный был холодный старт. Все ноды on-line, а хадуп ещё минут 10 (!) показывал что не все ноды он-лайн и поэтому всё переходит в read-only.http://www.opennet.ru/opennews/art.shtml?num=30932

Правда, это в основном по map/reduce а не по файлухам.

6) Зиллион других недостатков которые народ пытается устранять в других проектах. Т.е. не ты один пишешь диплом на эту тему :). Есть очень интересные идеи, погугли. Можно начать отсюда: http://www.quora.com/What-are-some-promising-open-source-alternatives-to-Hado... (и комменты тоже). Устанавливать проекты необязательно, просто почитай README почему авторы считают что их поделие лучше hadoop. Вот это так же посмсотри: http://www.opennet.ru/opennews/art.shtml?num=30932

true_admin ★★★★★ ()
Ответ на: комментарий от true_admin

1,2,4,5 - будет уделено большое внимание и этих проблем не будет.

3 - будет репликация, но полностью выпиливать не надо, так как будет удар по latency, которая должна стремиться к нулю.

6 - почитаю, спасибо

vertexua ★★★★☆ ()
Ответ на: комментарий от true_admin

И относительно ссылок. Я делаю конкурента не Hadoop, а HDFS. А там конкуренты именно MapReduce части, как я понял

vertexua ★★★★☆ ()
Ответ на: комментарий от vertexua

я надеюсь ты форкнул хадуб и не пишешь велосипед...

punya ★★ ()
Ответ на: комментарий от vertexua

Я делаю конкурента не Hadoop, а HDFS

эээ, а какой смысл конкурировать с HDFS? Оно ведь поверх хадупа сделано со всеми вытекающими. Я уверен что какой-нить Lustre или другая файлуха порвёт этот HDFS. Хотя бы потому что они могут, например, делать локальное кэширование итд итп.

Лучше тогда делать без огладки на HDFS вообще. Сам HDFS, имхо, устроен очень просто и, на самом деле, просто небольшая прослойка над хадупом. Слишком лёгкого конкурента себе нашёл :)

true_admin ★★★★★ ()
Ответ на: комментарий от vertexua

(facepalm) принципиально новая распределенная файловая система? дежавю... запилите пожалуйста нескучные обои!
все недостатки которые перечислили решаются форком, кроме тормознутости жабы

punya ★★ ()

Кстати, создать свой in-memory костыль с fuse не так уж сложно. Но я fuse нелюблю, он отвратительно написан (в духе openssl) и не поддерживает aio. Т.е. оно не может, например, светить наружу дескриптором на который можно было бы сделать select. Чем это плохо? Тем что с тем же gevent уже не скрестить. А может и скрестить, в рассылке пробегало что чувак зелёные нити сочетал с обычными. Надо будет перечитать...

true_admin ★★★★★ ()
Ответ на: комментарий от punya

Я написал почему форкать не имеет смысла :).

У хадупа только одно, но очень серьёзное преимущество - это целая платформа с кучей софта под неё. В остальном это сплошные костыли и компромисы. Не верите? Запустите hive поверх hadoop-а и радуйтесь мегафееричным тормозам которые заметны даже в консоле (простейший запрос на БД в десяток записей по паре секунд отрабатывает).

true_admin ★★★★★ ()
Ответ на: комментарий от true_admin

это значит что надо создать таску в https://issues.apache.org/jira/browse и форкнуть проект. когда исправят - смержить. ну я так понимаю
а все силы вложенные в свой собственный принципиально новый проект пойдут коту под хвост. исключение только в том случае если человек хочет переписать существующую функциональность например на си. может быть кто-то поддержит

punya ★★ ()
Ответ на: комментарий от punya

исключение только в том случае если человек хочет переписать существующую функциональность например на си

Это вообще не принципиально. man lmax. А то что ребята кодят в стиле уберынтерпрайза это их проблемы.

vertexua ★★★★☆ ()
Ответ на: комментарий от Fletch

OCFS2 ?

Ой, не, только не это. Начнём с того что это не распределённая файлуха, а централизованная с возможностью монтирования на нескольких серверах. Т.е. совсем другие яйца :)

true_admin ★★★★★ ()
Ответ на: комментарий от true_admin

А ты ишешь p2p в которой данные раскиданы по нодам?

Fletch ★★ ()
Ответ на: комментарий от true_admin

так первая ссылка в гугле по данной теме http://p2p-fs.sourceforge.net/ написано на плюсах. на первый взгляд код прекрасен. самая обычная сишная нотация, прокомментировано. файлы реализации маленькие, не загаженные

punya ★★ ()
Ответ на: комментарий от Fletch

Типа того. Я думаю меня даже устроит костыль на базе rsync который тупо синхронизирует папки на всех хостах :). Главное чтобы этот костыль быстро работал (например, через inotify).

Ты спросишь зачем именно p2p? Потому что ноды могут выпадать. Не хочу единую точку отказа.

true_admin ★★★★★ ()
Ответ на: комментарий от punya

так первая ссылка в гугле

«p2p-fs is read-only peer-to-peer file-system». Я тему создал не потому что гуглом пользоваться не умею :). Я хотел получить отзывы от людей которые это используют.

true_admin ★★★★★ ()
Ответ на: комментарий от vertexua

«and run business logic on a single thread.»

И это при 100k tps?? Где-то нас наябывают :)

true_admin ★★★★★ ()
Ответ на: комментарий от true_admin

тема очень интересная. буду следить. пойду пока попробую p2p-fs очень уж он мне понравился пусть даже пока read-only ^___^

punya ★★ ()
Ответ на: комментарий от true_admin

Именно. Дело в том что кроме бизнес логики есть еще куча сервисов. Вместо того чтобы наделать потоков и их синхронизировать они вешают по сервису на ядро и ничего не синхронизируют вообще никогда. Ну кроме иногда если кто-то столкнется на кольцевом буфере.

vertexua ★★★★☆ ()
Ответ на: комментарий от true_admin

p2pfs работает гут. главное после того как поставил зависимость fuse добавить себя в группу fuse и перелогинится. тогда можно монтировать без рута машину по сети.
послушал музычку с шары ~1 мбит битрейд. загрузка проца на качалке 0 SHR 1136 байт (атом 425). на клиенте тоже проц 0 SHR 1352 байт. не течет
вот кстати кому-нибудь интересная тема для вебсайта: форкнуть этот старый проект p2pfs (код реально кошерен), сделать кроссплатформенным, проверить шифруется ли трафик и музычку онлайн p2p слушать ^___^ насколько знаю такого сайта пока нету

punya ★★ ()
Ответ на: комментарий от punya

ЗЫ p2p-fs - LGPL (там внутри написано что либо GPL либо LGPL на выбор)

punya ★★ ()
Ответ на: комментарий от punya

Сейчас пиратов отнють не перехватом трафика ловят а вклиниваются в обменники и ловят пиров. Поэтому шифрование не поможет.

true_admin ★★★★★ ()
Ответ на: комментарий от true_admin

не обязательно пираты. у яндекс музыки есть например все песни Виктора Цоя официально (правда мп3 128, но это уже их личная беда). таким образом плюсы:
1) слушать музыку в своем любимом плеере
2) не наблюдать убогий бабский дизайн сайта
3) уменьшается время буферизации первой части песни и она не обрывается благодаря большому кол-ву пиров
4) юзать яндекс смогут даже в австралии а не только в рунете, вобщем везде
5) коллекция песен постоянно обновляется, вобщем профит нереальный =)

щас вклиниваются в обменники и ловят нубов. у кого нет шифрованного канала через сектор газа -> ливию -> новую гвинею -> тд тот лопух ^___^. а можно поверх тора раздачу контента реализовать. как говорится хозяин-барин =)

punya ★★ ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.