LINUX.ORG.RU

Новое поколение MapReduce в Apache Hadoop

 , , , , ,


0

1

В большом бизнесе использование нескольких больших кластеров с финансовой точки зрения более эффективно, чем много маленьких. Чем больше машин в кластере, тем большими наборами данных он может оперировать, больше задач могут выполняться одновременно. Реализация MapReduce в Apache Hadoop столкнулась с потолком масштабируемости на уровне около 4000 машин в кластере. Разрабатывается следующее поколение Apaсhe Hadoop MapReduce, в котором появится общий планировщик ресурсов и отдельный мастер для каждой отдельной задачи, управляющий выполнением программного кода. Так как простой оборудования по техническим причинам обходится дорого на таком масштабе, высокий уровень доступности проектируется с самого начала, равно как и безопасность и многозадачность, необходимые для поддержки одновременного использования большого кластера многими пользователями. Новая архитектура также будет более инновационной, гибкой и эффективной с точки зрения использования вычислительных ресурсов.

>>> Подробности



Проверено: maxcom ()

Ты лор с хаброй не перепутал, случаем?

baverman ★★★ ()

кластер, кластеризация, кластерные вычисления

anonymous_sapiens ★★★★ ()
Ответ на: комментарий от baverman

Если бы вместо «кластер» было написано «облако» - точно Хабр был бы. Но тут не так.

ns_ramesses ()

Я так понял, смысл новости в том, что на 4001 добавленой в кластер ноде апач хадуп таки сдался и начал работать?

А на 4000 нодах он только шуршал винтами, как эклипс на нетбуке?

AVL2 ★★★★★ ()

Технология - затыкающаяся уже на 4к узлах ? (:

sS ★★★★★ ()
Ответ на: комментарий от anonymous_sapiens

> кластеризация

Кластеризация --- это не про кластеры (или я не уловил сарказма)

sv75 ★★★★★ ()

>Реализация MapReduce в Apache Hadoop столкнулась с потолком масштабируемости на уровне около 4000 машин в кластере. Разрабатывается следующее поколение Apaсhe Hadoop MapReduce, в котором появится общий планировщик ресурсов и отдельный мастер для каждой отдельной задачи, управляющий выполнением программного кода.

может стоило отложить новость до тех времён, когда новое поколение Apaсhe Hadoop MapReduce будет разработано?

anonymous ()

янихренанепонял.жпг

ТС, ты хотел сказать, что начата разработка версии Hadoop, которая полезна на кластерах из >4К машин?

tailgunner ★★★★★ ()

кажется я понял, blinkov - это такой новый IBM_dw?

anonymous ()
Ответ на: комментарий от sv75

Тут как раз случай когда эти термины пересекаются :)

кластеризация на кластерах если хотите :))

sS ★★★★★ ()

Для местного быдла^Wобщества стоит писать попроще.

bga_ ★★ ()

Какой-то копипаст из середины какой-то статьи. Откройте для себя стиль оформления новостей с использованием абзацев и списков:
1-й абзац: Чегой-то это такое
2-й абзац, список: Чего умеет, чего не хватает
3-й абзац: Чего решено в связи с этой нехваткой переписывать и чьими силами.

anonymoos ★★★★★ ()
Ответ на: комментарий от AVL2

>появится общий планировщик ресурсов

iZEN>А где тэг java?

Теперь задачи свопиться будут по очереди.

GAMer ★★★★★ ()

Кластер, кластер, кластер, кластер.

Ехал кластер через реку, 
Видит кластер в реке кластер. 
Сунул кластер кластер в кластер. 
Кластер кластер кластер кластер. 

Новости о бетах договорились не публиковать на главной, а это даже не пре-альфа, а только намерение поделить шкуру неубитого медведя.

Camel ★★★★★ ()

Что это за маркетоидный легастенический понос?

Новая архитектура также будет более инновационной, гибкой и эффективной


А когда Иван Блинков будет писать более осмысленно, по делу и _факты_?

А теперь сравните с оригиналом:

Overview

In the Big Data business running fewer larger clusters is cheaper than running more small clusters. Larger clusters also process larger data sets and support more jobs and users.

The Apache Hadoop MapReduce framework has hit a scalability limit around 4,000 machines. We are developing the next generation of Apache Hadoop MapReduce that factors the framework into a generic resource scheduler and a per-job, user-defined component that manages the application execution. Since downtime is more expensive at scale high-availability is built-in from the beginning; as are security and multi-tenancy to support many users on the larger clusters. The new architecture will also increase innovation, agility and hardware utilization.


Дальше уже идет перевод ближе к тексту.

LamerOk ★★★★★ ()
Ответ на: комментарий от LamerOk

> Дальше уже идет перевод ближе к тексту.

Хотя, я, пожалуй, несколько погорячился...

LamerOk ★★★★★ ()

Это какое-то «bzzzzzzzzzzzzzz» а не новость.

yaws ()
Ответ на: комментарий от yaws

У дураков мысли сходятся.

Если идея правильная, то отчего бы её не использовать?

Я, правда, ни в халупе, ни в эрланге не копенгаген.

Camel ★★★★★ ()

Присоеденесь к тем кто против выкадывания на главную обсуждение шкур неубитого медведя. Когда выйдет, тогда и новость постить можно.

VestniK ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.