Hadoop

8

0

Всего сообщений: 12

Первая встреча HadoopKitchen

27 сентября в московском офисе Mail.Ru Group (Ленинградский проспект 39, строение 79) состоится первая встреча HadoopKitchen.

Программа мероприятия:

11:00 Регистрация.
12:00 Алексей Филановский (Cloudera Certified Developer for Apache Hadoop, старший консультант отдела продаж, Oracle) выступит с обзором новых возможностей Hadoop v2, будут разобраны случаи их применения и ряд практических примеров.
13:00 Никита Макеев (Data Team lead, IponWeb) расскажет о том, как расширить возможности Hadoop Streaming при работе с современными форматами данных Avro и Parquet.
14:00 Максим Лапань (ведущий программист проекта Поиск, Mail.Ru Group) перейдет от теории к практике: его доклад будет посвящен управлению кластерами Hadoop в Mail.RuGroup. Отдельно Максим остановится на сложностях, с которыми команда столкнулась по мере роста системы.
15:00 Обед.
С 15:45 до 17:45 в World Cafe вы получите отличную возможность коллективно выявить, выбрать и исследовать наиболее интересные для вас вопросы эксплуатации Hadoop.
В 18:00 слово возьмет Алексей Грищенко (Pivotal Enterprise Architect, EMC Corporation). Он поделится тонкостями архитектурного решения Pivotal HAWQ и расскажет о его взаимодействии с Hadoop.

>>> Подробности (meetup.com)

ymn
(18.09.14 20:58:34 MSK)

46 комментариев

Новости — Кластеры

Apache Hadoop 2

apache, hadoop

Apache Software Foundation анонсировал выход Hadoop 2.2, платформы для параллельной обработки больших объемов данных и параллельных вычислений. Версия 2.2 стала первой стабильной версией в семействе 2.x.

Основные новинки Hadoop 2.x:

YARN — новая платформа управления задачами и ресурсами кластера, расчитанная на одновременный запуск различных приложения на кластере. Помимо Map-Reduce приложений, ядро теперь поддерживает поточные приложения, приложения баз данных, серверы для выполнения интерактивных запросов и т.п. Подробности о отличии новой архитектуры от 1.x можно прочитать в анонсе в блоге компании Hortonworks.
NameNode, центральный индекс узел файловой системы HDFS, обзавелся собственными средствами обеспечения высокой доступности. В прошлых версиях NameNode являлась единой точкой отказа, и для повышения его надежности использовались сторонние решения
NameNode теперь может быть разделен на несколько узлов, обслуживающих различные пространства имен
HDFS, файловая система Hadoop, теперь так же доступна через NFSv3
Поддержка снапшотов HDFS
Поддержка шифрования трафика между узлами
Различные улучшения производительности

>>> Подробности (apache.org)

maxcom
(16.10.13 22:21:59 MSK)

39 комментариев

Новости — Кластеры

Cascading 2.0

hadoop, java

Cascading — Java-фреймворк, позволяющий быстро и легко разрабатывать приложения для анализа и управления данными — обновился до версии 2.0. Cascading работает на платформе Apache Hadoop 1.0 и может быть развёрнут на различных вычислительных средах.

( Подробнее о Cascading )

Некоторые особенности этого релиза:

поддержка Hadoop 1.0.2;
поддержка JUnit 4.8.x;
исходные коды теперь распространяются на условиях лицензии Apache 2.0 Licensing (до этого была GPLv3);
добавлен локальный режим работы, в котором не используются компоненты Hadoop;
изменены пакеты для многих внутренних типов для упрощения документации;
добавлен новый интерфейс для сбора подробной статистики;
многочисленные исправления ошибок;
репозиторий проекта переехал на гитхаб.

Новость на nixp.ru

>>> Подробности (cascading.org)

ymn
(14.06.12 18:19:16 MSK)

9 комментариев

Новости — Кластеры

Вышел Hadoop Connector для MongoDB

hadoop, mongodb

Представлен релиз Mongo+Hadoop Connector — набор модулей для платформы Hadoop, обеспечивающих подключение к NoSQL базе данных MongoDB. Теперь MongoDB может выступать в качестве источника данных для Hadoop (Map/Reduce и другие компоненты экосистемы Hadoop). Также возможна и обратная операция — запись результатов работы в MongoDB.

На данный момент поддерживаются основные API Hadoop (известные как Hadoop Common). Обеспечена поддержка записи в MongoDB из Pig и Streaming для выполнения Map/Reduce на Python.

Репозиторий проекта на github.

>>> Подробности (mongodb.org)

ymn
(13.04.12 11:51:00 MSK)

29 комментариев

Новости — Кластеры

Релиз Apache Mahout 0.6

apache, data mining, hadoop, machine learning, mahout

6 февраля увидел свет релиз Apache Mahout за номером 0.6.

Среди нововведений:

Уменьшение времени вычисления скалярного произведения векторов.
Поддержка MongoDB и Cassandra DataModel.
Исправлены некоторые ошибки и введены некоторые дополнительные улучшения.

Подробный список изменений доступен на сайте Apache Software Foundation.

Apache Mahout представляет собой реализацию большого количества алгоритмов машинного обучения: кластеризацию, классификацию, фильтрацию и т.п. Основные алгоритмы разработаны с применением парадигмы map/reduce и применяются для обработки и анализа больших объемов данных на платформе Hadoop. Apache Mahout выпускается на условиях Apache Software license 2.0.

Напоминаю, что Apache Hadoop — один из перспективных проектов Apache Foundation, который предоставляет собой свободно распространяемый набор утилит, библиотек и программный каркас для разработки и выполнения распределённых программ, работающих на кластерах из сотен и тысяч узлов.

>>> Подробности (apache.org)

ymn
(08.02.12 12:29:44 MSK)

9 комментариев

Новости — Кластеры

Apache Hadoop 1.0

apache, big data, hadoop

Apache Software Foundation анонисировал релиз Hadoop 1.0 - популярной платформы для обработки больших объемов данных.

Apache Hadoop активно используется в Amazon, AOL, Apple, eBay, Facebook, foursquare, HP, LinkedIn, Netflix, The New York Times, Rackspace, Twitter, Yahoo и других компаниях.

Версия 1.0 включает:

Поддержку СУБД Hbase - добавлены функции sync и flush, необходимые для поддержки журнала транзакций
Аутентификацию на базе Kerberos
Webhdfs - простой HTTP REST интерфейс для доступа к распределенной файловой системе Hadoop (HDFS)
Различные оптимизации и другие улучшения
Все функции Hadoop 0.20.205

>>> Подробности (apache.org)

maxcom
(10.01.12 14:13:46 MSK)

32 комментария

Новости — Open Source

Apache Hive 0.7

apache, hadoop, hive

Разработчики Apache Hive объявили о выходе новой версии: 0.7. Hive — система для выполнения аналитических запросов над большими объемами данных, постронная на базе Apache Hadoop. Hive предоставляет SQL-подобный язык запросов и хорошо подходит для ad-hoc запросов к большим данным. Подробнее о системе можно узнать из вводного видео.

В этой версии:

Поддержка индексов, при помощи которых возможно ускорение группировки, сортировки и объединения таблиц
Поддержка авторизации и аутентификации
Опциональная модель конкурентного доступа с блокировками, построенная на базе Apache Zookeeper

>>> Подробности (search-hadoop.com)

maxcom
(01.04.11 13:21:26 MSK)

11 комментариев

Новости — Интернет

Архитектура Twitter

apache, cassandra, flockdb, hadoop, memcached, mysql, ruby, ruby on rails, scala, twitter, unicorn

Подробности о технической реализации и внутренней архитектуре одного из самых быстроразвивающихся интернет-проектов.

Среди используемых технологий:

Apache + mod_proxy
Ruby on Rails + Unicorn
FlockDB + MySQL
Cassandra
Hadoop

>>> Подробности (insight-it.ru)

blinkov
(07.03.11 11:43:13 MSK)

98 комментариев (стр. 2)

Новости — Кластеры

Новое поколение MapReduce в Apache Hadoop

apache, development, hadoop, кластер, масштабируемость, технологии

В большом бизнесе использование нескольких больших кластеров с финансовой точки зрения более эффективно, чем много маленьких. Чем больше машин в кластере, тем большими наборами данных он может оперировать, больше задач могут выполняться одновременно. Реализация MapReduce в Apache Hadoop столкнулась с потолком масштабируемости на уровне около 4000 машин в кластере. Разрабатывается следующее поколение Apaсhe Hadoop MapReduce, в котором появится общий планировщик ресурсов и отдельный мастер для каждой отдельной задачи, управляющий выполнением программного кода. Так как простой оборудования по техническим причинам обходится дорого на таком масштабе, высокий уровень доступности проектируется с самого начала, равно как и безопасность и многозадачность, необходимые для поддержки одновременного использования большого кластера многими пользователями. Новая архитектура также будет более инновационной, гибкой и эффективной с точки зрения использования вычислительных ресурсов.

>>> Подробности (insight-it.ru)

blinkov
(20.02.11 13:22:29 MSK)

23 комментария

Новости — Кластеры

Apache Hadoop в Yahoo

apache, hadoop, yahoo, история успеха

Eric Baldeschwieler, вице-президент Yahoo по направлению разработки Apache Hadoop, опубликовал историю использования продукта в Yahoo.

В 2006 году Yahoo потребовалась среда для хранения и обработки больших объемов данных. В тот момент у конкурентов уже были собственные реализации map-reduce и кластерного хранилища, и вместо разработки своего проприетарного решения Yahoo приняла решение подключиться к разработке открытого Apache Hadoop.

В настоящий момент около сотни сотрудников компании работают над проектом Apache Hadoop и связанными с ним подпроектами, такими как Pig, ZooKeeper, Hive, Howl, HBase и Oozie. В дата центрах Hadoop запущен на около 40000 узлов (более 300 тысяч процессорных ядер). Hadoop используется в задачах поиска, рекламы, определении спама и др.

>>> Подробности (yahoo.com)

maxcom
(31.01.11 15:41:44 MSK)

46 комментариев

Новости — Java

Hadoop на Harmony

apache, hadoop, harmony, ibm, java, jvm

Guillermo Cabrera из подразделения IBM Emerging Technology объявил об успешном запуске среды распределённых вычислений Hadoop на платформе Apache Harmony. Подобная среда является хорошим стресс-тестом, демонстрирующим стабильность платформы.

Для запуска была выбрана сборка Harmony Select 6 - легковесная версия JVM без поддержки GUI, апплетов и некоторых других технологий.

Работы по подготовке Harmony к запуску Hadoop длились несколько месяцев.

>>> Подробности (apache.org)

maxcom
(19.11.10 00:56:34 MSK)

35 комментариев

Новости — Кластеры

Google разрешил использование технологии MapReduce в Apache Hadoop

apache, google, hadoop, mapreduce

Компания Google официально делегировала развиваемым под эгидой Apache свободным проектам права по использованию технологий, фигурирующих в патенте 7650331 («Системы и методы эффективной высокомасштабируемой обработки данных»). В патенте изложены принципы реализации метода MapReduce, который активно используется в таких проектах, как Apache Hadoop и Apache MapReduce.

Очередной раз google на деле показал хорошее отношение к проектам с открытым исходным кодом.

Apache Hadoop

Apache Mapreduce

Новость на английском

>>> Подробности (opennet.ru)

real_maverick
(28.04.10 00:21:19 MSK)

67 комментариев (стр. 2)