LINUX.ORG.RU

Hadoop


8

0

Всего сообщений: 12

Первая встреча HadoopKitchen

 , ,

Группа Конференции и встречи

27 сентября в московском офисе Mail.Ru Group (Ленинградский проспект 39, строение 79) состоится первая встреча HadoopKitchen.

Программа мероприятия:

  • 11:00 Регистрация.
  • 12:00 Алексей Филановский (Cloudera Certified Developer for Apache Hadoop, старший консультант отдела продаж, Oracle) выступит с обзором новых возможностей Hadoop v2, будут разобраны случаи их применения и ряд практических примеров.
  • 13:00 Никита Макеев (Data Team lead, IponWeb) расскажет о том, как расширить возможности Hadoop Streaming при работе с современными форматами данных Avro и Parquet.
  • 14:00 Максим Лапань (ведущий программист проекта Поиск, Mail.Ru Group) перейдет от теории к практике: его доклад будет посвящен управлению кластерами Hadoop в Mail.RuGroup. Отдельно Максим остановится на сложностях, с которыми команда столкнулась по мере роста системы.
  • 15:00 Обед.
  • С 15:45 до 17:45 в World Cafe вы получите отличную возможность коллективно выявить, выбрать и исследовать наиболее интересные для вас вопросы эксплуатации Hadoop.
  • В 18:00 слово возьмет Алексей Грищенко (Pivotal Enterprise Architect, EMC Corporation). Он поделится тонкостями архитектурного решения Pivotal HAWQ и расскажет о его взаимодействии с Hadoop.

>>> Подробности (meetup.com)

ymn
()

Apache Hadoop 2

 ,

Группа Кластеры

Apache Software Foundation анонсировал выход Hadoop 2.2, платформы для параллельной обработки больших объемов данных и параллельных вычислений. Версия 2.2 стала первой стабильной версией в семействе 2.x.

Основные новинки Hadoop 2.x:

  • YARN — новая платформа управления задачами и ресурсами кластера, расчитанная на одновременный запуск различных приложения на кластере. Помимо Map-Reduce приложений, ядро теперь поддерживает поточные приложения, приложения баз данных, серверы для выполнения интерактивных запросов и т.п. Подробности о отличии новой архитектуры от 1.x можно прочитать в анонсе в блоге компании Hortonworks.
  • NameNode, центральный индекс узел файловой системы HDFS, обзавелся собственными средствами обеспечения высокой доступности. В прошлых версиях NameNode являлась единой точкой отказа, и для повышения его надежности использовались сторонние решения
  • NameNode теперь может быть разделен на несколько узлов, обслуживающих различные пространства имен
  • HDFS, файловая система Hadoop, теперь так же доступна через NFSv3
  • Поддержка снапшотов HDFS
  • Поддержка шифрования трафика между узлами
  • Различные улучшения производительности

>>> Подробности (apache.org)

maxcom
()

Cascading 2.0

 ,

Группа Кластеры

Cascading — Java-фреймворк, позволяющий быстро и легко разрабатывать приложения для анализа и управления данными — обновился до версии 2.0. Cascading работает на платформе Apache Hadoop 1.0 и может быть развёрнут на различных вычислительных средах.

( Подробнее о Cascading )

Некоторые особенности этого релиза:

  • поддержка Hadoop 1.0.2;
  • поддержка JUnit 4.8.x;
  • исходные коды теперь распространяются на условиях лицензии Apache 2.0 Licensing (до этого была GPLv3);
  • добавлен локальный режим работы, в котором не используются компоненты Hadoop;
  • изменены пакеты для многих внутренних типов для упрощения документации;
  • добавлен новый интерфейс для сбора подробной статистики;
  • многочисленные исправления ошибок;
  • репозиторий проекта переехал на гитхаб.

Новость на nixp.ru

>>> Подробности (cascading.org)

ymn
()

Вышел Hadoop Connector для MongoDB

 ,

Группа Кластеры

Представлен релиз Mongo+Hadoop Connector — набор модулей для платформы Hadoop, обеспечивающих подключение к NoSQL базе данных MongoDB. Теперь MongoDB может выступать в качестве источника данных для Hadoop (Map/Reduce и другие компоненты экосистемы Hadoop). Также возможна и обратная операция — запись результатов работы в MongoDB.

На данный момент поддерживаются основные API Hadoop (известные как Hadoop Common). Обеспечена поддержка записи в MongoDB из Pig и Streaming для выполнения Map/Reduce на Python.

Репозиторий проекта на github.

>>> Подробности (mongodb.org)

ymn
()

Релиз Apache Mahout 0.6

 , , , ,

Группа Кластеры

6 февраля увидел свет релиз Apache Mahout за номером 0.6.

Среди нововведений:

  • Уменьшение времени вычисления скалярного произведения векторов.
  • Поддержка MongoDB и Cassandra DataModel.
  • Исправлены некоторые ошибки и введены некоторые дополнительные улучшения.

Подробный список изменений доступен на сайте Apache Software Foundation.

Apache Mahout представляет собой реализацию большого количества алгоритмов машинного обучения: кластеризацию, классификацию, фильтрацию и т.п. Основные алгоритмы разработаны с применением парадигмы map/reduce и применяются для обработки и анализа больших объемов данных на платформе Hadoop. Apache Mahout выпускается на условиях Apache Software license 2.0.

Напоминаю, что Apache Hadoop — один из перспективных проектов Apache Foundation, который предоставляет собой свободно распространяемый набор утилит, библиотек и программный каркас для разработки и выполнения распределённых программ, работающих на кластерах из сотен и тысяч узлов.

>>> Подробности (apache.org)

ymn
()

Apache Hadoop 1.0

 , ,

Группа Кластеры

Apache Software Foundation анонисировал релиз Hadoop 1.0 - популярной платформы для обработки больших объемов данных.

Apache Hadoop активно используется в Amazon, AOL, Apple, eBay, Facebook, foursquare, HP, LinkedIn, Netflix, The New York Times, Rackspace, Twitter, Yahoo и других компаниях.

Версия 1.0 включает:

  • Поддержку СУБД Hbase - добавлены функции sync и flush, необходимые для поддержки журнала транзакций
  • Аутентификацию на базе Kerberos
  • Webhdfs - простой HTTP REST интерфейс для доступа к распределенной файловой системе Hadoop (HDFS)
  • Различные оптимизации и другие улучшения
  • Все функции Hadoop 0.20.205

>>> Подробности (apache.org)

maxcom
()

Apache Hive 0.7

 , , hive

Группа Open Source

Разработчики Apache Hive объявили о выходе новой версии: 0.7. Hive — система для выполнения аналитических запросов над большими объемами данных, постронная на базе Apache Hadoop. Hive предоставляет SQL-подобный язык запросов и хорошо подходит для ad-hoc запросов к большим данным. Подробнее о системе можно узнать из вводного видео.

В этой версии:

  • Поддержка индексов, при помощи которых возможно ускорение группировки, сортировки и объединения таблиц
  • Поддержка авторизации и аутентификации
  • Опциональная модель конкурентного доступа с блокировками, построенная на базе Apache Zookeeper

>>> Подробности (search-hadoop.com)

maxcom
()

Архитектура Twitter

 , , flockdb, , , , , , , ,

Группа Интернет

Подробности о технической реализации и внутренней архитектуре одного из самых быстроразвивающихся интернет-проектов.

Среди используемых технологий:

  • Apache + mod_proxy
  • Ruby on Rails + Unicorn
  • FlockDB + MySQL
  • Cassandra
  • Hadoop

>>> Подробности (insight-it.ru)

blinkov
()

Новое поколение MapReduce в Apache Hadoop

 , , , , ,

Группа Кластеры

В большом бизнесе использование нескольких больших кластеров с финансовой точки зрения более эффективно, чем много маленьких. Чем больше машин в кластере, тем большими наборами данных он может оперировать, больше задач могут выполняться одновременно. Реализация MapReduce в Apache Hadoop столкнулась с потолком масштабируемости на уровне около 4000 машин в кластере. Разрабатывается следующее поколение Apaсhe Hadoop MapReduce, в котором появится общий планировщик ресурсов и отдельный мастер для каждой отдельной задачи, управляющий выполнением программного кода. Так как простой оборудования по техническим причинам обходится дорого на таком масштабе, высокий уровень доступности проектируется с самого начала, равно как и безопасность и многозадачность, необходимые для поддержки одновременного использования большого кластера многими пользователями. Новая архитектура также будет более инновационной, гибкой и эффективной с точки зрения использования вычислительных ресурсов.

>>> Подробности (insight-it.ru)

blinkov
()

Apache Hadoop в Yahoo

 , , ,

Группа Кластеры

Eric Baldeschwieler, вице-президент Yahoo по направлению разработки Apache Hadoop, опубликовал историю использования продукта в Yahoo.

В 2006 году Yahoo потребовалась среда для хранения и обработки больших объемов данных. В тот момент у конкурентов уже были собственные реализации map-reduce и кластерного хранилища, и вместо разработки своего проприетарного решения Yahoo приняла решение подключиться к разработке открытого Apache Hadoop.

В настоящий момент около сотни сотрудников компании работают над проектом Apache Hadoop и связанными с ним подпроектами, такими как Pig, ZooKeeper, Hive, Howl, HBase и Oozie. В дата центрах Hadoop запущен на около 40000 узлов (более 300 тысяч процессорных ядер). Hadoop используется в задачах поиска, рекламы, определении спама и др.

>>> Подробности (yahoo.com)

maxcom
()

Hadoop на Harmony

 , , , , ,

Группа Java

Guillermo Cabrera из подразделения IBM Emerging Technology объявил об успешном запуске среды распределённых вычислений Hadoop на платформе Apache Harmony. Подобная среда является хорошим стресс-тестом, демонстрирующим стабильность платформы.

Для запуска была выбрана сборка Harmony Select 6 - легковесная версия JVM без поддержки GUI, апплетов и некоторых других технологий.

Работы по подготовке Harmony к запуску Hadoop длились несколько месяцев.

>>> Подробности (apache.org)

maxcom
()

Google разрешил использование технологии MapReduce в Apache Hadoop

 , , ,

Группа Кластеры

Компания Google официально делегировала развиваемым под эгидой Apache свободным проектам права по использованию технологий, фигурирующих в патенте 7650331 («Системы и методы эффективной высокомасштабируемой обработки данных»). В патенте изложены принципы реализации метода MapReduce, который активно используется в таких проектах, как Apache Hadoop и Apache MapReduce.

Очередной раз google на деле показал хорошее отношение к проектам с открытым исходным кодом.

Apache Hadoop

Apache Mapreduce

Новость на английском

>>> Подробности (opennet.ru)

real_maverick
()