Cascading — Java-фреймворк, позволяющий быстро и легко разрабатывать приложения для анализа и управления данными — обновился до версии 2.0. Cascading работает на платформе Apache Hadoop 1.0 и может быть развёрнут на различных вычислительных средах.
Некоторые особенности этого релиза:
Новость на nixp.ru
>>> Подробности
Представлен релиз Mongo+Hadoop Connector — набор модулей для платформы Hadoop, обеспечивающих подключение к NoSQL базе данных MongoDB. Теперь MongoDB может выступать в качестве источника данных для Hadoop (Map/Reduce и другие компоненты экосистемы Hadoop). Также возможна и обратная операция — запись результатов работы в MongoDB.
На данный момент поддерживаются основные API Hadoop (известные как Hadoop Common). Обеспечена поддержка записи в MongoDB из Pig и Streaming для выполнения Map/Reduce на Python.
Репозиторий проекта на github.
>>> Подробности
Спустя несколько месяцев бета-тестирования состоялся релиз седьмой версии известного клиента распределенных вычислений BOINC.
Основные изменения:
В настоящее время в сети распределенных вычислений BOINC задействовано примерно полмиллиона компьютеров с общей производительностью более 7 петафлопс.
>>> Подробности
6 февраля увидел свет релиз Apache Mahout за номером 0.6.
Среди нововведений:
Подробный список изменений доступен на сайте Apache Software Foundation.
Apache Mahout представляет собой реализацию большого количества алгоритмов машинного обучения: кластеризацию, классификацию, фильтрацию и т.п. Основные алгоритмы разработаны с применением парадигмы map/reduce и применяются для обработки и анализа больших объемов данных на платформе Hadoop. Apache Mahout выпускается на условиях Apache Software license 2.0.
Напоминаю, что Apache Hadoop — один из перспективных проектов Apache Foundation, который предоставляет собой свободно распространяемый набор утилит, библиотек и программный каркас для разработки и выполнения распределённых программ, работающих на кластерах из сотен и тысяч узлов.
>>> Подробности
Выпущена новая версия открытой платформы для организации управления облачной инфраструктурой и виртуальными окружениями KVM, Xen и VMware — OpenNebula 3.2.
Из новинок следует отметить:
Доступны пакеты для RHEL/CentOS, Debian, openSUSE и Ubuntu
>>> Подробности
Apache Software Foundation анонисировал релиз Hadoop 1.0 - популярной платформы для обработки больших объемов данных.
Apache Hadoop активно используется в Amazon, AOL, Apple, eBay, Facebook, foursquare, HP, LinkedIn, Netflix, The New York Times, Rackspace, Twitter, Yahoo и других компаниях.
Версия 1.0 включает:
>>> Подробности
Сегодня, 22 ноября, в московской гостинице Holiday Inn Lesnaya прошла ежегодная конференция RSC 2011 — Russian Supercomputing Conference. В этом году конференция проводилась в шестой раз. В ходе конференции представителями крупнейших мировых концернов было сделано 13 докладов, среди которых были анонсы новых программных продуктов, анонсы новых аппаратных архитектур, а также обзоры современных тенденций в области высокопроизводительных вычислений.
Более подробный список докладов:
( читать дальше... )
>>> Сайт конференции
Объявлено о выходе новой версии кластерной файловой системы — Lustre 2.1.
Замысел проекта по созданию Lustre состоял в том, чтобы предоставить файловую систему для кластеров в десятки тысяч узлов с хранилищами порядка нескольких петабайт без потери скорости и безопасности по сравнению с обычными файловыми системами. В настоящее время разработка Lustre ведётся компанией Whamcloud и сообществом после того, как в декабре 2010 года Oracle прекратил работу над проектом, доставшимся компании при покупке Sun Microsystems.
Из новинок следует отметить полную поддержку RHEL6/CentOS6 (сервер и клиент) и поддержку 128TB LUN.
>>> Подробности
Intel, Dell и Texas Advanced Computing Center объединят усилия для создания суперкомпьютера «Stampede» с пиковой производительностью 10 петафлопс.
Начальное финансирование в 27.5 миллионов долларов предоставит Национальный научный фонд при правительстве США в надежде, что суперкомпьютер будет использоваться научным сообществом для задач симуляции и обработки данных.
Основу «Stampede» составят серверы Dell Zeus, каждый из которых имеет на борту два 8-ядерных процессора Sandy Bridge-EP aka Xeon Processor E5 Family и 32ГБ оперативной памяти.
Также «Stampede» будет оборудован 128 GPU NVIDIA следующего поколения для удалённой визуализации, 16-ю серверами Dell с терабайтом расшаренной памяти и двумя GPU в каждом для анализа больших объёмов данных, а также высокопроизводительной файловой системой Lustre. Все компоненты будут соединены при помощи сети InfiniBand FDR 56Gb/s.
Суммарно суперкомпьютер будет оснащён 272ТБ ОЗУ и 14ПБ дискового пространства.
А Linux тут при том, что «Stampede» станет самым мощным в США высокопроизводительным кластером, собранном на процессорах семейства x86, и установлен на нём будет именно Linux.
Компанией Cycle Computing для своего клиента - фармацевтической компании Genentech внутри сервиса Amazon Elastic Compute Cloud был сконфигурирован вычислительный кластер, состоящий из 10000 ядер. На каждом узле запущенного сервиса стояла операционная система CentOS (клон Linux RedHat). Для обслуживания кластера использовалось как собственное ПО фирмы CycleCloud software, так и программное обеспечение с открытым кодом Condor и Chef.
Задача расчёта белковых связей, которая и считалась на этом кластере очень хорошо распараллеливается и производительность должна была быть близка к теоретической. Таким образом, расчеты, потребовавшие восемь часов работы облачного кластерного суперкомпьютера с быстродействием около 66 TFlops, составленного из 1250 физических восьмиядерных машин, с суммарным объёмом оперативной памяти 8.75Тб и 2Пт (петабайт) дисковой обошлись Genentech всего в 8500 долларов, включая все выплаты Amazon и Cycle Computing.
>>> Подробности
В большом бизнесе использование нескольких больших кластеров с финансовой точки зрения более эффективно, чем много маленьких. Чем больше машин в кластере, тем большими наборами данных он может оперировать, больше задач могут выполняться одновременно. Реализация MapReduce в Apache Hadoop столкнулась с потолком масштабируемости на уровне около 4000 машин в кластере. Разрабатывается следующее поколение Apaсhe Hadoop MapReduce, в котором появится общий планировщик ресурсов и отдельный мастер для каждой отдельной задачи, управляющий выполнением программного кода. Так как простой оборудования по техническим причинам обходится дорого на таком масштабе, высокий уровень доступности проектируется с самого начала, равно как и безопасность и многозадачность, необходимые для поддержки одновременного использования большого кластера многими пользователями. Новая архитектура также будет более инновационной, гибкой и эффективной с точки зрения использования вычислительных ресурсов.
>>> Подробности
Eric Baldeschwieler, вице-президент Yahoo по направлению разработки Apache Hadoop, опубликовал историю использования продукта в Yahoo.
В 2006 году Yahoo потребовалась среда для хранения и обработки больших объемов данных. В тот момент у конкурентов уже были собственные реализации map-reduce и кластерного хранилища, и вместо разработки своего проприетарного решения Yahoo приняла решение подключиться к разработке открытого Apache Hadoop.
В настоящий момент около сотни сотрудников компании работают над проектом Apache Hadoop и связанными с ним подпроектами, такими как Pig, ZooKeeper, Hive, Howl, HBase и Oozie. В дата центрах Hadoop запущен на около 40000 узлов (более 300 тысяч процессорных ядер). Hadoop используется в задачах поиска, рекламы, определении спама и др.
>>> Подробности
По сообщению insideHPC.com, Oracle прекращает активную разработку свободной кластерной файловой системы LustreFS. По сообщению анонимного источника, разработчикам файловой системы предложено найти себе другие позиции в компании.
Сетевая файловая система Lustre предназначена для больших вычислительных кластеров. В настоящий момент она используется в 15 из 30 самых производительных суперкомьютеров, в том числе на самом быстром суперкопьютере Tianhe-1A. Технология Lustre была куплена Sun Microsystems в 2007-м году.
>>> Подробности
Запущен кластер (Научно-исследовательской лаборатории Военно-Воздушных сил США, Нью-Йорк), составленный из 1760 Sony PlayStation3, под кодовым названием Condor Cluster. Он позволит очень быстрый анализ больших изображений с высокой разрешающей способностью (миллиарды пикселей).
То, что раньше занимало несколько часов, теперь занимает несколько секунд!
Condor Cluster работает под Linux.
>>> Подробности
Вышел новый, 36-й по счёту, список самых быстрых суперкомпьютеров мира — top500. И снова Linux увеличил в нём свою долю. Вот уже 12 лет Linux наращивает своё присутствие в этом списке. Ровно 12 лет назад, в 1998 году, Linux был установлен на только один суперкомпьютер из top500. И с каждым обновлением этого списка доля Linux в нём только увеличивалась, ни разу ещё не уменьшаясь. На сегодняшний день это уже 459 (91.8% от общего числа) суперкомпьютеров. По сравнению с прошлым списком (июль 2010), Linux отвоевал ещё 4 позиции. Unix-подобные системы потеряли 3 позиции. Также 1 позицию потеряли смешанные системы. Windows установлена на 5 суперкомпьютерах, как и прежде с июля 2008 года.
← предыдущие | следующие → |