Google разрешил использование технологии MapReduce в Apache Hadoop

apache, google, hadoop, mapreduce

Компания Google официально делегировала развиваемым под эгидой Apache свободным проектам права по использованию технологий, фигурирующих в патенте 7650331 («Системы и методы эффективной высокомасштабируемой обработки данных»). В патенте изложены принципы реализации метода MapReduce, который активно используется в таких проектах, как Apache Hadoop и Apache MapReduce.

Очередной раз google на деле показал хорошее отношение к проектам с открытым исходным кодом.

Apache Hadoop

Apache Mapreduce

Новость на английском

>>> Подробности

Ссылка

← Как использовать виртуальную машину Parrot

Проект Apache Cassandra NoSQL получает коммерческую поддержку →

← 1 2 →

Ответ на: комментарий от www_linux_org_ru 28.04.10 18:40:15 MSK

http://ilpubs.stanford.edu:8090/422/

Статейка ничего особенного из себя не представляет - ее приняли на какую-то левую конференцию, не более того. Алгоритм тривиальный и известный.

Надо понимать, что Гугл начал зарабатывать большие деньги не своим якобы супер-пупер поиском (здесь много hype-а, и мало правды), а интеграцией рекламы в поиск. Другие компании на тот момент вкладывали ресурсы в порталы, и поиск их мало интересовал.

На данный же момент поиск у Гугла хорош не потому, что они используют PageRank (его используют все подряд), а потому что у них очень хорошо настроена система весов keyword-ов в отдельно взятой странице. Эту свою систему они охраняют, как Кока-Кола - свою формулу. Инфа 100%, от Ульмана.

faustus ★
(28.04.10 19:42:05 MSK)

Ссылка

Ответ на: комментарий от faustus 28.04.10 11:54:50 MSK

>Ведь не по гугловскому же патенту они писали свою реализацию?

По гугловски докам.

r ★★★★★
(28.04.10 19:54:41 MSK)

Ответ на: комментарий от VoDA 28.04.10 12:38:21 MSK

>то начнет терроризировать google заново зарегав патент.

Жесть.

r ★★★★★
(28.04.10 19:55:49 MSK)

Ссылка

Ответ на: комментарий от r 28.04.10 19:54:41 MSK

Каким?

faustus ★
(28.04.10 19:56:03 MSK)

Ответ на: комментарий от northerner 28.04.10 13:03:53 MSK

>. Другое дело, что все это были академические проекты и научные статьи

Ссылки на citeseer?

r ★★★★★
(28.04.10 19:56:53 MSK)

Ответ на: комментарий от anonymous 28.04.10 19:02:40 MSK

>Ну, хотя бы типа передаваемых и возвращаемых мапов в виде пропертей или по типу MIME

Потрясающийе возможности вложенности.

И такие результаты можно было-бы сразу последовательно грузить в хэш

Вам перл не жмет?

Ведь любой фреймвок даёт ненужный оверхед.

Ложение в hash и есть такой оверхед.

r ★★★★★
(28.04.10 20:00:38 MSK)

Ссылка

Ответ на: комментарий от faustus 28.04.10 19:56:03 MSK

> Каким?

http://research.google.com/pubs/papers.html

r ★★★★★
(28.04.10 20:05:52 MSK)

Ответ на: комментарий от r 28.04.10 20:05:52 MSK

Это называется «научные публикации», а не «доки». Там нет деталей реализации скалабильности. В Hadoop пилят именно скалабильность.

faustus ★
(28.04.10 20:20:16 MSK)

Ответ на: комментарий от faustus 28.04.10 20:20:16 MSK

>Это называется «научные публикации», а не «доки».

И что?

Там нет деталей реализации скалабильности.

Ну да извините - компилябельной спецификации «как стать бигтейблом на php» нет.

r ★★★★★
(28.04.10 20:34:00 MSK)

Ссылка

Ответ на: комментарий от Bohtvaroh 28.04.10 19:38:38 MSK

спасибо

anonymous
(28.04.10 21:01:44 MSK)

Ссылка

Ответ на: комментарий от rtvd 28.04.10 11:03:32 MSK

>Солнышко, это тривиальное изобретение еще задолого до появления гугла позволяло считать на больших машинках всякие архиполезные для Человечества штуки... такие как взрыв атомной бомбы. Посему даже в бородатом и седом MPI есть для этого специальные примитивы.

Солнышко, сам принцип колеса тоже никем не запатентован, однако я на 100% уверен, что существуют патенты на колёса. Любой патент должен включать в себя описание новизны, ключевая фраза - «отличающийся от аналогов тем, что». То, что перечислено после этой фразы - и есть суть самого изобретения.

Если «самая не злая» компания вдруг таки изобрела нечто действительно новое - попробуй объяснить в чем суть новизны? Кроме, конечно, того, что ей выдали на это патент.

В патенте всё должно быть написано. У меня спрашивать не нужно.

morbo ★
(29.04.10 07:54:56 MSK)

Ответ на: комментарий от faustus 28.04.10 11:54:50 MSK

>> Это тривиальное изобретение позволило гуглу на дешёвом не серверном железе организовать лучший по своим временам поиск.

Хороший поиск Гуглу позолила организовать реализация ничем не оригинального алгоритма PageRank. Как эту реализацию распараллеливать - дело десятое - для эффективного параллельного умножения матрицы на вектор существует миллион алгоритмов.

Ключевая фраза в моём предложении: «на дешёвом не серверном железе». Эта система устойчива к сбоям любого из узлов, узел не нужно каким-то образом специально настраивать. Вставляешь в стойку пустой системник, настроенный на сетевую загрузку - получаешь готовый узел системы. Системник сломался - система сама сделала ещё одну реплику всех находившихся на нём данных на другие узлы и перестала обращаться к этому узлу.

Кроме того, в большинстве случаев между идеей и реализацией идеи - дистанция огромного размера. Самое сложное - это детали, те самые ватчдоги и балансировка нагрузки.

Ну, если в патенте описываются именно детали, то у Hadoop вообще не должно быть проблем с патентами, не так ли? Ведь не по гугловскому же патенту они писали свою реализацию? Или, все таки, в максимально туманном патенте делается заявка на *все* возможные реализации, как это принято в США с софтверными патентами?

От меня-то ты что хочешь? Чтобы я тебе объяснил суть патента?

morbo ★
(29.04.10 08:05:44 MSK)

Ответ на: комментарий от morbo 29.04.10 07:54:56 MSK

> В патенте всё должно быть написано. У меня спрашивать не нужно.

В патенте описана высокоуровневая реализация тривиального принципа распараллеливания сочетания операций Map и Reduce, широко известного в Computer Science.

Деталей и тонкостей реализации там нет. Патент #7650331. Обычное софтверно-патентное фуфло, как и 99% всех софтверных патентов.

faustus ★
(29.04.10 08:06:33 MSK)

Ссылка

Ответ на: комментарий от morbo 29.04.10 08:05:44 MSK

> Ключевая фраза в моём предложении: «на дешёвом не серверном железе».

Я лучше тебя знаю про Map-Reduce, не надо мне ничего про него рассказывать.

От меня-то ты что хочешь? Чтобы я тебе объяснил суть патента?

Да, объясни. Ты его хотя бы читал?

faustus ★
(29.04.10 08:08:43 MSK)

Ссылка

Ответ на: комментарий от r 28.04.10 19:56:53 MSK

Я же написал в скобках пример одного из механихмов, пробуйте citeseer consistent hashing

northerner ★★★
(29.04.10 13:55:50 MSK)

Ссылка

Как я всегда говорю - софтверные патенты либо сами доведут патентную систему до абсурда и уничтожат себя (т.е. придёт понимание - что математику нельзя патентовать), либо настанет очередное средневековье с ограничением научной и любой другой деятельности и инквизицией, или в модифицированной форме - «эпоха жрецов», где знания будут уделом превилегированных (компаний) и только принадлежа касте избранных (находясь под зонтиком какой-то компании) - можно будет заниматься наукой. А компании будут драться и делить сферы влияния, пожирая друг-друга.

Работа мозга - это наиболее эффективный метод решения задачи, и именно мозг и эволюция изобрела MapReduce. Ведь мозг делает грубо 3 операции:
1)построение ассоциаций; 2)нахождение общего в подгруппе; 3)разбиение группы на подгруппы.
Нейропластисити учит нас, что мозг - маходится в постоянном параллельном процессинге ремаппя ассоциации (1).
Т.е. параллельный процессинг может быть облегчён (не надо инджектить сложный код в ноды) - за счёт интенсивного ремаппинга, и последующими 2мя примитивами 2 и 3.
Что такое разбиение группы на подгруппы, или иными словами, подмножество этой операции - выделение подгруппы из группы (3)? Это Map, маппинг Map(k1,v1) -> list(k2,v2). Что такое нахождение общего в подгруппе (2)? Ну конечно-же, это Reduce(k2, list (v2)) -> list(v3). Почему? Потому что это объединение правых частей с одними ключами.

Т.е. MapReduce изобретён природой и по-иному эффективно задачу решить нельзя (мозг не пересылает огромные массивы данных из одного отдела в другой через IO - это было бы слишком энергозатратно: он достигает того-же ремаппингом!). Это человеки могут тратить энергию на неэффективную пересылку данных туда-обратно по сети, а мозг оптимизирован максимально на минимизацию копирования.

И почему никто ещё не запатентовал «Divide and Conquer»?
Или задачи по распределённому merge sort, которую каждый, даже не зная про некоторые публикации - решит абсолютно одинаково, потому что нет другого эффективного решения! Самое эффективное решение оно одно! (пока не найдено ещё более эффективное).
Или как делаются распределённые джойны, да тот-же оракл - должен решать те-же задачи с процедурами, возвращающими стримы!

Я всё же надеюсь, что гугль патентует математику исключительно для того чтобы патентные тролли не могли заниматься рекетом в области математики и когда-нибудь сам будет отстаивать вместе с ИБМ - отмену этого абсурда, вернее метастазы конца 20 века.