LINUX.ORG.RU

Hadoop & Spark разработчик

 , , , ,


1

3

Коллеги попросили опубликовать среди профильной аудитории

---

В Сколковский институт науки и техники в центр вычислительной биомедицины для проекта по сбору и обработке медицинских данных требуется Hadoop & Spark разработчик.

Мы находимся в самом начале очень амбициозного проекта. Его цель - создать систему, собирающую обезличенные данные со всего медицинского оборудования в нескольких больницах, для последующего анализа учеными. Мы уверены, что применив крутые алгоритмы машинного обучения, сможем найти закономерности, которые раньше были скрыты из-за маленького объема доступных данных.

За первые два года работы мы планируем загрузить больше петабайта данных на наш Hadoop кластер.

Для того, чтобы наши запросы не выполнялись месяцами, мы ищем человека, который понимает, как работают Hadoop и Spark, и готов активно делиться этим знанием со своими коллегами - учеными. И поможет им разработать софт который будет быстро работать с таким объемом данных.

Обязанности

  • Разработка научного ПО под Hadoop&Spark
  • Помощь в освоении Hadoop&Spark учеными, сотрудниками лаборатории
  • Оптимизация разрабатываемого в лаборатории кода
  • Поиск и адаптация программ, разработанных другими биоинформатическими лабораториями под Hadoop, пригодных для наших нужд

Требования

  • Отличное понимание принципов работы Hadoop и Spark
  • Хорошее представление об экосистеме Hadoop в целом и областях применения отдельных инструментов в частности
  • Опыт программирования на Java&Python
  • Опыт написания MapReduce и Spark программ на Java&Python
  • Желателен опыт работы с Avro|Parquet
  • Желание разбираться в существующих биоинформатических пайпланах с целью их переноса на Hadoop&Spark
  • Желание экспериментировать

Условия

  • Полная занятость
  • Трудоустройство по договору подряда
  • Офис на территории технопарка Сколково
  • Возможна удаленная работа
  • ЗП 100 - 160к
  • Стол, стул, Макбук и 4K монитор

Подробности

---

От себя добавлю, что компания людей, с которыми предстоит работать, приятнейшие люди ну и просто топовые ученые с публикациями вплоть до Nature.

★★★★★

Трудоустройство по договору подряда

В результате заключения Договора подряда не возникают трудовые отношения.
Это договор носит гражданско-правовой характер. То есть никаких социальных гарантий, ни отпусков, ни больничных.
Только сумма вознаграждения за выполненную работу.

art_corp ()
Ответ на: комментарий от art_corp

В результате заключения Договора подряда не возникают трудовые отношения.

Если брать программиста в штат - то это статья расходов «обеспечение деятельности». Не возьмешь же его как ученого, так ведь. А деньги есть только на «прикладные исследования», причем, судя по всему, не в том объеме, чтобы заказать разработку софтверной компании. Особенно с учетом «мы находимся в самом начале очень амбициозного проекта». Вообще, Сколтех - очень странный проект, имхо.

another ★★★★ ()
Ответ на: комментарий от another

Проект действительно амбициозный. Озвученный петабайт в первый год превратиться в несколько десятков буквально за несколько лет. И это реальные медицинские данные реальных пациентов, а не условные логи посещений страничек какого-нибудь яндекса.

Ученых-программистов тоже будет задействовано много - в партнерах, как минимум, ИППИ и Физтех. Но нужны более сконцентрированные и прагматичные люди. Ученые очень часто могут быть отвлечены на сторонние проекты, публикации, диссертации и преподавание.

silw ★★★★★ ()
Ответ на: комментарий от silw

Ученые очень часто могут быть отвлечены на сторонние проекты, публикации, диссертации и преподавание.

Не обладая знанием о деталях, высказываться не буду. Могу только повторить:

Вообще, Сколтех - очень странный проект, имхо.

another ★★★★ ()

Очень интересная вакансия. Немного жаль, что занят, а так бы написал. Странно, что в тексте нет ни слова о Scala, а на ней удобнее и эффективнее всего писать для Spark.

Разместите объявление на http://fprog.ru/planet - там есть увлеченные языком Scala, и по-моему среди них попадались со знанием вышеуказанных технологий.

dave ★★★★★ ()

Сколковский институт науки и техники

Уже смешно.

данные со всего медицинского оборудования в нескольких больницах

первые два года работы мы планируем загрузить больше петабайта данных

Неужто оборудования настолько много ? Как они считали ?

Ну и «договор подряда» и 100-160 для оСколково стыдные деньги

robot12 ★★★★★ ()
Ответ на: комментарий от silw

Проект действительно амбициозный. Озвученный петабайт в первый год превратиться в несколько десятков буквально за несколько лет.

Если вы сможете поддерживать сами Hadoop кластер на несколько десятков петабайт, то вам памятник поставят.

И это реальные медицинские данные реальных пациентов, а не условные логи посещений страничек какого-нибудь яндекса.

Это же поиск, это нужно делать в реалтайме. А вот медицинские данные хоть makefile можно процессить. Для работы с геномом уже есть готовые библиотеки. В чем сложность?

Мне интересно из-за того, что такая низкая зарплата должна компенсироваться интересными задачами. Знакомый Hadoop разработчик набирал людей на удаленку part-time с зарплатами выше в 1,5 раза и командировками в ЛА.

xpahos ★★★★★ ()
Ответ на: комментарий от robot12

Омиксных данных (геномы, транскриптомы, экзомы, липидомы и прочие омы) действительно много. Многонациональность населения РФ тоже добавляет работы - надо получить репрезентативные наборы данных с большинства этносов. + туда еще будут попадать ЭЭГ и МРТ головного мозга.

В общем петабайтов действительно будет много.

Про сколтех как институцию я комментировать не буду. Подозреваю, у нас с вами совершенно разный опыт взаимодействия с ними и их сотрудниками.

silw ★★★★★ ()
Ответ на: комментарий от xpahos

Десятки петабайт - включая сырые данные. Очевидным образом, после первичного процессинга они сильно падают в объеме.

Для работы с X есть готовые библиотеки. В чем сложность? - так можно сказать практически про любую область деятельности.

Проблем, тем не менее, достаточно много. Например, по ходу типичного пайплайна приходится пяток раз конвертировать данные туда-обратно и вообще существенная часть инструментов, до сих пор, банальные перловые и (если повезет) питоновские и R скрипты. Только какие-то супер старые и популярные вещи написано более-менее аккуратно, с приоритетом на производительность. Такой зоопарк не очень приспособлен для эффективной параллельной обработки.

silw ★★★★★ ()
Ответ на: комментарий от silw

Десятки петабайт - включая сырые данные. Очевидным образом, после первичного процессинга они сильно падают в объеме.

Сырыми данными никто не меряется. Их может быть сколь угодно много, а результате получатся табличка в 10Гб.

Проблем, тем не менее, достаточно много. Например, по ходу типичного пайплайна приходится пяток раз конвертировать данные туда-обратно и вообще существенная часть инструментов, до сих пор, банальные перловые и (если повезет) питоновские и R скрипты. Только какие-то супер старые и популярные вещи написано более-менее аккуратно, с приоритетом на производительность. Такой зоопарк не очень приспособлен для эффективной параллельной обработки.

Т.е. вычищать говнокод за другими людьми и есть основная работа? Вы не котрибьютите ни в Hadoop, ни в Spark? Если так, то опыт работы с ними можно убрать из требований. Стриминг(питон, R и perl) может освоить любой человек, а вот нативная(Java/JNI+cpp) обработка стоит уже других денег.

Я уж думал у вас задачи уровня Palantir, а это ерунда, которую реально можно параллелить обычным makefile. Apache Aurora возьмите и все тоже самое будет, даже быстрее.

xpahos ★★★★★ ()
Ограничение на отправку комментариев: только для зарегистрированных пользователей, score>=0