LINUX.ORG.RU

Google выпустила открытую библиотеку для дифференциальной приватности

 , ,


2

1

Корпорация Google выложила под открытой лицензией библиотеку дифференциальной приватности на страничку GitHub компании. Код распространяется под лицензией Apache License 2.0.

Разработчики смогут использовать данную библиотеку, чтобы построить систему сбора данных, не собирая информацию, благодаря которой можно будет идентифицировать личность человека.

«Независимо от того, являетесь ли вы специалистом по планированию города, владельцем малого бизнеса или разработчиком программного обеспечения, извлечение полезной информации может помочь улучшить работу служб и получить ответы на важные вопросы, но без надежной защиты конфиденциальности вы рискуете потерять доверие ваших граждан, клиентов и пользователей. Дифференциально-частный анализ данных – это принципиальный подход, который позволяет организациям извлекать полезные данные, одновременно гарантируя, что эти результаты не позволят переопределить личные данные какого-либо отдельного лица» – пишет Мигель Гевара, менеджер по продуктам в отделе конфиденциальности и защиты данных компании.

Компания также сообщает, что библиотека включает в себя дополнительную библиотеку для тестирования (чтобы получить правильную дифференциальную конфиденциальность), а также расширение PostgreSQL и ряд рецептов, которые помогут разработчикам начать работу.

>>> Подробности

anonymous

Проверено: Shaman007 ()

без надежной защиты конфиденциальности вы рискуете потерять доверие ваших граждан, клиентов и пользователей.

И таки гугл уже потерял?

anonymous ()

Еще кстати вчера доклад слушал как какие-то ученные обрабатывали зашифрованую генетическую информацию не расшифровывая, без ключа. Они смогли на Julia завести базовую арифметику поверх cyphertext. Ну конечно там какие-то сырые прототипы, вообще идея ничетак

vertexua ★★★☆☆ ()

помочь улучшить работу служб и получить ответы на важные вопросы

Ага, типа как кнопку Пуск удалить. Эта статистика в принципе не может передать важность юзкейса для пользователя, которая может совершенно не коррелировать с его частотой.

xaizek ★★★★★ ()

Разработчики смогут использовать данную библиотеку, чтобы построить систему сбора данных, не собирая информацию, благодаря которой можно будет идентифицировать личность человека.

Похоже на отчет из МВД ))

anonymous ()

https://github.com/google/differential-privacy/tree/master/differential_priva...

There are around 200 animals at Farmer Fred's zoo. Every day, Farmer Fred feeds the animals as many carrots as they desire. The animals record how many carrots they have eaten per day. For this particular day, the number of carrots eaten can be seen in animals_and_carrots.csv.

At the end of each day, Farmer Fred often asks aggregate question about how many carrots everyone ate. For example, he wants to know how many carrots are eaten each day, so he knows how many to order the next day. The animals are fearful that Fred will use the data against their best interest. For example, Fred could get rid of the animals who eat the most carrots!

To protect themselves, the animals decide to use the C++ Differential Privacy library to aggregate their data before reporting it to Fred. This way, the animals can control the risk that Fred will identify individuals' data while maintaining an adequate level of accuracy so that Fred can continue to run the zoo effectively.

The animals have implemented a CarrotReporter tool in animals_and_carrots.h to obtain DP aggregate data to report to Fred. We document one of these reports in report_the_carrots.cc.

всё, что вам нужно знать про эту библиотеку и про гугл вообще. никто кстати не хочеть похрустеть морковкой?

anonymous ()

чтобы построить систему сбора данных, не собирая информацию, благодаря которой можно будет идентифицировать личность человека.

А разве суть как раз не в том, чтобы получить некоторую информацию не подвергая личность ее предоставляющую - идентификации. И что вообще значит «не собирая информацию», сбор в любом случае необходим нельзя из ничего сделать какие-то выводы и статистику, просто вместо того чтобы большими красными буквами указать в опроснике что вы можете и привирать местами (чтобы уже совсем не палиться), за вами теперь это будет делать внесенные вероятности. Разве это не так работает?

abcq ()

ещё обратите внимание. в репе 3 комита, 0 ишуев, 0 пулл реквестов, так? 899 звёзд, 71 форк. судя по примеру, я думал там должно было бы быть или 200 звёзд или 200 форков, но как-то цифры не сходятся.

когда вам в следующий раз будут предлагать звёзды/форки на гитхабе как метрику - вспомните об этом.

anonymous ()
Ответ на: комментарий от anonymous

Если я правильно понял прочитанное, то это называется «пишем API для разрешённого доступа к данным, а сами данные не показываем». Инкапсуляция. Люди так делают примерно с тех пор, как обрели речь: что-то говорим, что-то нет. Зачем тогда эта либа? Или она умеет в это самое «гомоморфное шифрование» (спасибо анониму выше за ссылку)?

dimgel ()
Ответ на: комментарий от dimgel

Ну как зачем, там же все сказано, есть работы пары чуваков которым надо было для галочки написать некоторое количество научных статей, есть какая-то бабенка которая сам термин дифференциальной приватности повсеместно ввела в оборот, есть инженеры гугла которым судя по многочисленным слухам на работе надо предлагать «инновации», иначе никакого тебе сыра в масле по службе, вот они и изобрели заново «вранье» на вероятностях. В принципе это скорее всего будет работать и будет работать неплохо, другой вопрос насколько это вообще нужно, может быть проще вообще не допускать таких систем где имея ограниченный доступ можно выудить информацию из базы, доступа к которой у вас быть не должно.

abcq ()
Ответ на: комментарий от deterok

Почему? Технические аргументы будут? Вроде давно пора повыпиливать все Pandas/R/Matlab и инвестировать в то, что компилируется LLVM в натив. А то будешь моделировать в одном, а потом на какие-то убогие плюсы в проде переписывать

vertexua ★★★☆☆ ()
Последнее исправление: vertexua (всего исправлений: 1)

Пожалуйста, не ставьте слова «Google» ___________________ и __________________ «приватность» так близко. В мире и так всё не очень спокойно.

IPR ★★★★★ ()
Ответ на: комментарий от dimgel

Если я правильно понял прочитанное, то это называется «пишем API для разрешённого доступа к данным, а сами данные не показываем».

не, DP это про хранение.. грубо говоря, хранение проекции данных

anonymous ()
Ответ на: комментарий от vertexua

Технические аргументы будут?

Считал тебя адекватным человеком, но видимо длинный троллинг на ЛОР дал плоды и сожрал твой мозг.

У тебя сейчас тезис вида «Плевать в чем там чученым удобно работать, напихаем вовсюда любимый мной, кодером, пиздецнейм. А остальных заставим, ахахаха.»

А потом удивляются чому аутистов ненавидят даже такие же аутисты.

anonymous ()
Ответ на: комментарий от anonymous

Ну не я же буду внедрять. Ученные сами разберутся. И многие уже разобрались. Julia им дает удобство Python и производительность Fortran. Они уже сколько лет хотят с фортрана спрыгнуть, да некуда. Теперь есть куда

vertexua ★★★☆☆ ()
Ответ на: комментарий от vertexua

Они смогли на Julia завести базовую арифметику поверх cyphertext

плохой алгоритм шифрования, информация по сути не зашифрована. если шифрование работает исправно, то зашифрованный поток не должен быть отличим от белого шума.

anonymous ()
Ответ на: комментарий от vertexua

если бы оно было неотличимо, то они не смогли бы классифицировать эти данные как генетическую информацию. информация не зашифрована, не доверяйте этим гомосекам ваши личные данные.

anonymous ()
Ответ на: комментарий от anonymous

https://ru.wikipedia.org/wiki/Гомоморфное_шифрование

Интересно, а возможно ли так зашифровать скрипт для какого-нибудь питона чтобы с помощью определённого ключа можно было запустить скрипт, но нельзя было прочесть исходник скрипта?

ados ★★★★★ ()
Ответ на: комментарий от ados

Интересно, а возможно ли так зашифровать скрипт для какого-нибудь питона чтобы с помощью определённого ключа можно было запустить скрипт, но нельзя было прочесть исходник скрипта?

Невозможно. Скрипт перед запуском требуется расшифровать, то есть прочесть.

anonymous ()
Ответ на: комментарий от anonymous

Копипаста из вики:

Электронное голосование — ещё одна перспективная сфера применения гомоморфного шифрования. Система сможет зашифровать голоса избирателей и провести расчёты над зашифрованными данными, сохраняя анонимность избирателей. (С)

После слов «Система сможет зашифровать голоса» можно не читать - бессмыслица, анонимное голосование не имеет смысла. Прекрасное подтверждение - боты для накрутки рейтингов.

Защищённый поиск информации(с) - тоже не имеет смысла. Отпечаток зашифрованных поисковых запросов все равно будет уникальным.

Вообще «гомоморфное шифрование» странно само по себе. Странная идея шифровать себя, а потом попытаться забыть, что это ты сам себя зашифровал.

anonymous ()
Ответ на: комментарий от ados

Давно есть варианты попроще. Любой код, который компилируется в машинный код, можно запустить, но хрен прочитаешь. (расходы на реверс инжиниринг редко оправданы). Скомпилировал через Cython - готово. Не зря же вирусню на винду до сих пор пишут в основном на С/С++ - исходники закрыты, работает и колоссальные возможности лоулевела и хайлевела.

arturianec100 ()
Ответ на: комментарий от arturianec100

«Давно есть варианты попроще. Любой код, который компилируется в машинный код, можно запустить, но хрен прочитаешь. (расходы на реверс инжиниринг редко оправданы). Скомпилировал через Cython - готово. Не зря же вирусню на винду до сих пор пишут в основном на С/С++ - исходники закрыты, работает и колоссальные возможности лоулевела и хайлевела.»

Если бы реверс был не оправдан, то и вирусов бы не было, и почти 100% программ под венду не имело бы своих взломанных собратьев.

anonymous ()

Пусть сначала докажут теорему, что это возможно. На секунду, господа, я поясню – Гугл решает за вас, какую информацию он считает не приватной и её можно украсть и использовать, при этом не раскрывая какую именно (т.е. ворует всю). Всё. Остальное всё враки.

kostyarin_ ()
Ответ на: комментарий от Stanson

+100500. Очень наглядно, да. Прям все роли доходчиво расписаны.

Да, прикольно. Но как только дело дойдет до того, что Фред не знает, кто ест морковку и существуют ли вообще у него кролики, то придется в любом случае идентифицировать кроликов, чтобы давать им морковку.

anonymous ()
Ответ на: комментарий от anonymous

Продолжу мысль. Тайное голосование с помощью записок, бросаемых в шляпу не позволяет определить голосовавших. Но если сравнить почерки или отпечатки пальцев (утрированно), то это не составит труда. В интернете тайное голосование просто невозможно за одним исключением - недостоверные данные пользователя при голосовании.

anonymous ()
Ответ на: комментарий от anonymous

Эта штука - обратный черный ящик. Т.е. алгоритм работы ящика известен, но все данные зашифрованы. Скрипт тоже может быть данными, просто придется написать интерпретатор на этой логике. Но скрипт, и данные остануться на одном уровне.

anonymous ()
Ответ на: комментарий от vertexua

Я как-то раз работал с математиками. Они в прод не должны писать. Не тот склад ума, часто совсем. Пусть они пишут на чем угодна, главное что бы в итоге получился модуль к Pandas или .so с оберткой на что-нибудь популярное.

deterok ★★★★★ ()
Ответ на: комментарий от anonymous

Эта штука - обратный черный ящик. Т.е. алгоритм работы ящика известен, но все данные зашифрованы. Скрипт тоже может быть данными, просто придется написать интерпретатор на этой логике. Но скрипт, и данные остануться на одном уровне.

Это просто инкапсуляция, смысловой нагрузки не несет, лишь меняется интерфейс между кодером и железом.

anonymous ()

Задача взлома перемещается в более интересную область математической статистики, с богатыми возможностями фильтрации шумовой составляющей.

Так в вышеприведенной Вики

В связи с тем, что дифференциальная приватность является вероятностной концепцией, любой её метод обязательно имеет случайную составляющую. Некоторые из них, как и метод Лапласа, используют добавление контролируемого шума к функции, которую нужно вычислить

Выделение функции на уровне шума это самый сок, на хорошей выборке можно поиметь достоверные данные

tnemo ()
Ответ на: комментарий от tnemo

«Выделение функции на уровне шума это самый сок, на хорошей выборке можно поиметь достоверные данные»

Приемлемый уровень конфиденциальности : Мы не знаем, курите ли вы траву, но почему то уверены в этом.

anonymous ()