Чтобы технология научилась отличать одну возрастную группу от других, а мужчин от женщин, ей объяснили эти понятия на примере. Точнее, на сотнях тысяч примеров. Для этого использовалась обезличенная информация о поле и возрасте пользователей из сети профессиональных контактов Мой Круг — люди чаще указывают реальные данные, когда речь идёт о работе. Для уточнения информации из профессиональной сети её сравнили с указанной в профиле пользователя на Яндексе. После перекрёстной проверки осталось около миллиона анкет с наиболее достоверной информацией.
Потом система собрала информацию о поведении этих пользователей в интернете. Например, о длине поисковых запросов, наличии в них определённых слов, о периодах активности за сутки и т.д. Социально-демографические признаки и данные о поведении пользователей в интернете использовались для обучения алгоритма.
Из этих данных разработчики создали две выборки: обучающую и тестовую. Пользователей разделили на две группы: примерно 700 тысяч для обучения Крипты и 300 тысяч для последующей проверки. Проанализировав данные из обучающей выборки, Крипта отобрала 300 наиболее важных факторов для определения пола и возраста, а также рассчитала значимость каждого из них.
Следующий этап — проверка того, насколько хорошо обучилась Крипта. Из данных в тестовой выборке убрали информацию о поле и возрасте пользователей, чтобы Крипта выяснила это самостоятельно. Для каждого пользователя она определила вероятность того, мужчина это или женщина и к какой из пяти возрастных групп он относится. Разработчики сравнили результаты с имеющимися данными и усовершенствовали алгоритм обучения. После ряда проверок и усовершенствований технологию внедрили.
Разработчики сравнили результаты с имеющимися данными и усовершенствовали алгоритм обучения. После ряда проверок и усовершенствований технологию внедрили.
И, конечно, после усовершенствований проверяли на той же тестовой выборке. Простейший способ влететь в переобучение алгоритма оптимизации.
Из яндекса использовал я.музыку и я.хранилище (только через линукс (вебдав)). Это может объяснить гика, меломана, сову (ну тут большого анализа не нужно). А вот за холостяка... даже не представляю с чего это высчитывают (ибо поиск яндекса не использую вооооообще).
Странно. Ибо если бы я смотрел порнушку, то наверняка запускал бы хром, ибо там флеш. И яндексу было бы неоткуда узнать. А на работе (где и слушаю их музыку) - на порнушку трекать не могло, ибо ну как бы да, работа, опенспейс :)