История изменений

Спасибо за интересный коммент! Ваш прогноз интересен и правдоподобен, только пруф пожалуйста.

Да, пожалуйста:http://telecomblog.ru/internet-novosti/laieki-rasskajut-vse-vashi-taieni

Некоторые результаты исследования были удивительными. Анализ лайков в 95% случаев позволил определить пол и этническую принадлежность пользователей Facebook, а в 88% угадать их сексуальную ориентацию, в 85% отличить республиканцев от демократов. Семейный статус человека и случаи злоупотребления алкоголем и наркотиками были определены в 65% и 73% случаях соответственно. Эта модель дает возможность в 60% случаев предсказать даже такие данные, как развелись ли родители человека до того, как ему исполнилось 21.

Когда у меня в универе была микроэкономика, то мне там рассказывали, что есть методики, позволяющие реализовать совершенную ценовую дискриминацию в b2c. Проблема в том, что в этих методиках «жертва маркетинга» должна заполнить анкету примерно на 300 вопросов.

Так вот, раздача лайков - это и есть как раз такие ответы на вопросы.

Когда ты находишься в социальной сети, твои действия отслеживаются: на какую картинку и сколько времени ты смотрел (точнее - сколько времени она была на твоем экране, пока ты присутствовал, «простой компа» можно детектить), по какой ссылке перешел и так далее.

Люди могут очень долго скролить всевозможные «ленты», перелистывая тысячи изображений, аудио/видеозаписей, постов/статей/текстов. Любая пауза (даже без лайков и перходов по ссылкам) во время этого мозговыносящего процесса может быть свидетельством интереса к материалу.

То есть, если выдать в «ленту» аннотированные материалы, можно получить ответы на те самые 300 вопросов в реальном времени за несколько [десятков] минут.

Соответственно, нужны способы аннотации и метрики, которые позволяют оценить ОБВМ «жертвы».

Сейчас такими метриками являются лайки/дизлайки/репосты и т.п., а аннотация потоков ~~говна~~ контента делается вручную посредством #ХЭШТЭГОВ, и прочего «отметь какую-нибудь гниду на фотографии». Естественно, вся реклама тоже размечена соответствующим образом.

В дальнейшем ручная разметка никуда не денется, но в ближайшие годы она будет дополнена автоматической.

Собственно сейчас мы видим бурное развитие «мобильных» (читай облегченных) моделей машинного обучения с одной стороны, фреймворков машинного обучения, ориентированных на веб, с другой, и компьютерного железа, ускоряющего как минимум инференс, с третьей.

Вот, например, небезызвестный keras.js (ссылку даю из-за няшных демонстрашек), и прочие tf.js и т.п.

Аннотировать можно практически любые данные, которые попадают в сеть: изображения, аудиозаписи (кстати, а ты в курсе, что копрорация «добра» слушает тебя?), видео, текстовую информацию.

Итак, «жертва маркетинга» решила добавить «фоточку на стеночку», нажимает выбор файла, либо делает drag'n'drop, и тут...

1. прямо в браузере «запускается» сверточная сеть, которая извлекает фичи из картиночки.

2. Дальше эти фичи идут на вход «головы» SSDLite_v.***, которая детектирует различные классы интересных объектов: людей; лица; шмот; аксесуары; «тачки»; «мобилы»; ВНЕЗАПНО, первичные и вторичные половые признаки, котовые к применению; оружие; порошки и таблеки; и много чего ещё.

Для всех этих объектов детектор выдает класс и ROI.

3. Дальше для каждого объекта вызывается отдельная модель, которая считает «дескриптор» соответствующего объекта.

Так для лиц можно вызвать facenet; для человека в целом можно вызвать аналогичную facenet модель, которая оценит «стиль одежды», а еще модель реидентификации личности; думаю, что аналогичным образом можно поcтупить и со всеми остальными объектами...

4. А в это время на экране будет идти красивенький прогрессбар, показывающий «загрузку изображения в облако».

После того, как фоточка с аннотацией загружена, начинает работать серверная аналитика:

1. Имбеддинги лиц сопоставляются с имбеддингами лиц связянных акков на глубину шести рукопожатий. Неизвестные сопоставляются со знаменитостями и с неизвестными с фотографий со связанных акков. Ессли рожу видно вообще впервые - создается новая запись типа «неизвестный» и добавляются слабые ссылки на акки с исходной фоточки.

2. Аналогично с имбеддингами человека в целом, если лицо не видно, личность можно установить с помощью реидентификации.

3. Дальше обрабатывается прочая инфа. Например, присутствие на одной фотографии маленького ребенка и готовых к действию первичных половых признаков взрослого какбе намекает нам... Ну и про «экономически значимую» инфу не забываем, да?

Помимо фоточек можно анализировать голосовые сообщения и прочее, известные поисковые гиганты таки добились в этом значительных успехов.

Видео можно анализировать по опорным кадрам и звуковой дорожке, там можно находить, например, лица актеров и детектить нарушение закона о защите миккимауса.

С анализом текстов пока хуже, но в ближайшие годы ждут прорыв, да.

В общем, вэлкам ту брейв нью ворлд!