История изменений
Исправление shkolnick-kun, (текущая версия) :
Спасибо за интересный коммент! Ваш прогноз интересен и правдоподобен, только пруф пожалуйста.
Да, пожалуйста:http://telecomblog.ru/internet-novosti/laieki-rasskajut-vse-vashi-taieni
Некоторые результаты исследования были удивительными. Анализ лайков в 95% случаев позволил определить пол и этническую принадлежность пользователей Facebook, а в 88% угадать их сексуальную ориентацию, в 85% отличить республиканцев от демократов. Семейный статус человека и случаи злоупотребления алкоголем и наркотиками были определены в 65% и 73% случаях соответственно. Эта модель дает возможность в 60% случаев предсказать даже такие данные, как развелись ли родители человека до того, как ему исполнилось 21.
Когда у меня в универе была микроэкономика, то мне там рассказывали, что есть методики, позволяющие реализовать совершенную ценовую дискриминацию в b2c. Проблема в том, что в этих методиках «жертва маркетинга» должна заполнить анкету примерно на 300 вопросов.
Так вот, раздача лайков - это и есть как раз такие ответы на вопросы.
Когда ты находишься в социальной сети, твои действия отслеживаются: на какую картинку и сколько времени ты смотрел (точнее - сколько времени она была на твоем экране, пока ты присутствовал, «простой компа» можно детектить), по какой ссылке перешел и так далее.
Люди могут очень долго скролить всевозможные «ленты», перелистывая тысячи изображений, аудио/видеозаписей, постов/статей/текстов. Любая пауза (даже без лайков и перходов по ссылкам) во время этого мозговыносящего процесса может быть свидетельством интереса к материалу.
То есть, если выдать в «ленту» аннотированные материалы, можно получить ответы на те самые 300 вопросов в реальном времени за несколько [десятков] минут.
Соответственно, нужны способы аннотации и метрики, которые позволяют оценить ОБВМ «жертвы».
Сейчас такими метриками являются лайки/дизлайки/репосты и т.п., а аннотация потоков говна контента делается вручную посредством #ХЭШТЭГОВ, и прочего «отметь какую-нибудь гниду на фотографии». Естественно, вся реклама тоже размечена соответствующим образом.
В дальнейшем ручная разметка никуда не денется, но в ближайшие годы она будет дополнена автоматической.
Собственно сейчас мы видим бурное развитие «мобильных» (читай облегченных) моделей машинного обучения с одной стороны, фреймворков машинного обучения, ориентированных на веб, с другой, и компьютерного железа, ускоряющего как минимум инференс, с третьей.
Вот, например, небезызвестный keras.js (ссылку даю из-за няшных демонстрашек), и прочие tf.js и т.п.
Аннотировать можно практически любые данные, которые попадают в сеть: изображения, аудиозаписи (кстати, а ты в курсе, что копрорация «добра» слушает тебя?), видео, текстовую информацию.
Итак, «жертва маркетинга» решила добавить «фоточку на стеночку», нажимает выбор файла, либо делает drag'n'drop, и тут...
1. прямо в браузере «запускается» сверточная сеть, которая извлекает фичи из картиночки.
2. Дальше эти фичи идут на вход «головы» SSDLite_v.***, которая детектирует различные классы интересных объектов: людей; лица; шмот; аксесуары; «тачки»; «мобилы»; ВНЕЗАПНО, первичные и вторичные половые признаки, котовые к применению; оружие; порошки и таблеки; и много чего ещё.
Для всех этих объектов детектор выдает класс и ROI.
3. Дальше для каждого объекта вызывается отдельная модель, которая считает «дескриптор» соответствующего объекта.
Так для лиц можно вызвать facenet; для человека в целом можно вызвать аналогичную facenet модель, которая оценит «стиль одежды», а еще модель реидентификации личности; думаю, что аналогичным образом можно поcтупить и со всеми остальными объектами...
4. А в это время на экране будет идти красивенький прогрессбар, показывающий «загрузку изображения в облако».
После того, как фоточка с аннотацией загружена, начинает работать серверная аналитика:
1. Имбеддинги лиц сопоставляются с имбеддингами лиц связянных акков на глубину шести рукопожатий. Неизвестные сопоставляются со знаменитостями и с неизвестными с фотографий со связанных акков. Ессли рожу видно вообще впервые - создается новая запись типа «неизвестный» и добавляются слабые ссылки на акки с исходной фоточки.
2. Аналогично с имбеддингами человека в целом, если лицо не видно, личность можно установить с помощью реидентификации.
3. Дальше обрабатывается прочая инфа. Например, присутствие на одной фотографии маленького ребенка и готовых к действию первичных половых признаков взрослого какбе намекает нам... Ну и про «экономически значимую» инфу не забываем, да?
Помимо фоточек можно анализировать голосовые сообщения и прочее, известные поисковые гиганты таки добились в этом значительных успехов.
Видео можно анализировать по опорным кадрам и звуковой дорожке, там можно находить, например, лица актеров и детектить нарушение закона о защите миккимауса.
С анализом текстов пока хуже, но в ближайшие годы ждут прорыв, да.
В общем, вэлкам ту брейв нью ворлд!
Исправление shkolnick-kun, :
Спасибо за интересный коммент! Ваш прогноз интересен и правдоподобен, только пруф пожалуйста.
Да, пожалуйста:http://telecomblog.ru/internet-novosti/laieki-rasskajut-vse-vashi-taieni
Некоторые результаты исследования были удивительными. Анализ лайков в 95% случаев позволил определить пол и этническую принадлежность пользователей Facebook, а в 88% угадать их сексуальную ориентацию, в 85% отличить республиканцев от демократов. Семейный статус человека и случаи злоупотребления алкоголем и наркотиками были определены в 65% и 73% случаях соответственно. Эта модель дает возможность в 60% случаев предсказать даже такие данные, как развелись ли родители человека до того, как ему исполнилось 21.
Когда у меня в универе была микроэкономика, то мне там рассказывали, что есть методики, позволяющие реализовать совершенную ценовую дискриминацию в b2c. Проблема в том, что в этих методиках «жертва маркетинга» должна заполнить анкету примерно на 300 вопросов.
Так вот, раздача лайков - это и есть как раз такие ответы на вопросы.
Когда ты находишься в социальной сети, твои действия отслеживаются: на какую картинку и сколько времени ты смотрел (точнее - сколько времени она была на твоем экране, пока ты присутствовал, «простой компа» можно детектить), по какой ссылке перешел и так далее.
Люди могут очень долго скролить всевозможные «ленты», перелистывая тысячи изображений, аудио/видеозаписей, постов/статей/текстов. Любая пауза (даже без лайков и перходов по ссылкам) во время этого мозговыносящего процесса может быть свидетельством интереса к материалу.
То есть, если выдать в «ленту» аннотированные материалы, можно получить ответы на те самые 300 вопросов в реальном времени за несколько [десятков] минут.
Соответственно, нужны способы аннотации и метрики, которые позволяют оценить ОБВМ «жертвы».
Сейчас такими метриками являются лайки/дизлайки/репосты и т.п., а аннотация потоков говна контента делается вручную посредством #ХЭШТЭГОВ, и прочего «отметь какую-нибудь гниду на фотографии». Естественно, вся реклама тоже размечена соответствующим образом.
В дальнейшем ручная разметка никуда не денется, но в ближайшие годы она будет дополнена автоматической.
Собственно сейчас мы видим бурное развитие «мобильных» (читай облегченных) моделей машинного обучения с одной стороны, фреймворков машинного обучения, ориентированных на веб, с другой, и компьютерного железа, ускоряющего как минимум инференс, с третьей.
Вот, например, небезызвестный keras.js, и прочие tf.js и т.п.
Аннотировать можно практически любые данные, которые попадают в сеть: изображения, аудиозаписи (кстати, а ты в курсе, что копрорация «добра» слушает тебя?), видео, текстовую информацию.
Итак, «жертва маркетинга» решила добавить «фоточку на стеночку», нажимает выбор файла, либо делает drag'n'drop, и тут...
1. прямо в браузере «запускается» сверточная сеть, которая извлекает фичи из картиночки.
2. Дальше эти фичи идут на вход «головы» SSDLite_v.***, которая детектирует различные классы интересных объектов: людей; лица; шмот; аксесуары; «тачки»; «мобилы»; ВНЕЗАПНО, первичные и вторичные половые признаки, котовые к применению; оружие; порошки и таблеки; и много чего ещё.
Для всех этих объектов детектор выдает класс и ROI.
3. Дальше для каждого объекта вызывается отдельная модель, которая считает «дескриптор» соответствующего объекта.
Так для лиц можно вызвать facenet; для человека в целом можно вызвать аналогичную facenet модель, которая оценит «стиль одежды», а еще модель реидентификации личности; думаю, что аналогичным образом можно поcтупить и со всеми остальными объектами...
4. А в это время на экране будет идти красивенький прогрессбар, показывающий «загрузку изображения в облако».
После того, как фоточка с аннотацией загружена, начинает работать серверная аналитика:
1. Имбеддинги лиц сопоставляются с имбеддингами лиц связянных акков на глубину шести рукопожатий. Неизвестные сопоставляются со знаменитостями и с неизвестными с фотографий со связанных акков. Ессли рожу видно вообще впервые - создается новая запись типа «неизвестный» и добавляются слабые ссылки на акки с исходной фоточки.
2. Аналогично с имбеддингами человека в целом, если лицо не видно, личность можно установить с помощью реидентификации.
3. Дальше обрабатывается прочая инфа. Например, присутствие на одной фотографии маленького ребенка и готовых к действию первичных половых признаков взрослого какбе намекает нам... Ну и про «экономически значимую» инфу не забываем, да?
Помимо фоточек можно анализировать голосовые сообщения и прочее, известные поисковые гиганты таки добились в этом значительных успехов.
Видео можно анализировать по опорным кадрам и звуковой дорожке, там можно находить, например, лица актеров и детектить нарушение закона о защите миккимауса.
С анализом текстов пока хуже, но в ближайшие годы ждут прорыв, да.
В общем, вэлкам ту брейв нью ворлд!
Исходная версия shkolnick-kun, :
Длиннопост, граммар наци негодует!
Спасибо за интересный коммент! Ваш прогноз интересен и правдоподобен, только пруф пожалуйста.
Да, пожалуйста:http://telecomblog.ru/internet-novosti/laieki-rasskajut-vse-vashi-taieni
Некоторые результаты исследования были удивительными. Анализ лайков в 95% случаев позволил определить пол и этническую принадлежность пользователей Facebook, а в 88% угадать их сексуальную ориентацию, в 85% отличить республиканцев от демократов. Семейный статус человека и случаи злоупотребления алкоголем и наркотиками были определены в 65% и 73% случаях соответственно. Эта модель дает возможность в 60% случаев предсказать даже такие данные, как развелись ли родители человека до того, как ему исполнилось 21.
Когда у меня в универе была микроэкономика, то мне там рассказывали, что есть методики, позволяющие реализовать совершенную ценовую дискриминацию в b2c. Проблема в том, что в этих методиках «жертва маркетинга» должна заполнить анкету на примерно на 300 вопросов.
Так вот, раздача лайков - это и есть как раз такие ответы на вопросы.
Когда ты находишься в социальной сети, твои действия отслеживаются: на какую картинку и сколько времени ты смотрел (точнее - сколько времени она была на твоем экране, пока ты присутствовал, «простой компа» можно детектить), по какой ссылке перешел и так далее.
Люди могут очень долго скролить всевозможные «ленты», перелистывая тысячи изображений, аудио/видеозаписей, постов/статей/текстов. Любая пауза (даже без лайков и перходов по ссылкам) во время этого мозговыносящего процесса может быть свидетельством интереса к материалу.
То есть, если выдать в «ленту» аннотированные материалы, можно получить ответы на те самые 300 вопросов в реальном времени за несколько [десятков] минут.
Соответственно, нужны способы аннотации и метрики, которые позволяют оценить ОБВМ «жертвы».
Сейчас такими метриками являются лайки/дизлайки/репосты и т.п., а аннотация потоков говна контента делается вручную посредством #ХЭШТЭГОВ, и прочего «отметь какую-нибудь гниду на фотографии». Естественно, вся реклама тоже размечена соответствующим образом.
В дальнейшем ручная разметка никуда не денется, но в ближайшие годы она будет дополнена автоматической.
Собственно сейчас мы видим бурное развитие «мобильных» (читай облегченных) моделей машинного обучения с одной стороны, фреймворков машинного обучения, ориентированных на веб, с другой, и компьютерного железа, ускоряющего как минимум инференс, с третьей.
Вот, например, небезызвестный keras.js, и прочие tf.js и т.п.
Аннотировать можно практически любые данные, которые попадают в сеть: изображения, аудиозаписи (кстати, а ты в курсе, что копрорация «добра» слушает тебя?), видео, текстовую информацию.
Итак, «жертва маркетинга» решила добавить «фоточку на стеночку», нажимает выбор файла, либо делает drag'n'drop, и тут...
1. прямо в браузере «запускается» сверточная сеть, которая извлекает фичи из картиночки.
2. Дальше эти фичи идут на вход «головы» SSDLite_v.***, которая детектирует различные классы интересных объектов: людей; лица; шмот; аксесуары; «тачки»; «мобилы»; ВНЕЗАПНО, первичные и вторичные половые признаки, котовые к применению; оружие; порошки и таблеки; и много чего ещё.
Для всех этих объектов детектор выдает класс и ROI.
3. Дальше для каждого объекта вызывается отдельная модель, которая считает «дескриптор» соответствующего объекта.
Так для лиц можно вызвать facenet; для человека в целом можно вызвать аналогичную facenet модель, которая оценит «стиль одежды», а еще модель реидентификации личности; думаю, что аналогичным образом можно поcтупить и со всеми остальными объектами...
4. А в это время на экране будет идти красивенький прогрессбар, показывающий «загрузку изображения в облако».
После того, как фоточка с аннотацией загружена, начинает работать серверная аналитика:
1. Имбеддинги лиц сопоставляются с имбеддингами лиц связянных акков на глубину шести рукопожатий. Неизвестные сопоставляются со знаменитостями и с неизвестными с фотографий со связанных акков. Ессли рожу видно вообще впервые - создается новая запись типа «неизвестный» и добавляются слабые ссылки на акки с исходной фоточки.
2. Аналогично с имбеддингами человека в целом, если лицо не видно, личность можно установить с помощью реидентификации.
3. Дальше обрабатывается прочая инфа. Например, присутствие на одной фотографии маленького ребенка и готовых к действию первичных половых признаков взрослого какбе намекает нам... Ну и про «экономически значимую» инфу не забываем, да?
Помимо фоточек можно анализировать голосовые сообщения и прочее, известные поисковые гиганты таки добились в этом значительных успехов.
Видео можно анализировать по опорным кадрам и звуковой дорожке, там можно находить, например, лица актеров и детектить нарушение закона о защите миккимауса.
С анализом текстов пока хуже, но в ближайшие годы ждут прорыв, да.
В общем, вэлкам ту брейв нью ворлд!