Machine Learning в применении к анализу научных публикаций

1

1

Статья: https://arxiv.org/abs/1812.08775

Комментарий в twitter-треде: https://twitter.com/david_madras/status/1075954423082508294

Для тру:

Товарищи сделали ML-модель, которая определяет принимать или не принимать статью к публикации в журнал. На тестовом множестве модель показывает себя хорошо: отбрасывает около 50% плохих статей и менее 1% хороших.

Но есть одно но.

Модель никак не учитывает содержания статей, она основана только на внешнем виде статьи (в буквальном смысле). Так например после обучения получилось что больший вес получают статьи, в которых

1) на первой странице есть картинка;

2) статья имеет 8 страниц.

В этом простом примере применимость модели можно определить на глаз, интуитивно. В более сложных случаях (бота-рекрутера например) такой возможности нет.

Что приводит к вопросу: как вообще определять критерии качества и применимости моделей.

Ссылка

← Странности с патч-кордом

Лайфхак: картинкохостинг →

1) Ну так и применять её для _рейтингования_в_очереди_ на рассмотрение.

2) Как будто настоящий рецензент что то другое делает :)

psv1967 ★★★★★
(22.12.18 22:50:07 MSK)

Ответ на: комментарий от psv1967 22.12.18 22:50:07 MSK

Ну так и применять её для _рейтингования_в_очереди_ на рассмотрение.

Зачем?

alpha ★★★★★
(22.12.18 22:51:02 MSK) автор топика

Ответ на: комментарий от alpha 22.12.18 22:51:02 MSK

Возможно, для начальной ранжировки, чтобы рецензенты первоочередно рассматривали потенциально лучшие материалы.

shimon ★★★★★
(22.12.18 23:27:11 MSK)

Я думаю, можно сделать такое:

1) обучаешь нейросеть принимать или отвергать материалы в научный журнал так, как описано в твиттертреде.
2) полгода-год нейросеть работает параллельно с рецензентами.
3) через год рецензентов, принимавших решения, совпадавшие с нейросетью более чем на 97%, увольняешь за ненадобностью. «Зачем тебе мозг? Мы можем тебе заменить его на электронный. Хватит и простого. Он будет говорить «Что?», «Не понимаю», и «Где чай?». Разницу никто даже не заметит!» © Дуглас Адамс.
4) Остальные рецензенты рассматривают статьи в порядке, предложенном нейросетью, потому что как бы то ни было, сеть может отсеять полный шлак и предложить потенциально хорошие статьи.
5) Профит!

Вместо того, чтобы рецензировать статьи, нейросеть послужит для отсева собственно рецензентов, оставляя только тех, которые умеют в thinking outside of the box.

shimon ★★★★★
(22.12.18 23:39:43 MSK)

диссертация то ли Мозера, то ли Хайнца про пертурбации самосопряженного неограниченного оператора, если мне не изменяет память, занимала около 15 страниц %)

И является, емнип, самой цитируемой статьей в этом направлении. Так что с таким подходом, кхм...

~~dikiy~~ ★★☆☆☆
(22.12.18 23:46:54 MSK)

Ссылка

Где-то тут была тема про то как студентота протолкнула ради эксперимента какие-то псевдо-научные статьи даже через живых проверяльщиков. Куда уж тут ИИ.

deep-purple ★★★★★
(22.12.18 23:47:53 MSK)

Ссылка

Ответ на: комментарий от shimon 22.12.18 23:27:11 MSK

рассматривали потенциально лучшие материалы

А они не потенциально лучшие, они потенциально средние и скорее всего подогнанные под шаблон.

Потенциально лучшие 0.4% ты выкинул на мороз, то есть в конец очереди. И эта очередь при имеющемся потоке статей до них никогда не дойдет.

alpha ★★★★★
(22.12.18 23:51:16 MSK) автор топика
Последнее исправление: alpha 22.12.18 23:52:15 MSK (всего исправлений: 1)

Ответ на: комментарий от shimon 22.12.18 23:39:43 MSK

Кстати сказать я всё хотела предложить на каком-нибудь хакатоне сделать что-то похожее, но для патчей в OpenStack.

Там есть полностью открытый и доступный API, куча данных, кроме плюсов-минусов по ревью есть ещё stackalytics с инфой по участию пользователей в листах рассылки, багрепортах и т.п.

Можно вычислять корреляции между плюсами разных людей, отлавливать ботов, который просто ставят оценку ту же что человек до них,... короче огромное поле для деятельности.

С теми же проблемами.

alpha ★★★★★
(23.12.18 00:00:21 MSK) автор топика

Ответ на: комментарий от shimon 22.12.18 23:39:43 MSK

А про think outside the box тут такая забавная ситуация получается.

Вот есть некая проблема. Прибегает Machine Learning и пытается её решить. НЕ решает.

И мы так - да, не решил.. Ну давайте хоть частично используем, решим половину, а половина мимо, но зато хоть как-то, тем значит неповезло...

И в итоге получим систему, которая реализует половинчатое решение конкретного вопроса, и отсеивает/ранжирует статьи на основе нерелевантных критериев.

Но ведь этот вопрос не изолирован сам по себе, это не теоретическая задача которую решил/доказал и ушел.

Мы начинаем эту систему применять. Она начинает давать обратную связь. Эта обратная связь дает долгосрочный эффект на отсеиваемых, которые начнут оперировать этими нерелевантным критериями. Вся система по оценке качетсва деятельности уходит в сторону от исходной темы, люди начинают мерятся картинками вместо содержания, кризис науки, катастрофа мирового масштаба..

А надо-то было всего лишь задать вопрос - а что за проблему мы решаем, и с чего мы взяли что её обязательно надо было решать с помощью Machine Learning.

И может вместо половинчатых bias-based решений задачи «как делать ревью» надо было решать задачу «как делать поиск по статьям чтобы находить среди них полезные».

И вообще-то надо было просто выкинуть весь этот процесс ревью за ненадобностью, и создать вместо этого систему типа github с полнотекстовым поиском, где каждой опубликованной статье прикладывается issue-tracker, комментарии и pull-requests.

alpha ★★★★★
(23.12.18 00:28:50 MSK) автор топика

Ответ на: комментарий от alpha 22.12.18 23:51:16 MSK

Потенциально лучшие 0.4% ты выкинул на мороз, то есть в конец очереди. И эта очередь при имеющемся потоке статей до них никогда не дойдет.

Так а что сделать, если авторы той модели поставили эстетическую привлекательность статей во главу угла? То есть они изначально выбрали такой критерий, а потом сетуют, что вот ой, и куда катится мир. Нейросеть послушно выбирает статьи покрасивее. Я теперь немного теряюсь: а что они, собственно, хотели показать?

«Поместим газету в сосуд с концентрированной серной кислотой, а журнал ТВ-Парк — в дистилированную воду.» Результат немного предсказуем.

shimon ★★★★★
(23.12.18 00:29:11 MSK)

Ответ на: комментарий от alpha 23.12.18 00:28:50 MSK

Мы начинаем эту систему применять. Она начинает давать обратную связь. Эта обратная связь дает долгосрочный эффект на отсеиваемых, которые начнут оперировать этими нерелевантным критериями. Вся система по оценке качетсва деятельности уходит в сторону от исходной темы, люди начинают мерятся картинками вместо содержания, кризис науки, катастрофа мирового масштаба..

А это и с человеками работает, всю жизнь причем. Пытаться честно соответствовать всем критериям может сработать, может и нет, а вот понравиться лицу, принимающему решения — сработает всегда.

Сколько раз в вузе приходилось разводить материал водой, чтобы профессор захотел его принять? ;) Еще пример из жизни – развитие StackOverflow.

shimon ★★★★★
(23.12.18 00:35:25 MSK)
Последнее исправление: shimon 23.12.18 00:38:58 MSK (всего исправлений: 1)

Ответ на: комментарий от shimon 23.12.18 00:29:11 MSK

а что они, собственно, хотели показать?

Авторы не знаю. Может они тоже считают что ранжирование на основе левых критериев это полезная вещь.

Комментатор как я думаю хотел показать, что можно получить очень высокую корреляцию, при полном отсутствии полезных оснований для неё

То есть оценка качества и полезности модели на основе только показателей её совпадения с ответом на тестовом множестве на самом деле ничего не даёт.

alpha ★★★★★
(23.12.18 00:35:51 MSK) автор топика
Последнее исправление: alpha 23.12.18 00:45:31 MSK (всего исправлений: 1)

Ответ на: комментарий от shimon 23.12.18 00:35:25 MSK

Сколько раз в вузе приходилось разводить материал водой, чтобы профессор захотел его принять? ;)

Я не разводила. У меня диплом был 12 страниц, а конспект Канта - две :)

Я тогда чуть ли не единственная на курсе действительно прочитала заданные первоисточники а не скачала их из интернета. Поэтому у меня была тетрадочка с написанным от руки текстом вместо многостраничных распечатанных рефератов. Профессору оставалось только растрогаться и восхититься.

alpha ★★★★★
(23.12.18 00:40:26 MSK) автор топика
Последнее исправление: alpha 23.12.18 00:41:20 MSK (всего исправлений: 1)

Ответ на: комментарий от shimon 23.12.18 00:35:25 MSK

А это и с человеками работает, всю жизнь причем.

ну а это конечно верно

только вроде как цель наших всех разработок и нтп - улучшить ситуацию, а не усугубить

alpha ★★★★★
(23.12.18 00:43:00 MSK) автор топика

Ответ на: комментарий от alpha 23.12.18 00:35:51 MSK

А там совсем _немного_ полезности есть. Но эта полезность — лишь часть необходимого. То есть я вижу, как оценка на основании гештальта статьи может быть вступительным критерием, но никак не единственным.

Вот есть еда и есть еда. Обе съедобны, только одна выглядит так, как будто кто-то ее уже единожды съел. Мы интуитивно идем к той еде, которая выглядит более привлекательно. Замечательная эволюционно оправданная техника.

Эту технику можно обмануть: достаточно посмотреть, как делают фотки еды для ресторанных меню. Блинчики, например, для лучшего внешнего вида поливают моторным маслом вместо кленового сиропа, оно, оказывается, фотогеничнее в разы.

Так вот, я об этом знаю, но все равно по умолчанию выберу блюдо, которое выглядит краше, если не видел, как приготовлялись оба.

То же самое со статьями. Зачастую неряшество в оформлении свидетельствует и о неряшливом содержании, а вот обратное не верно.

В случае со статьей, если эстетический аспект все же будет оценивать человек, затраты в деньгах и вычислительном ресурсе будут несоизмеримо ниже.

ЗЫ Я с вами по большому счету согласен, но мне интересно иногда быть адвокатом дьявола и хотя бы попытаться понять другую сторону.

shimon ★★★★★
(23.12.18 00:49:54 MSK)

Ответ на: комментарий от alpha 23.12.18 00:35:51 MSK

Комментатор как я думаю хотел показать, что можно получить очень высокую корреляцию, при полном отсутствии полезных оснований для неё

Это, в принципе, известно давно (с 2016 года, как минимум, выходили хорошие статьи на эту тему. А по факту люди давно до этого вывода догадались).

Но у него хорошо получилось показать неправильную постановку эксперимента.

Solace ★★
(23.12.18 00:57:02 MSK)
Последнее исправление: Solace 23.12.18 00:58:57 MSK (всего исправлений: 1)

Ответ на: комментарий от alpha 23.12.18 00:43:00 MSK

только вроде как цель наших всех разработок и нтп - улучшить ситуацию, а не усугубить

Мне кажется, еще с десятилетие-полтора как минимум мы будем примерять различные классы задач к ML в попытках найти то, где оно на самом деле блеснет. Это нормальный процесс. Если его не украшать, правда, и не делать сенсаций, то все может заглохнуть, как заглохло в 1980-х. Spice must flow, гранты должны даваться.

Вроде как в медицине ML себя хорошо показывает уже сегодня. Было бы грустно, если бы все это ушло на свалку еще на 20 лет.

Я пока что вижу, что нейросеть на некоторых задачах в других отраслях вполне заменяет человека вместе с его недостатками и предрассудками. Преимущество нейросети в том, что она способна работать быстро и в три смены, без перекура и походов в туалет. Уже плюс. %)

shimon ★★★★★
(23.12.18 00:57:22 MSK)

Ссылка

Ответ на: комментарий от alpha 23.12.18 00:40:26 MSK

Я не разводила. У меня диплом был 12 страниц, а конспект Канта - две :)

Сильно повезло с профессором. Многие, если им гештальт не подходит, внутрь и не смотрят вовсе. То есть этих всех дармоедов можно разом заменить той моделью с неизменным результатом (вот и польза, между прочим).

shimon ★★★★★
(23.12.18 01:00:44 MSK)

А еще мне вот что подумалось.

Вот было в свое время много однотипных проходных диссертаций на темы вроде «О влиянии некоторых принципов научного коммунизма на увеличение надоев на примере колхоза в пгт Нижние Задрищенцы».

А сегодня то же самое о машинном обучении.

Я бы сильно хотел классификатор, способный отличить такие проходные статьи а-ля «диссертация Фарфуркиса» от остальных. Остальное будет либо тотальным трешем, который хотя бы смешной, либо реально интересным материалом.

shimon ★★★★★
(23.12.18 01:05:42 MSK)

Ссылка

Ответ на: комментарий от shimon 23.12.18 00:49:54 MSK

Мы интуитивно идем к той еде, которая выглядит более привлекательно. Замечательная эволюционно оправданная техника.

Хороший пример. Эволюционно-то эта техника оправдана, но ведь то было давно и неправда. А теперь это по сути атавизм.

И вот полетишь ты на Марс - а там еда и тюбика. Да даже просто в Китай куда-нибудь, где непривычная экзотика, которую не то что есть, смотреть страшно.

Или тут где-то недавно бургерами из богатых белками и протеинами червей хотели решать проблему голода. Как вспомню так вздрогну.

И получаем что этот нерелевантный критерий вполне ощутимо мешает в некоторых случаях, и очень даже существенно тормозит прогресс. И мы вместо того чтобы с ним что-то делать, наоборот ещё и встраиваем в него усилитель и закрепитель.

И то же со статьями - мы знаем что когда статью оценивают обычные люди, они могут повестись на несовсем релевантные критерии. Но на пользу это идет или во вред? Надо строить систему, которая этот подход автоматизирует, или систему, которая его прекращает?

alpha ★★★★★
(23.12.18 01:06:20 MSK) автор топика
Последнее исправление: alpha 23.12.18 01:09:04 MSK (всего исправлений: 1)

Ответ на: комментарий от Solace 23.12.18 00:57:02 MSK

Это, в принципе, известно давно (с 2016 года, как минимум, выходили хорошие статьи на эту тему. А по факту люди давно до этого вывода догадались).

А какие-то принципы и подходы для решения этой проблемы были сформулированы?

alpha ★★★★★
(23.12.18 01:24:52 MSK) автор топика

Если такие критерии будут выявлены и опубликованы, появится бот для подгонки статей под них, а потом и бот для их написания. Где-то здесь надо поставить блок, чтобы ИИ не лез, или наоборот - развивать науку только через обучение ИИ.

abraziv_whiskey ★★★★★
(23.12.18 04:53:10 MSK)

Ссылка

LOL, с весом статей и так проблемы, а тут ещё одну придумали, хотя сейчас их столько понаписано что наверное 50% с большим весом никто никогда не читал и не прочтёт кроме роботов. Но! Учёный писавший статью может оформить её как откровенный шлак с ошибками ляпами и прочим уг, но ценности от этого она не потеряет. Но алгоритму пох ведь кортинки нету с котом в начале :D

Deleted
(23.12.18 05:09:28 MSK)

Ссылка

Если на входе поставить ИИ, то через какое-то время появится другой ИИ генерящий подходящие для первого ИИ статьи по штуке в секунду.

Хотя безусловно это наше будущее и никуда от него не деться. Белковые рецензенты тоже отсеивают хорошие статьи. Скажем, статью того же Бозе первоначально выставили на мороз и потребовался цельный Эйнштейн (Бозе написал ему отдельно и попросил перевести его статью на немецкий), чтобы её приняли.

Evgueni ★★★★★
(23.12.18 05:40:59 MSK)
Последнее исправление: Evgueni 23.12.18 05:42:40 MSK (всего исправлений: 2)

Модель никак не учитывает содержания статей, она основана только на внешнем виде статьи

уже можно избавляться от 80% работников кафедр, ящитаю

Deleted
(23.12.18 06:57:39 MSK)
Последнее исправление: Deleted 23.12.18 07:00:19 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от alpha 23.12.18 01:06:20 MSK

белками и протеинами

Белки это хорошо и полезно, а от протеинов скор падает.

sid350 ★★★★★
(23.12.18 10:14:36 MSK)

Ссылка

Прекрасная иллюстрация полной несостоятельности машинного обучения в текущем виде.

~~Quasar~~ ★★★★★
(23.12.18 11:14:45 MSK)

Ссылка

Ответ на: комментарий от alpha 23.12.18 00:00:21 MSK

есть ещё stackalytics с инфой по участию пользователей в листах рассылки, багрепортах и т.п.

Эта информация относится к качеству патча ровным счетом никак.

Deleted
(23.12.18 11:22:14 MSK)

отбрасывает около 50% плохих статей и менее 1% хороших.

Подозреваю, что речь не о «плохих» и «хороших», а о «принятых» и «не принятых» к публикации.

больший вес получают статьи, в которых

1) на первой странице есть картинка;

2) статья имеет 8 страниц.

Пожалуй это главное, что следует знать о работе научных журналов.

ya-betmen ★★★★★
(23.12.18 11:46:34 MSK)

Ссылка

Ответ на: комментарий от Deleted 23.12.18 11:22:14 MSK

Категорично и мимо, как всегда.

alpha ★★★★★
(23.12.18 14:41:12 MSK) автор топика

Поздравляю, ты сформулировала главную проблему применения ML. Про которую обычно забывают.

Shadow ★★★★★
(23.12.18 15:06:07 MSK)

Ссылка

Ответ на: комментарий от shimon 23.12.18 01:00:44 MSK

Многие, если им гештальт не подходит, внутрь и не смотрят вовсе

На самом деле конечно неоднозначно это всё.

В программировании например тоже есть визуальная красота и читабельность. И это является одним из реальных критериев полезности и качества написанного кода. И есть инструменты и стандарты которые это поддерживают.

И может быть это и правильно - начать обращать наконец внимание не только на то что статья верна, но и на то что кто-то другой её может понять и использовать.

А весь этот груз из очень верных, но бесполезных статей, через которые продирается только автор, рецензент и один несчастный ревьюер на самом деле не так и ценен.

alpha ★★★★★
(23.12.18 15:32:11 MSK) автор топика

Ответ на: комментарий от Evgueni 23.12.18 05:40:59 MSK

через какое-то время появится другой ИИ генерящий подходящие для первого ИИ статьи по штуке в секунду.

Интересно, а если натравить эту систему на законопроекты, печатаемые госдурой? Я думаю что хуже не станет.

/me вспоминает одного знакомого, который в школе сдавал сочинения по литературе с помощью яндекс-рефератов — рандомно добавляя в текст духовность и скрепы.

thunar ★★★★★
(23.12.18 18:08:28 MSK)
Последнее исправление: thunar 23.12.18 18:11:41 MSK (всего исправлений: 3)

Ответ на: комментарий от alpha 23.12.18 15:32:11 MSK

на то что кто-то другой её может понять и использовать

Если она непонятна, то и человек-рецензент напишет отрицательную рецензию или попросит переписать понятно.

thunar ★★★★★
(23.12.18 18:13:12 MSK)
Последнее исправление: thunar 23.12.18 18:14:40 MSK (всего исправлений: 1)

Ответ на: комментарий от thunar 23.12.18 18:08:28 MSK

Интересно, а если натравить эту систему на законопроекты, печатаемые госдурой?

Там к сожалению не всё так просто. Чистый рандом был бы не так разрушителен. Каждый принятый закон — это результат лоббирования той или иной группы интересов. Проблема в том, что группа интересов «простые граждане РФ» там не представлена от слова совсем.

Evgueni ★★★★★
(23.12.18 18:37:51 MSK)

Ссылка

Ответ на: комментарий от thunar 23.12.18 18:13:12 MSK

Если она непонятна, то и человек-рецензент напишет отрицательную рецензию или попросит переписать понятно.

Но например для кода длину строки на 80 (или 120) символов проверяет не человек.

И хотя этот критерий в общем-то не имеет отношения к содержимому кода и его работе, тем не менее мы с ним уже сжились и не протестуем (ну почти).

alpha ★★★★★
(23.12.18 18:39:41 MSK) автор топика

Ссылка

Ответ на: комментарий от alpha 23.12.18 14:41:12 MSK

Категорично и мимо, как всегда.

Снизь немного градус ЧСВ.

Deleted
(23.12.18 19:55:04 MSK)

Ответ на: комментарий от Deleted 23.12.18 19:55:04 MSK

Не флуди в треде.

alpha ★★★★★
(23.12.18 19:57:56 MSK) автор топика

Ответ на: комментарий от alpha 23.12.18 19:57:56 MSK

Не флуди в треде.

NO U.

Deleted
(23.12.18 19:59:58 MSK)

Ссылка

Ответ на: комментарий от Evgueni 23.12.18 05:40:59 MSK

А вы читали как самого Эйнштейна отрецензировали в Physical Review и как он на это отреагировал? https://physicstoday.scitation.org/doi/10.1063/1.2117822

vitruss ★★★★★
(23.12.18 21:37:50 MSK)

Ссылка

Ответ на: комментарий от shimon 22.12.18 23:39:43 MSK

А владельцев журнала может тоже нейросетью заменить?

cvs-255 ★★★★★
(23.12.18 22:14:42 MSK)

Ответ на: комментарий от cvs-255 23.12.18 22:14:42 MSK

Мне все равно. Разрешаю заменить.

shimon ★★★★★
(24.12.18 00:32:37 MSK)

Ссылка

Ответ на: комментарий от alpha 23.12.18 01:24:52 MSK

Пока только для частных случаев удалось понять, почему так происходит. А так - потребуется доработка теории Вапника. Так как сам уважаемый мсье стар, то ждём молодежь.

Solace ★★
(24.12.18 00:34:11 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← Странности с патч-кордом

Talks

Лайфхак: картинкохостинг →

Похожие темы