Анализ оригинальности авторства текста.

лингвистика, морфология, нейронные сети

Есть огромное количество заведомо оригинального (есть рукописи для проверки) текста на русском языке, написанного одним анонимусом. И есть огромное количество текста написанного якобы тем же автором, но рукописей нет.

Реально с помощью компьютерного анализа проверить его оригинальность?

Я знаю что есть opencorpora и pymorph, интересно можно ли сделать нейромодель для оригинального текста и проверить вторую часть на вшивость?

Ссылка

← Ничего святого: хакеры взломали «электронные чётки» Ватикана за 15 минут

А чё драму не обсуждаем? «Apple в 2019 году — это Linux в 2000» КГ/АМ, конечно, но в чём-то прав. →

Проверить чаще можно чем нет, но при чем тут нейромодели?

cvv ★★★★★
(21.10.19 02:19:12 MSK)

И есть огромное количество текста написанного якобы тем же автором, но рукописей нет.

“есть, но нет” ,- и с чем ты сравнивать собрался «написанное одним анонимусом»?

★★★★★

~~Завтра~~ Уже понедельник, а не пятница.

atsym ★★★★★
(21.10.19 02:33:40 MSK)
Последнее исправление: atsym 21.10.19 02:35:13 MSK (всего исправлений: 1)

Ответ на: комментарий от atsym 21.10.19 02:33:40 MSK

Есть два огромных текста, там тысячи страниц. Один точно написан анонимусом, второй текст либо да, либо нет. Вот надо проверить да или нет.

steemandlinux ★★★★★
(21.10.19 02:38:14 MSK) автор топика

Ссылка

Ответ на: комментарий от cvv 21.10.19 02:19:12 MSK

Проверить чаще можно чем нет

А как?

steemandlinux ★★★★★
(21.10.19 02:40:14 MSK) автор топика

Есть огромное количество заведомо оригинального (есть рукописи для проверки) текста на русском языке, написанного одним анонимусом. И есть огромное количество текста написанного якобы тем же автором, но рукописей нет.

Есть куча статистических метрик, разработанных задолго до изобретения термина Big Data и засилья нейросетей. Есть даже онлайн-сервисы, куда можно вбить свой текст и получить ответ, ~~какая ты феминистка~~ кто ты из писателей.

Реально с помощью компьютерного анализа проверить его оригинальность?

Чисто теоретически, проведя статанализ статанализа (хм, метастатанализ?) любой существующий алгоритм можно доработать так, чтобы он отдавал процент: да, это с вероятностью 80% один и тот же человек. Но ни нуля, ни сотки тебе не даст никто.

Гугли «определение авторства текста», и будет тебе счастье.

Вот статья, предлагающая методику определения авторства на основе анализа частотности отдельных слов: https://cyberleninka.ru/article/v/statisticheskiy-analiz-v-zadache-identifika...

Есть еще анализаторы стиля, считающие более обобщенные метрики: https://fantlab.ru/article374

Вот методика на цепях Маркова: http://www.mathnet.ru/links/fa0183a19de24b7f7913096f9a12a081/ppi520.pdf

Я знаю что есть opencorpora и pymorph, интересно можно ли сделать нейромодель для оригинального текста и проверить вторую часть на вшивость?

Не забудь внедрить методологию аджайл, нанять 100 девопсов, а данные засунуть в блокчейн. Какие там еще слова модные?

Нейросеть — это инструмент, а не волшебная палочка. Зачем он нужен именно в этой задаче? Допустим, тебе надо вычислить расстояние от Киева до Петербурга. Сколько столетий супер-мега-аджайл-девопс-биткойн-кост-эффектив-ретёрн-оф-инвестмент-бизнес-физибл нейросетям о двух ногах понадобилось, чтобы понять, что земля круглая, вычислить ее радиус, вывести формулу длины дуги? Вот и тебе надо вычислить языковую дистанцию между двумя массивами текстов.

~~Bagrov~~ ★★★★★
(21.10.19 08:36:49 MSK)

Ответ на: комментарий от Bagrov 21.10.19 08:36:49 MSK

Есть даже онлайн-сервисы, куда можно вбить свой текст и получить ответ, какая ты феминистка кто ты из писателей.

Ссылки в студию!

Deleted
(21.10.19 08:39:11 MSK)

Ответ на: комментарий от Deleted 21.10.19 08:39:11 MSK

К сожалению, весь топ выдачи загажен развлекательными АБВГДйками от СМИ: котик, собачка или попугай? Мопед, джип или лодка? А может быть, водка, или все-таки чай к пяти часам подай?

Ага, угу. А если я по образу жизни — a chronically depressed autistic British single mother, но пишу что-то более похожее на «Старик и море», чем на «Гарри Поттера»?

Пока одну ссылку нашел: http://www.rusf.ru/books/analysis/ Дальше гуглить лень, но помню, что в двухтысячных таких анализаторов было больше, и удовлетворялись они более короткими фрагментами, чем этот.

Уже тогда анализаторы прекрасно вычисляли, что Гай Юлий Орловский — это Юрий Никитин, пока весь фандом предпочитал делать вид, будто этого не знает.

~~Bagrov~~ ★★★★★
(21.10.19 09:48:04 MSK)

Ответ на: комментарий от Bagrov 21.10.19 08:36:49 MSK

Нашел-таки решение на нейросетях. Может быть, кому-то будет интересно:

https://habr.com/ru/post/114186/

https://habr.com/ru/post/114187/

https://habr.com/ru/post/114188/

Мельком просмотрел. Так и не нашел обоснования использования нейросети и сравнения с существующими решениями. И всё равно нейросеть считает статистику, о чем автор прямо заявляет. Видимо, цель была - использовать нейросеть в дипломном проекте.

~~Bagrov~~ ★★★★★
(21.10.19 10:10:13 MSK)

Ответ на: комментарий от Bagrov 21.10.19 09:48:04 MSK

Прикольно, накидал туда своих фрагментов, он мне говорит, мол, этот текст равноудалён от всех авторских шаблонов, но есть сходства - на 22% с Дмитрием Браславским, на 20% с Виталием Капланом и на 10% с Юлием Буркиным. Не знаю, радоваться или плакать, потому что кто это - вообще хз))

Deleted
(21.10.19 10:11:26 MSK)

Ответ на: комментарий от Bagrov 21.10.19 10:10:13 MSK

Исходники проекта «Текстовый анализатор» (Borland C++ Builder 6.0)

O_o

Deleted
(21.10.19 10:18:41 MSK)

Ответ на: комментарий от Deleted 21.10.19 10:11:26 MSK

Дмитрия Браславского знаю. Его книги-игры широко известны в узких кругах: жутко захватывающие гипертекстовые RPG на бумаге. Зайти в пещеру — параграф UVW. Пройти мимо — параграф XYZ. Очки: здоровье, сила, удача. Сражения с бросанием игрального кубика. Найденные и собранные в качестве лута предметы. Всё это написано живым красочным языком.

Цепляло не хуже видеоигр. Первая книга вышла в 1991 году, а HTTP появился только через год и только у яйцеголовых. Компьютеры в домохозяйства пришли сильно позже.

Да, на Западе всё это существовало уже в 70-х, в виде текстовых игр и интерактивной литературы. Но для наших краев это был прорыв.

~~Bagrov~~ ★★★★★
(21.10.19 11:04:58 MSK)

Ссылка

Ответ на: комментарий от Deleted 21.10.19 10:18:41 MSK

Почему бы и не Borland, если автору так удобно? Годный GPL-продукт можно перевести на GCC или Clang.

Просто человек реализовал эталонное ненужно: существующие решения не изучал или изучал спустя рукава, нужность своего проекта объясняет тем, что впервые использовал нейросеть (на самом деле, нет), практические результаты хуже, чем у чисто статистических моделей.

Если бы покорпел над литературой, выжал бы нейросетью из существующих статистических моделей еще несколько процентов эффективности.

~~Bagrov~~ ★★★★★
(21.10.19 11:21:12 MSK)

Ссылка

Ответ на: комментарий от Deleted 21.10.19 10:18:41 MSK

Кстати, я тоже думал что люди, использующие цепепе быдлер, давно уже вымерли вместе с динозаврами.

Meyer ★★★★★
(21.10.19 11:30:13 MSK)

Ссылка

Ответ на: комментарий от steemandlinux 21.10.19 02:40:14 MSK

А как?

В голову лезет всякая статистика:

1. Словоупотребление - проверить частотность употребления «редких» слов, выражений и скоращений. Ну там всякие выражения типа как я, например, люблю употреблять «ибо нефиг», «категорически не рекомендую», «емнип». Редкость следует определять по корпусу других текстов. Т.е. если человек использует «какое-то слово и выражение» чаще (или наоборот реже) чем всреднем используется другими авторами, то весьма вероятно что и в других текстах этого автора будет такая же «аномалия».

2. Орфографические ошибки - обычно один и тот же человек делает одинаковые ошибки в одинаковых словах. (кроме случайных ошибок)

3. Пунктуация (в том числе пунктуационные ошибки) - всякие «авторские» запятые, «лишние» с точки зрения грамматики запятые, «пропущенные» с точки зрения грамматики запятые - весьма вероятно что автор делает такие вещи в одинаковых ситуациях из текста в текст.

4. Фактические ошибки в тексте - если человек ссылается на что-то, о чем он имеет не верное представление - то и из текста в текст (если не изменит мнение по вопросу - это проверяемо) будет тиражировать эти не верные представления (например если автор в одном тексте упоминает что «американцы якобы высаживались на луну», а в другом что «американцы высаживались на луну» - весьма вероятно эти тексты писали разные люди)

RiseOfDeath ★★★★
(21.10.19 11:35:44 MSK)
Последнее исправление: RiseOfDeath 21.10.19 11:39:55 MSK (всего исправлений: 5)

Реально с помощью компьютерного анализа проверить его оригинальность?

Да, но учить систему надо на большом количестве авторов (чем больше, тем лучше), а не на одном. Хотя, ответ, будет иметь статистическую природу.

peregrine ★★★★★
(21.10.19 12:58:44 MSK)

Ссылка

Ответ на: комментарий от RiseOfDeath 21.10.19 11:35:44 MSK

Интересно, а такие программы что выдадут на разных произведениях Сорокина? У него по стилистике они довольно разные

Deleted
(21.10.19 13:19:31 MSK)

Ответ на: комментарий от Deleted 21.10.19 13:19:31 MSK

А он единственный автор или там компиляция трудов соавторов или вообще писателей-макак, как у Донцовой (забыл как они правильно именуются) ?

Просто насколько я знаю, делать стилистику очень разной не так уж и просто. Это нужно как минимум специально делать.

RiseOfDeath ★★★★
(21.10.19 13:22:34 MSK)
Последнее исправление: RiseOfDeath 21.10.19 13:22:48 MSK (всего исправлений: 1)

Ответ на: комментарий от RiseOfDeath 21.10.19 13:22:34 MSK

Сорокин вполне реальная личность и книги вроде пишет сам, известен как первосортный литературный стилист

Это нужно как минимум специально делать

Разумеется

Deleted
(21.10.19 13:26:00 MSK)
Последнее исправление: Deleted 21.10.19 13:26:17 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от Bagrov 21.10.19 08:36:49 MSK

Есть даже онлайн-сервисы, куда можно вбить свой текст и получить ответ, какая ты феминистка кто ты из писателей

Не работает, так как по этому же тексту они и определят его же как автора, а там заведомо известно что очень много фальшивок, часть настучали копытами, часть набили штампами. Поэтому нужно сгенерировать базу с нуля.

Нейросеть — это инструмент, а не волшебная палочка. Зачем он нужен именно в этой задаче?

Например проиндексировать морфологию и уже после этого векторизировать оригинальный текст.

steemandlinux ★★★★★
(21.10.19 15:50:44 MSK) автор топика
Последнее исправление: steemandlinux 21.10.19 15:57:52 MSK (всего исправлений: 2)

Ссылка

Ответ на: комментарий от RiseOfDeath 21.10.19 11:35:44 MSK

Проблема в том, что 2 и 3 пункт заведомо исправлены. Там же еще реформа языка была.

steemandlinux ★★★★★
(21.10.19 15:52:20 MSK) автор топика

Ссылка

Можно, но причем тут нейронные сети? Это делается на основе анализа функций распределения биграмм. Гуглите статьи Орлова из ипм им Келдыша.

~~AntonI~~ ★★★★★
(22.10.19 21:22:52 MSK)

Ответ на: комментарий от AntonI 22.10.19 21:22:52 MSK

А нашел, корпору таки индексировать придётся.

steemandlinux ★★★★★
(22.10.19 21:46:33 MSK) автор топика

Ссылка

Что, Тихий Дон проверить хочешь?

praseodim ★★★★★
(22.10.19 23:25:33 MSK)

Ответ на: комментарий от praseodim 22.10.19 23:25:33 MSK

Ага, собственно я нашел способ: torchtext + pymorphy, первый модельку сделает, второй токенизирует.

steemandlinux ★★★★★
(23.10.19 13:34:01 MSK) автор топика
Последнее исправление: steemandlinux 23.10.19 13:36:04 MSK (всего исправлений: 1)

Ссылка

https://moluch.ru/conf/tech/archive/286/13237/

https://cyberleninka.ru/article/n/formalnye-metody-opredeleniya-avtorstva-tek...

psv1967 ★★★★★
(25.10.19 19:01:41 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← Ничего святого: хакеры взломали «электронные чётки» Ватикана за 15 минут

Talks

А чё драму не обсуждаем? «Apple в 2019 году — это Linux в 2000» КГ/АМ, конечно, но в чём-то прав. →

Похожие темы