LINUX.ORG.RU
решено ФорумTalks

Анализ оригинальности авторства текста.

 , ,


4

2

Есть огромное количество заведомо оригинального (есть рукописи для проверки) текста на русском языке, написанного одним анонимусом. И есть огромное количество текста написанного якобы тем же автором, но рукописей нет.

Реально с помощью компьютерного анализа проверить его оригинальность?

Я знаю что есть opencorpora и pymorph, интересно можно ли сделать нейромодель для оригинального текста и проверить вторую часть на вшивость?

И есть огромное количество текста написанного якобы тем же автором, но рукописей нет.

“есть, но нет” ,- и с чем ты сравнивать собрался «написанное одним анонимусом»?

★★★★★

Завтра Уже понедельник, а не пятница.

atsym ★★★★★
()
Последнее исправление: atsym (всего исправлений: 1)
Ответ на: комментарий от atsym

Есть два огромных текста, там тысячи страниц. Один точно написан анонимусом, второй текст либо да, либо нет. Вот надо проверить да или нет.

steemandlinux ★★★★★
() автор топика

Есть огромное количество заведомо оригинального (есть рукописи для проверки) текста на русском языке, написанного одним анонимусом. И есть огромное количество текста написанного якобы тем же автором, но рукописей нет.

Есть куча статистических метрик, разработанных задолго до изобретения термина Big Data и засилья нейросетей. Есть даже онлайн-сервисы, куда можно вбить свой текст и получить ответ, какая ты феминистка кто ты из писателей.

Реально с помощью компьютерного анализа проверить его оригинальность?

Чисто теоретически, проведя статанализ статанализа (хм, метастатанализ?) любой существующий алгоритм можно доработать так, чтобы он отдавал процент: да, это с вероятностью 80% один и тот же человек. Но ни нуля, ни сотки тебе не даст никто.

Гугли «определение авторства текста», и будет тебе счастье.

Вот статья, предлагающая методику определения авторства на основе анализа частотности отдельных слов: https://cyberleninka.ru/article/v/statisticheskiy-analiz-v-zadache-identifika...

Есть еще анализаторы стиля, считающие более обобщенные метрики: https://fantlab.ru/article374

Вот методика на цепях Маркова: http://www.mathnet.ru/links/fa0183a19de24b7f7913096f9a12a081/ppi520.pdf

Я знаю что есть opencorpora и pymorph, интересно можно ли сделать нейромодель для оригинального текста и проверить вторую часть на вшивость?

Не забудь внедрить методологию аджайл, нанять 100 девопсов, а данные засунуть в блокчейн. Какие там еще слова модные?

Нейросеть — это инструмент, а не волшебная палочка. Зачем он нужен именно в этой задаче? Допустим, тебе надо вычислить расстояние от Киева до Петербурга. Сколько столетий супер-мега-аджайл-девопс-биткойн-кост-эффектив-ретёрн-оф-инвестмент-бизнес-физибл нейросетям о двух ногах понадобилось, чтобы понять, что земля круглая, вычислить ее радиус, вывести формулу длины дуги? Вот и тебе надо вычислить языковую дистанцию между двумя массивами текстов.

Bagrov ★★★★★
()
Ответ на: комментарий от Bagrov

Есть даже онлайн-сервисы, куда можно вбить свой текст и получить ответ, какая ты феминистка кто ты из писателей.

Ссылки в студию!

Deleted
()
Ответ на: комментарий от Deleted

К сожалению, весь топ выдачи загажен развлекательными АБВГДйками от СМИ: котик, собачка или попугай? Мопед, джип или лодка? А может быть, водка, или все-таки чай к пяти часам подай?

Ага, угу. А если я по образу жизни — a chronically depressed autistic British single mother, но пишу что-то более похожее на «Старик и море», чем на «Гарри Поттера»?

Пока одну ссылку нашел: http://www.rusf.ru/books/analysis/ Дальше гуглить лень, но помню, что в двухтысячных таких анализаторов было больше, и удовлетворялись они более короткими фрагментами, чем этот.

Уже тогда анализаторы прекрасно вычисляли, что Гай Юлий Орловский — это Юрий Никитин, пока весь фандом предпочитал делать вид, будто этого не знает.

Bagrov ★★★★★
()
Ответ на: комментарий от Bagrov

Нашел-таки решение на нейросетях. Может быть, кому-то будет интересно:

https://habr.com/ru/post/114186/

https://habr.com/ru/post/114187/

https://habr.com/ru/post/114188/

Мельком просмотрел. Так и не нашел обоснования использования нейросети и сравнения с существующими решениями. И всё равно нейросеть считает статистику, о чем автор прямо заявляет. Видимо, цель была - использовать нейросеть в дипломном проекте.

Bagrov ★★★★★
()
Ответ на: комментарий от Bagrov

Прикольно, накидал туда своих фрагментов, он мне говорит, мол, этот текст равноудалён от всех авторских шаблонов, но есть сходства - на 22% с Дмитрием Браславским, на 20% с Виталием Капланом и на 10% с Юлием Буркиным. Не знаю, радоваться или плакать, потому что кто это - вообще хз))

Deleted
()
Ответ на: комментарий от Deleted

Дмитрия Браславского знаю. Его книги-игры широко известны в узких кругах: жутко захватывающие гипертекстовые RPG на бумаге. Зайти в пещеру — параграф UVW. Пройти мимо — параграф XYZ. Очки: здоровье, сила, удача. Сражения с бросанием игрального кубика. Найденные и собранные в качестве лута предметы. Всё это написано живым красочным языком.

Цепляло не хуже видеоигр. Первая книга вышла в 1991 году, а HTTP появился только через год и только у яйцеголовых. Компьютеры в домохозяйства пришли сильно позже.

Да, на Западе всё это существовало уже в 70-х, в виде текстовых игр и интерактивной литературы. Но для наших краев это был прорыв.

Bagrov ★★★★★
()
Ответ на: комментарий от Deleted

Почему бы и не Borland, если автору так удобно? Годный GPL-продукт можно перевести на GCC или Clang.

Просто человек реализовал эталонное ненужно: существующие решения не изучал или изучал спустя рукава, нужность своего проекта объясняет тем, что впервые использовал нейросеть (на самом деле, нет), практические результаты хуже, чем у чисто статистических моделей.

Если бы покорпел над литературой, выжал бы нейросетью из существующих статистических моделей еще несколько процентов эффективности.

Bagrov ★★★★★
()
Ответ на: комментарий от Deleted

Кстати, я тоже думал что люди, использующие цепепе быдлер, давно уже вымерли вместе с динозаврами.

Meyer ★★★★★
()
Ответ на: комментарий от steemandlinux

А как?

В голову лезет всякая статистика:

1. Словоупотребление - проверить частотность употребления «редких» слов, выражений и скоращений. Ну там всякие выражения типа как я, например, люблю употреблять «ибо нефиг», «категорически не рекомендую», «емнип». Редкость следует определять по корпусу других текстов. Т.е. если человек использует «какое-то слово и выражение» чаще (или наоборот реже) чем всреднем используется другими авторами, то весьма вероятно что и в других текстах этого автора будет такая же «аномалия».

2. Орфографические ошибки - обычно один и тот же человек делает одинаковые ошибки в одинаковых словах. (кроме случайных ошибок)

3. Пунктуация (в том числе пунктуационные ошибки) - всякие «авторские» запятые, «лишние» с точки зрения грамматики запятые, «пропущенные» с точки зрения грамматики запятые - весьма вероятно что автор делает такие вещи в одинаковых ситуациях из текста в текст.

4. Фактические ошибки в тексте - если человек ссылается на что-то, о чем он имеет не верное представление - то и из текста в текст (если не изменит мнение по вопросу - это проверяемо) будет тиражировать эти не верные представления (например если автор в одном тексте упоминает что «американцы якобы высаживались на луну», а в другом что «американцы высаживались на луну» - весьма вероятно эти тексты писали разные люди)

RiseOfDeath ★★★★
()
Последнее исправление: RiseOfDeath (всего исправлений: 5)

Реально с помощью компьютерного анализа проверить его оригинальность?

Да, но учить систему надо на большом количестве авторов (чем больше, тем лучше), а не на одном. Хотя, ответ, будет иметь статистическую природу.

peregrine ★★★★★
()
Ответ на: комментарий от RiseOfDeath

Интересно, а такие программы что выдадут на разных произведениях Сорокина? У него по стилистике они довольно разные

Deleted
()
Ответ на: комментарий от Deleted

А он единственный автор или там компиляция трудов соавторов или вообще писателей-макак, как у Донцовой (забыл как они правильно именуются) ?

Просто насколько я знаю, делать стилистику очень разной не так уж и просто. Это нужно как минимум специально делать.

RiseOfDeath ★★★★
()
Последнее исправление: RiseOfDeath (всего исправлений: 1)
Ответ на: комментарий от RiseOfDeath

Сорокин вполне реальная личность и книги вроде пишет сам, известен как первосортный литературный стилист

Это нужно как минимум специально делать

Разумеется

Deleted
()
Последнее исправление: Deleted (всего исправлений: 1)
Ответ на: комментарий от Bagrov

Есть даже онлайн-сервисы, куда можно вбить свой текст и получить ответ, какая ты феминистка кто ты из писателей

Не работает, так как по этому же тексту они и определят его же как автора, а там заведомо известно что очень много фальшивок, часть настучали копытами, часть набили штампами. Поэтому нужно сгенерировать базу с нуля.

Нейросеть — это инструмент, а не волшебная палочка. Зачем он нужен именно в этой задаче?

Например проиндексировать морфологию и уже после этого векторизировать оригинальный текст.

steemandlinux ★★★★★
() автор топика
Последнее исправление: steemandlinux (всего исправлений: 2)
Ответ на: комментарий от RiseOfDeath

Проблема в том, что 2 и 3 пункт заведомо исправлены. Там же еще реформа языка была.

steemandlinux ★★★★★
() автор топика

Можно, но причем тут нейронные сети? Это делается на основе анализа функций распределения биграмм. Гуглите статьи Орлова из ипм им Келдыша.

AntonI ★★★★
()
Ответ на: комментарий от AntonI

А нашел, корпору таки индексировать придётся.

steemandlinux ★★★★★
() автор топика
Ответ на: комментарий от praseodim

Ага, собственно я нашел способ: torchtext + pymorphy, первый модельку сделает, второй токенизирует.

steemandlinux ★★★★★
() автор топика
Последнее исправление: steemandlinux (всего исправлений: 1)
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.