LINUX.ORG.RU
ФорумTalks

Британские учёные доказали, что вашей статьи не существует

 , ,


0

1

Сабж: https://habr.com/ru/articles/1019296/

Вайб-писатели начали что-то подозревать.

Суть такова: если материал не содержит никакой новой, уникальной информации или личного опыта, то всю «статью» можно сжать в промпт размером меньше ста слов, и нейросеть по нему напишет статью не хуже.

Как по мне, это не совсем так. Например, обучающие материалы, туториалы не содержат уникальной информации напрямую, но в них может быть отражен личный опыт автора косвенно, что выражается в его способности писать доходчиво, отделяя существенное от несущественного.

Но вот к большинству обезличенных корпоративных текстов, а также к той ИИ-помойке, в которую превратилось большинство активных хабов Хабра - это точно относится.

Иронично, что статья по ссылке написана таким же узнаваемым роботизированным языком, и её саму можно было бы сжать тем же методом.

★★★

Последнее исправление: wandrien (всего исправлений: 5)
Ответ на: комментарий от tiinn

Лаконичность убивает детали, а в деталях кроется дьявол.

А дьявол есть враг рода человеческого. Минусы? Или ты за дьявола?

thesis ★★★★★
()
Ответ на: комментарий от tiinn

Потому что ты на стороне врага рода человеческого. Логично, ну.

thesis ★★★★★
()
Ответ на: комментарий от CrX

Продолжу мысль: а дальше вступает в силу закон трагедии общин.

Если некий учёный такой молодец и такой пурист, что не использует нейросети при подготовке статей, то он пишет одну статью за то же время, как его коллеги за стенкой при помощи генератора слов пишут двадцать. И либо он остаётся без денег и валит из профессии, либо он перестаёт быть молодцом и тоже пишет двадцать, а что делать.

Aceler ★★★★★
()
Ответ на: комментарий от Aceler

Если этот учёный такой «нетакусик», то он уже уволен и вопрос закрыт. Науке нетакусики не нужны, проблем больше.

VIT ★★
()
Ответ на: комментарий от VIT

Спасибо, что повторил мой тезис, но вопрос не закрыт. Вопрос стоит так — нас с вами в ближайшее время ждут водопады нейрослопа в научных статьях, потому что нетакусиков, способных писать без костылей, всех уволили. Кто виноват и что делать.

Aceler ★★★★★
()
Ответ на: комментарий от Aceler

Если наука таким же водопадом двинет вперёд, в научные прорывы, делать ничего не надо, это тупо прогресс.

tiinn ★★★★★
()
Ответ на: комментарий от Aceler

нас с вами в ближайшее время ждут водопады нейрослопа в научных статьях

Они уже здесь. Завтра дедлайн SC26 technical program, так они целый параграф требований создали по поводу AI-generated content, как его маркировать, и почему его использование - это хорошо.

VIT ★★
()
Ответ на: комментарий от tiinn

Если, то да. А если для выискивания одной мысли нужно читать «войну и мир», то я что-то сомневаюсь.

Но у меня нет хрустального шара, так что посмотрим.

Aceler ★★★★★
()

Напиши статью для Хабра от первого лица. Тема: проверка гипотезы о сжатии любого текста в короткий промпт. Введение: автор прочитал о кембриджском исследовании (восстановление текста из промпта с точностью 98%) и решил протестировать это на двух статьях Хабра. Эксперимент 1 («Незаменимые сотрудники»): промпт 67 слов развернулся в 651. ИИ сохранил структуру и цифры, но незаметно выдумал 9-месячный таймлайн. Сжатие 10:1. Эксперимент 2 («Telegram и обход DPI»): промпт 357 слов дал текст на 914 слов. ИИ восстановил аргументацию, но полностью потерял уникальную фактуру (hex-значения, байты, номер pull request). Сжатие 2.6:1. Вывод: общие рассуждения сжимаются легко. Уникальный практический опыт — нет (именно в нем кроется настоящая ценность). Ирония в конце: предлагаю Хабру ввести новый формат «сжатых статей» и публиковать только промпты, чтобы читатели разворачивали их сами через ChatGPT

Для Ъ

KillTheCat ★★★★★
()

Проблема не в ИИ, а в том что «технические» статьи дутые и содержат 95% воды, соплей, пустых слов и т.п. ненужных вещей. ИИ просто это обнажает и как бы подсказывает, что подобные статьи не нужны, а аффторы их пишущие легко заменяемы. А да всю его статью можно точно так же ужать во много раз, что как бы намекает.

vtVitus ★★★★★
()
Ответ на: комментарий от vtVitus

можно точно так же ужать во много раз

В общем подтверждаю, ИИ может ужать почти любой неужатый текст раза в четыре без особой потери смысла, даже не в промт, а в более короткий текст)

goingUp ★★★★★
()
Ответ на: комментарий от goingUp

Например ваше сообщение ИИ ужал до «ИИ может сократить текст в четыре раза без потери смысла.»

:)

VIT ★★
()
Ответ на: комментарий от unclestephen

сжать то её можно, но для распаковки понадобится гигов 40 VRAM и не кислое железо.

Железо, которое сейчас в любом смартфоне 20 лет назад было вообще фантастикой даже для десктопа. А 30 лет назад в суперкомпьютерах мощности были меньше(50GFlops всего в 1995г суперкомпьютеры). Думаю 40 гигов VRAM уже через 5-10 лет будут в среднем(даже не в топовом игровом) десктопе. А что такое даже 10 лет - пшик.

Loki13 ★★★★★
()
Ответ на: комментарий от goingUp

Но даже такие статьи полезны - из них по ссылкам перешедши узнаёшь, что прокси снова заработали +). Проверил и действительно работают. Так что даже лапша статья может сгодиться +).

vtVitus ★★★★★
()

Суть такова: если материал не содержит никакой новой, уникальной информации или личного опыта, то всю «статью» можно сжать в одну URI на ту самую уникальную информацию. Нейросетка здесь лишняя.

windows10 ★★★★★
()
Последнее исправление: windows10 (всего исправлений: 1)
Ответ на: комментарий от sabacs

Да что там Бабушкин. «Вначале было слово, и слово было промпт», шах и мат, атеисты!

thesis ★★★★★
()
Ответ на: комментарий от Loki13

Думаю 40 гигов VRAM уже через 5-10 лет будут в среднем(даже не в топовом игровом) десктопе.

Толку-то, если нейросеткам будет нужен терабайт-другой.

dataman ★★★★★
()
Ответ на: комментарий от dataman

Толку-то, если нейросеткам будет нужен терабайт-другой.

Тогда это уже будут нейросетки другого уровня.

Loki13 ★★★★★
()
Ответ на: комментарий от CrX

И ценность таких публикаций обычно либо в принципе низкая, либо состоит как раз в субъективном и в личности автора — интересно мнение конкретного человека.

Ценность ещё может быть в подводке к единственному ценному абзацу в статье.

question4 ★★★★★
()
Ответ на: комментарий от peregrine

Тексты, проверяющие исследования тоже ничего нового не содержат?

Да. Новостью будет только опровержение. Подтверждение уместится в 1 абзац :)

Или пацанам надо на слово верить?

До 21 века это не было особой проблемой :) А вот в 2000-х годах научные журналы по моей специальности стали заполнять статьи американцев, повторяющие исследования 1980-х и ранее. Не внося ничего нового. И если повторения советских исследований ещё можно оправдать, то смысла в повторении исследований других американцев и западноевропейцев точно не было. Кроме как для отчётности.

question4 ★★★★★
()
Последнее исправление: question4 (всего исправлений: 1)
Ответ на: комментарий от thesis

Кто опускает детали, тот пропускает дьявола :)

question4 ★★★★★
()
Ответ на: комментарий от question4

Ценность ещё может быть в подводке к единственному ценному абзацу в статье.

Просто вспомнилось - у фармацевтов это называется «доставка». Немного дружил с химиками когда-то - большое впечатление было, что оказывается целая отдельная наука: доставить действующее вещество А, с помощью вещества Б именно в то место, где А должно работать. Про А и так всем известно обычно, а вот правильное Б - страааааааашный секрет.

Toxo2 ★★★★★
()
Ответ на: комментарий от question4

Ценность ещё может быть в подводке к единственному ценному абзацу в статье.

В подводке — не ценность. Подводка — это как упаковка, обёртка для товаров физического мира — ценность представляет не она, и всё равно её в итоге выкинут (в случае с подводкой — забудут), распаковав непосредственно сам товар. Но тем не менее, она необходима и выполняет множество важных функций, без неё товар просто никто не заметит и не купит, и он сгниёт себе невостребованным.

Собственно в этом и суть моего замечания. Ценность представляют новые мысли и данные. И их можно хранить в виде собственно данных — в лаконичном изложении. Для этого не нужен промпт.

При этом при публикации текста, он обильно смачивается водой, вплоть до «как вам известно [и ещё чуть ли не абзац текста]» или «ни для кого не секрет, что […]» в начале, то есть с полным пониманием автора, что здесь он пишет то, что люди прекрасно знают и без него. Но это важно для представления, удобочитаемости. Также обёртка важна для «видимости» твоих данных читателями, их находимости в общем потоке информации. Если написать «Исследование завершено. Масса бозона Хиггса — 125,26±0,21 ГэВ/c²» — это будет вся новая информация, представляющая ценность, остальное уже было известно, либо гуглится. Но в таком виде твою статью (из 8 слов) прочитают только несколько специалистов, которые уже и так ждали результатов. Для широкого круга читателей надо писать много слов, ввести в контекст — написать, что за бозон Хиггса, что за Большой Адронный Коллайдер, когда и зачем там начались исследования, как и чем завершились — причём что занятно, собственно цифру широкий читатель даже не запомнит.

Так вот, информацию о массе бозона Хиггса можно хранить в виде вот такой записи, с датой, и эта информация будет иметь определённую ценность для хранящего. Но довольно бессмысленно в таком виде публиковать. Автор же сабжевой статьи говорит, что статью можно сжать до промпта, из которого можно в итоге получить статью, сдобренную водой. Но какую ценность представляет этот промпт? Если у тебя есть этот промпт, и ты введён в контекст, то вся эта вода тебе лично не нужна. Если ты планируешь это распространять, то твой промпт точно так же никто не увидит. Даже если ты его опубликуешь на самом видном месте. Люди ленивые, им нафиг не сдалось с помощью ИИ «восстанавливать статьи» по случайным промптам, увиденном на биллбордах. Да, ты можешь по этому промпту сгенерировать новую статью, а потом её уже опубликовать… Но ты с тем же успехом мог опубликовать оригинал. Получается, промпт этот твой нафиг не нужен — ни тебе, ни другим. Это не сжатие информации, это сокращение до важного. А до важного можно сократить и без всяких промптов и ИИ вообще, как показано в примере выше.

CrX ★★★★★
()
Ответ на: комментарий от CrX

Ну то есть, это как-то примерно так:

Есть чай в пакетиках. Считается, что себестоимость пакетика больше себестоимости его содержимого. Но ценность представляет чай — мы же его завариваем, а не пакетик.

Благодаря этой светлой мысли я решил купить целый паллет чая в пакетиках, раздербанить их вручную и высыпать из них весь чай в одну огромную бочку. Помимо бочки я из 3D-принтера, автоматического робота-манипулялятора, говна и палок собрал автоматизированную чаепакетикоделательную линию. Теперь, когда я хочу заварить чай из пакетика, я просто отсыпаю две чайных ложки из бочки, заряжаю в своё ноухау целлюлозу, нажимаю кнопку, и вуаля, через всего 2 минуты и 2 кВт×ч потреблённого электричества у меня пакетик с чаем на 90% не отличимый от магазинного!

Ну типа круто, конечно, но нафига?..

CrX ★★★★★
()

Если кубику рассказывать только про яблоки, кубик никогда ничего не расскажет про яблони.

Ангажированная контора вбросила очередную подмену понятий, хабровец забыл что такое причинно следственная связь. И решил проверить, может ли дизельный автомобиль ехать без топлива, он заправил бибику и поехал в горку, а когда топливо кончилось, он без топливо скатился с горки и сделал вывод, что да, дизельный автомобиль может сам ехать без топлива.

И вишенка на торте, его запрос к сети

Не используй поиск в интернете — только обучающие данные.

Directed by Robert B. Weide

«следовательно таракан оглох»

LINUX-ORG-RU ★★★★★
()

Отличная статья. Давно пора создавать соцсеть, где контент публикуется только после прохождения проверки слоп-сжатием.

snizovtsev ★★★★★
()
Последнее исправление: snizovtsev (всего исправлений: 1)
Ответ на: комментарий от CrX

Ценность представляют новые мысли и данные. И их можно хранить в виде собственно данных — в лаконичном изложении.

Для лаконичности необходимо, чтобы у читателя был доступ ко всем предыдущим данным, и не было необходимости повторять старое. Нынешний «формат» подачи закладывался ещё при Аристотеле :)

Говорят, в некоторых областях сильно формализовали формат научных статей именно по этой причине. Лично знаю только про исследования кристаллических структур. Там бывает достаточно пары-тройки абзацев, чем эта структура важна, таблицы координат атомов, списка из параметров решётки, пространственной группы и критериев goodness-of-fit и т.п.; перечисления приборов и методов. Шнобелевскую премию по литературе Стручкову дали именно за такие статьи. Под его руководством в 1980-х выпускали 1 статью в 3-4 дня.

И это не мешало западным исследователям (в основном, США) с 1990-х нарастающим потоком «проверять» старые структурные исследования.

question4 ★★★★★
()
Последнее исправление: question4 (всего исправлений: 1)

Ну да, а всю еду можно сжать в сухой корм типа собачьего, тут даже фанаты такого были.

buddhist ★★★★★
()

Да, я согласен, если статьи содержат личный опыт, рекомендации, то они не должны подпадать под запрет.

dmitry237 ★★★★★
()

Раз уж зашёл такой разговор о качестве научных публикаций, выскажу своё мнение, поскольку наблюдаю этот бардак с 1993 года - года моей первой публикации.

Главная проблема низкого качества публикаций - американские университеты. Именно они назначают премии и поощрения за количество. С большинством профессоров университетов невозможно разговаривать о чём то ином, кроме как о новой публикации - это их круг, они крутятся только в нём. Естественно, студенты выходят точно с такой же установкой.

На первом же месте работы вчерашнему студенту нужно продемонстрировать свой рост. А как это сделать, если он умеет только выполнять задачи, поставленные профессором. Правильно, публиковать, что сделал, то есть публиковать деятельность, как здесь уже отмечали. Мало кто из молодых способен сделать что-то новое, а прогресс показать надо.

Кто-то говорил про гранты. Гранты имеют непрямое отношение к публикации мусора. Любой грант содержит отчёт, отчёт должен иметь цитаты на публикации по теме отчёта. Поэтому да, потратил деньги, опубликуй деятельность.

И так не всех уровнях, пока уже совсем немолодому учёному не становится понятно, что публикация 325-ой мусорной статьи не делает жизнь легче и веселее. Тогда и начинается борьба за качество против количества. Мало кто доходит до вершин дзена.

VIT ★★
()
Ответ на: комментарий от question4

Подтверждение уместится в 1 абзац

Нет конечно, если подтверждение делать другим методом, что часто важно.

peregrine ★★★★★
()
Последнее исправление: peregrine (всего исправлений: 1)
Закрыто добавление комментариев для недавно зарегистрированных пользователей (со score < 50)