Британские учёные доказали, что вашей статьи не существует

0

1

Сабж: https://habr.com/ru/articles/1019296/

Вайб-писатели начали что-то подозревать.

Суть такова: если материал не содержит никакой новой, уникальной информации или личного опыта, то всю «статью» можно сжать в промпт размером меньше ста слов, и нейросеть по нему напишет статью не хуже.

Как по мне, это не совсем так. Например, обучающие материалы, туториалы не содержат уникальной информации напрямую, но в них может быть отражен личный опыт автора косвенно, что выражается в его способности писать доходчиво, отделяя существенное от несущественного.

Но вот к большинству обезличенных корпоративных текстов, а также к той ИИ-помойке, в которую превратилось большинство активных хабов Хабра - это точно относится.

Иронично, что статья по ссылке написана таким же узнаваемым роботизированным языком, и её саму можно было бы сжать тем же методом.

Ссылка

← Golang: секунда - «годы», сетевой запрос - «месяц», сменить горутину - «секуны»

Анонс стратегии по импортозамещению Android →

← 1 2 →

Ответ на: комментарий от tiinn 08.04.26 14:41:06 MSK

Лаконичность убивает детали, а в деталях кроется дьявол.

А дьявол есть враг рода человеческого. Минусы? Или ты за дьявола?

thesis ★★★★★
(08.04.26 14:45:55 MSK)

Ответ на: комментарий от thesis 08.04.26 14:45:55 MSK

Я за дьявола, ведь «Я — часть той силы, что вечно хочет зла и вечно совершает благо»

tiinn ★★★★★
(08.04.26 14:46:55 MSK)

Ответ на: комментарий от quickquest 08.04.26 14:44:16 MSK

Излагайте тезисно! (с) @thesis

thesis ★★★★★
(08.04.26 14:47:18 MSK)

Ссылка

Ответ на: комментарий от tiinn 08.04.26 14:46:55 MSK

А вот и растекание.

thesis ★★★★★
(08.04.26 14:47:52 MSK)

Ответ на: комментарий от thesis 08.04.26 14:47:52 MSK

Я сразу сказал, что лаконичность - нехорошо.

tiinn ★★★★★
(08.04.26 14:48:18 MSK)

Ответ на: комментарий от tiinn 08.04.26 14:48:18 MSK

Потому что ты на стороне врага рода человеческого. Логично, ну.

thesis ★★★★★
(08.04.26 14:49:03 MSK)

Ссылка

Ответ на: комментарий от CrX 08.04.26 11:30:19 MSK

Продолжу мысль: а дальше вступает в силу закон трагедии общин.

Если некий учёный такой молодец и такой пурист, что не использует нейросети при подготовке статей, то он пишет одну статью за то же время, как его коллеги за стенкой при помощи генератора слов пишут двадцать. И либо он остаётся без денег и валит из профессии, либо он перестаёт быть молодцом и тоже пишет двадцать, а что делать.

Aceler ★★★★★
(08.04.26 15:31:07 MSK)

Ответ на: комментарий от Aceler 08.04.26 15:31:07 MSK

Если этот учёный такой «нетакусик», то он уже уволен и вопрос закрыт. Науке нетакусики не нужны, проблем больше.

VIT ★★
(08.04.26 15:34:05 MSK)

Ответ на: комментарий от VIT 08.04.26 15:34:05 MSK

Спасибо, что повторил мой тезис, но вопрос не закрыт. Вопрос стоит так — нас с вами в ближайшее время ждут водопады нейрослопа в научных статьях, потому что нетакусиков, способных писать без костылей, всех уволили. Кто виноват и что делать.

Aceler ★★★★★
(08.04.26 15:39:10 MSK)

Ответ на: комментарий от Aceler 08.04.26 15:39:10 MSK

Если наука таким же водопадом двинет вперёд, в научные прорывы, делать ничего не надо, это тупо прогресс.

tiinn ★★★★★
(08.04.26 15:53:32 MSK)

Ответ на: комментарий от Aceler 08.04.26 15:39:10 MSK

нас с вами в ближайшее время ждут водопады нейрослопа в научных статьях

Они уже здесь. Завтра дедлайн SC26 technical program, так они целый параграф требований создали по поводу AI-generated content, как его маркировать, и почему его использование - это хорошо.

VIT ★★
(08.04.26 16:06:49 MSK)

Ответ на: комментарий от VIT 08.04.26 16:06:49 MSK

Они уже здесь.

Окей.

Aceler ★★★★★
(08.04.26 16:27:28 MSK)

Ссылка

Ответ на: комментарий от tiinn 08.04.26 15:53:32 MSK

Если, то да. А если для выискивания одной мысли нужно читать «войну и мир», то я что-то сомневаюсь.

Но у меня нет хрустального шара, так что посмотрим.

Aceler ★★★★★
(08.04.26 16:28:38 MSK)

Ссылка

сжать то её можно, но для распаковки понадобится гигов 40 VRAM и не кислое железо.

unclestephen ★★
(08.04.26 16:56:35 MSK)

Ответ на: комментарий от tiinn 08.04.26 11:30:00 MSK

А уже говорил, Бабушкин-то оказался прав!

sabacs
(08.04.26 16:57:55 MSK)

Напиши статью для Хабра от первого лица. Тема: проверка гипотезы о сжатии любого текста в короткий промпт. Введение: автор прочитал о кембриджском исследовании (восстановление текста из промпта с точностью 98%) и решил протестировать это на двух статьях Хабра. Эксперимент 1 («Незаменимые сотрудники»): промпт 67 слов развернулся в 651. ИИ сохранил структуру и цифры, но незаметно выдумал 9-месячный таймлайн. Сжатие 10:1. Эксперимент 2 («Telegram и обход DPI»): промпт 357 слов дал текст на 914 слов. ИИ восстановил аргументацию, но полностью потерял уникальную фактуру (hex-значения, байты, номер pull request). Сжатие 2.6:1. Вывод: общие рассуждения сжимаются легко. Уникальный практический опыт — нет (именно в нем кроется настоящая ценность). Ирония в конце: предлагаю Хабру ввести новый формат «сжатых статей» и публиковать только промпты, чтобы читатели разворачивали их сами через ChatGPT

Для Ъ

KillTheCat ★★★★★
(08.04.26 18:28:49 MSK)

Ссылка

Проблема не в ИИ, а в том что «технические» статьи дутые и содержат 95% воды, соплей, пустых слов и т.п. ненужных вещей. ИИ просто это обнажает и как бы подсказывает, что подобные статьи не нужны, а аффторы их пишущие легко заменяемы. А да всю его статью можно точно так же ужать во много раз, что как бы намекает.

vtVitus ★★★★★
(08.04.26 18:47:31 MSK)

Ответ на: комментарий от vtVitus 08.04.26 18:47:31 MSK

можно точно так же ужать во много раз

В общем подтверждаю, ИИ может ужать почти любой неужатый текст раза в четыре без особой потери смысла, даже не в промт, а в более короткий текст)

goingUp ★★★★★
(08.04.26 18:56:56 MSK)

Ответ на: комментарий от goingUp 08.04.26 18:56:56 MSK

Например ваше сообщение ИИ ужал до «ИИ может сократить текст в четыре раза без потери смысла.»

VIT ★★
(08.04.26 20:12:54 MSK)

Ссылка

Ответ на: комментарий от unclestephen 08.04.26 16:56:35 MSK

сжать то её можно, но для распаковки понадобится гигов 40 VRAM и не кислое железо.

Железо, которое сейчас в любом смартфоне 20 лет назад было вообще фантастикой даже для десктопа. А 30 лет назад в суперкомпьютерах мощности были меньше(50GFlops всего в 1995г суперкомпьютеры). Думаю 40 гигов VRAM уже через 5-10 лет будут в среднем(даже не в топовом игровом) десктопе. А что такое даже 10 лет - пшик.

Loki13 ★★★★★
(08.04.26 20:19:41 MSK)

Ответ на: комментарий от goingUp 08.04.26 18:56:56 MSK

Но даже такие статьи полезны - из них по ссылкам перешедши узнаёшь, что прокси снова заработали +). Проверил и действительно работают. Так что даже лапша статья может сгодиться +).

vtVitus ★★★★★
(08.04.26 20:25:25 MSK)

Ссылка

Суть такова: если материал не содержит никакой новой, уникальной информации или личного опыта, то всю «статью» можно сжать в одну URI на ту самую уникальную информацию. Нейросетка здесь лишняя.

windows10 ★★★★★
(08.04.26 20:58:58 MSK)
Последнее исправление: windows10 08.04.26 20:59:07 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от sabacs 08.04.26 16:57:55 MSK

Да что там Бабушкин. «Вначале было слово, и слово было промпт», шах и мат, атеисты!

thesis ★★★★★
(08.04.26 21:49:48 MSK)

Ссылка

Ответ на: комментарий от Loki13 08.04.26 20:19:41 MSK

Думаю 40 гигов VRAM уже через 5-10 лет будут в среднем(даже не в топовом игровом) десктопе.

Толку-то, если нейросеткам будет нужен терабайт-другой.

dataman ★★★★★
(08.04.26 22:10:57 MSK)

Ответ на: комментарий от dataman 08.04.26 22:10:57 MSK

Толку-то, если нейросеткам будет нужен терабайт-другой.

Тогда это уже будут нейросетки другого уровня.

Loki13 ★★★★★
(08.04.26 22:16:46 MSK)

Ссылка

Ответ на: комментарий от CrX 08.04.26 11:30:19 MSK

И ценность таких публикаций обычно либо в принципе низкая, либо состоит как раз в субъективном и в личности автора — интересно мнение конкретного человека.

Ценность ещё может быть в подводке к единственному ценному абзацу в статье.

question4 ★★★★★
(08.04.26 22:17:51 MSK)

Ответ на: комментарий от peregrine 08.04.26 12:41:16 MSK

Тексты, проверяющие исследования тоже ничего нового не содержат?

Да. Новостью будет только опровержение. Подтверждение уместится в 1 абзац :)

Или пацанам надо на слово верить?

До 21 века это не было особой проблемой :) А вот в 2000-х годах научные журналы по моей специальности стали заполнять статьи американцев, повторяющие исследования 1980-х и ранее. Не внося ничего нового. И если повторения советских исследований ещё можно оправдать, то смысла в повторении исследований других американцев и западноевропейцев точно не было. Кроме как для отчётности.

question4 ★★★★★
(08.04.26 22:25:36 MSK)
Последнее исправление: question4 08.04.26 22:26:38 MSK (всего исправлений: 1)

Ответ на: комментарий от thesis 08.04.26 14:45:55 MSK

Кто опускает детали, тот пропускает дьявола :)

question4 ★★★★★
(08.04.26 22:30:38 MSK)

Ссылка

https://habr.com/ru/articles/1009228/

Вот кстати хорошая статья.

Автор даже в курсе про ШЕРШАВЫХ КАБАНОВ 😁

wandrien ★★★
(08.04.26 23:07:10 MSK) автор топика

Ссылка

Ответ на: комментарий от question4 08.04.26 22:17:51 MSK

Ценность ещё может быть в подводке к единственному ценному абзацу в статье.

Просто вспомнилось - у фармацевтов это называется «доставка». Немного дружил с химиками когда-то - большое впечатление было, что оказывается целая отдельная наука: доставить действующее вещество А, с помощью вещества Б именно в то место, где А должно работать. Про А и так всем известно обычно, а вот правильное Б - страааааааашный секрет.

Toxo2 ★★★★★
(09.04.26 07:10:08 MSK)

Ссылка

Ответ на: комментарий от question4 08.04.26 22:17:51 MSK

Ценность ещё может быть в подводке к единственному ценному абзацу в статье.

В подводке — не ценность. Подводка — это как упаковка, обёртка для товаров физического мира — ценность представляет не она, и всё равно её в итоге выкинут (в случае с подводкой — забудут), распаковав непосредственно сам товар. Но тем не менее, она необходима и выполняет множество важных функций, без неё товар просто никто не заметит и не купит, и он сгниёт себе невостребованным.

Собственно в этом и суть моего замечания. Ценность представляют новые мысли и данные. И их можно хранить в виде собственно данных — в лаконичном изложении. Для этого не нужен промпт.

При этом при публикации текста, он обильно смачивается водой, вплоть до «как вам известно [и ещё чуть ли не абзац текста]» или «ни для кого не секрет, что […]» в начале, то есть с полным пониманием автора, что здесь он пишет то, что люди прекрасно знают и без него. Но это важно для представления, удобочитаемости. Также обёртка важна для «видимости» твоих данных читателями, их находимости в общем потоке информации. Если написать «Исследование завершено. Масса бозона Хиггса — 125,26±0,21 ГэВ/c²» — это будет вся новая информация, представляющая ценность, остальное уже было известно, либо гуглится. Но в таком виде твою статью (из 8 слов) прочитают только несколько специалистов, которые уже и так ждали результатов. Для широкого круга читателей надо писать много слов, ввести в контекст — написать, что за бозон Хиггса, что за Большой Адронный Коллайдер, когда и зачем там начались исследования, как и чем завершились — причём что занятно, собственно цифру широкий читатель даже не запомнит.

Так вот, информацию о массе бозона Хиггса можно хранить в виде вот такой записи, с датой, и эта информация будет иметь определённую ценность для хранящего. Но довольно бессмысленно в таком виде публиковать. Автор же сабжевой статьи говорит, что статью можно сжать до промпта, из которого можно в итоге получить статью, сдобренную водой. Но какую ценность представляет этот промпт? Если у тебя есть этот промпт, и ты введён в контекст, то вся эта вода тебе лично не нужна. Если ты планируешь это распространять, то твой промпт точно так же никто не увидит. Даже если ты его опубликуешь на самом видном месте. Люди ленивые, им нафиг не сдалось с помощью ИИ «восстанавливать статьи» по случайным промптам, увиденном на биллбордах. Да, ты можешь по этому промпту сгенерировать новую статью, а потом её уже опубликовать… Но ты с тем же успехом мог опубликовать оригинал. Получается, промпт этот твой нафиг не нужен — ни тебе, ни другим. Это не сжатие информации, это сокращение до важного. А до важного можно сократить и без всяких промптов и ИИ вообще, как показано в примере выше.

CrX ★★★★★
(09.04.26 07:49:09 MSK)

Ответ на: комментарий от CrX 09.04.26 07:49:09 MSK

Ну то есть, это как-то примерно так:

Есть чай в пакетиках. Считается, что себестоимость пакетика больше себестоимости его содержимого. Но ценность представляет чай — мы же его завариваем, а не пакетик.

Благодаря этой светлой мысли я решил купить целый паллет чая в пакетиках, раздербанить их вручную и высыпать из них весь чай в одну огромную бочку. Помимо бочки я из 3D-принтера, автоматического робота-манипулялятора, говна и палок собрал автоматизированную чаепакетикоделательную линию. Теперь, когда я хочу заварить чай из пакетика, я просто отсыпаю две чайных ложки из бочки, заряжаю в своё ноухау целлюлозу, нажимаю кнопку, и вуаля, через всего 2 минуты и 2 кВт×ч потреблённого электричества у меня пакетик с чаем на 90% не отличимый от магазинного!

Ну типа круто, конечно, но нафига?..

CrX ★★★★★
(09.04.26 08:05:31 MSK)

Ссылка

Если кубику рассказывать только про яблоки, кубик никогда ничего не расскажет про яблони.

Ангажированная контора вбросила очередную подмену понятий, хабровец забыл что такое причинно следственная связь. И решил проверить, может ли дизельный автомобиль ехать без топлива, он заправил бибику и поехал в горку, а когда топливо кончилось, он без топливо скатился с горки и сделал вывод, что да, дизельный автомобиль может сам ехать без топлива.

И вишенка на торте, его запрос к сети

Не используй поиск в интернете — только обучающие данные.

Directed by Robert B. Weide

«следовательно таракан оглох»

LINUX-ORG-RU ★★★★★
(09.04.26 08:13:13 MSK)

Ссылка

Ответ на: комментарий от CrX 09.04.26 07:49:09 MSK

А, ну вот.

thesis ★★★★★
(09.04.26 11:16:58 MSK)

Ссылка

Отличная статья. Давно пора создавать соцсеть, где контент публикуется только после прохождения проверки слоп-сжатием.

snizovtsev ★★★★★
(09.04.26 14:02:19 MSK)
Последнее исправление: snizovtsev 09.04.26 14:02:38 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от CrX 09.04.26 07:49:09 MSK

Ценность представляют новые мысли и данные. И их можно хранить в виде собственно данных — в лаконичном изложении.

Для лаконичности необходимо, чтобы у читателя был доступ ко всем предыдущим данным, и не было необходимости повторять старое. Нынешний «формат» подачи закладывался ещё при Аристотеле :)

Говорят, в некоторых областях сильно формализовали формат научных статей именно по этой причине. Лично знаю только про исследования кристаллических структур. Там бывает достаточно пары-тройки абзацев, чем эта структура важна, таблицы координат атомов, списка из параметров решётки, пространственной группы и критериев goodness-of-fit и т.п.; перечисления приборов и методов. Шнобелевскую премию по литературе Стручкову дали именно за такие статьи. Под его руководством в 1980-х выпускали 1 статью в 3-4 дня.

И это не мешало западным исследователям (в основном, США) с 1990-х нарастающим потоком «проверять» старые структурные исследования.

question4 ★★★★★
(09.04.26 15:24:11 MSK)
Последнее исправление: question4 09.04.26 15:24:39 MSK (всего исправлений: 1)

Ссылка

Ну да, а всю еду можно сжать в сухой корм типа собачьего, тут даже фанаты такого были.

buddhist ★★★★★
(09.04.26 15:27:47 MSK)

Ссылка

Да, я согласен, если статьи содержат личный опыт, рекомендации, то они не должны подпадать под запрет.

dmitry237 ★★★★★
(09.04.26 15:43:31 MSK)

Ссылка

Раз уж зашёл такой разговор о качестве научных публикаций, выскажу своё мнение, поскольку наблюдаю этот бардак с 1993 года - года моей первой публикации.

Главная проблема низкого качества публикаций - американские университеты. Именно они назначают премии и поощрения за количество. С большинством профессоров университетов невозможно разговаривать о чём то ином, кроме как о новой публикации - это их круг, они крутятся только в нём. Естественно, студенты выходят точно с такой же установкой.

На первом же месте работы вчерашнему студенту нужно продемонстрировать свой рост. А как это сделать, если он умеет только выполнять задачи, поставленные профессором. Правильно, публиковать, что сделал, то есть публиковать деятельность, как здесь уже отмечали. Мало кто из молодых способен сделать что-то новое, а прогресс показать надо.

Кто-то говорил про гранты. Гранты имеют непрямое отношение к публикации мусора. Любой грант содержит отчёт, отчёт должен иметь цитаты на публикации по теме отчёта. Поэтому да, потратил деньги, опубликуй деятельность.

И так не всех уровнях, пока уже совсем немолодому учёному не становится понятно, что публикация 325-ой мусорной статьи не делает жизнь легче и веселее. Тогда и начинается борьба за качество против количества. Мало кто доходит до вершин дзена.

VIT ★★
(09.04.26 15:59:06 MSK)