Британские учёные доказали, что вашей статьи не существует

0

1

Сабж: https://habr.com/ru/articles/1019296/

Вайб-писатели начали что-то подозревать.

Суть такова: если материал не содержит никакой новой, уникальной информации или личного опыта, то всю «статью» можно сжать в промпт размером меньше ста слов, и нейросеть по нему напишет статью не хуже.

Как по мне, это не совсем так. Например, обучающие материалы, туториалы не содержат уникальной информации напрямую, но в них может быть отражен личный опыт автора косвенно, что выражается в его способности писать доходчиво, отделяя существенное от несущественного.

Но вот к большинству обезличенных корпоративных текстов, а также к той ИИ-помойке, в которую превратилось большинство активных хабов Хабра - это точно относится.

Иронично, что статья по ссылке написана таким же узнаваемым роботизированным языком, и её саму можно было бы сжать тем же методом.

Ссылка

← Golang: секунда - «годы», сетевой запрос - «месяц», сменить горутину - «секуны»

А что будет если сервера альтлинукс заменить на дебиан? →

← 1 2 →

f([множество слов],параметры, промт) -> [то же самое множество слов]
чтд.
хотя дешевле чем квантовый перебор в некоторых случаях.

etwrq ★★★★★
(08.04.26 11:20:33 MSK)
Последнее исправление: etwrq 08.04.26 11:29:55 MSK (всего исправлений: 1)

Суть такова: если материал не содержит никакой новой, уникальной информации или личного опыта, то всю «статью» можно сжать в промпт размером меньше ста слов, и нейросеть по нему напишет статью не хуже.

Круто! Осталось понять, как написать промпт, чтобы нейросеть подсказала, как получить промпт, который в свою очередь уже напишет статью.

Теперь поняли, зачем идти на платные курсы от Васяна «как грамотно составлять промпт»?

seiken ★★★★★
(08.04.26 11:23:46 MSK)

Ссылка

По аналогии с понятием «колмогоровская сложность», можно ввести нейрослоп-сложность: в промт какой длины можно сжать текст.

James_Holden ★★★★★
(08.04.26 11:27:05 MSK)

Ответ на: комментарий от James_Holden 08.04.26 11:27:05 MSK

Кстати, это удобно: можно хранить только промпты. И это будет работать для картинок и видео в том числе.

tiinn ★★★★★
(08.04.26 11:30:00 MSK)

Автор вскрыл существующую проблему, но то ли ради хайпа свёл всё к ИИ, то ли сам не докрутил до собственно сути прблемы. Она не в том, может нейросеть написать статью по промпту, или нет. Она в том, что наверное 95% публикуемых текстов не содержат в себе новых мыслей, или содержат одну-две небольших, но густо сдобренных водой. И их можно сократить. Не обязательно до промпта, можно до сути, которая уложится точно так же в абзац-другой. И ценность таких публикаций обычно либо в принципе низкая, либо состоит как раз в субъективном и в личности автора — интересно мнение конкретного человека. Если смысл существования текста в том, чтобы «затыкать дырку» на каком-то сайте (например «ведь все уже об этом написали, а мы ещё нет, надо догонять»), то да, нейрослоп с этой задачей справится. С остальными — нет — как была куча никому не нужных полных воды текстов, так и будет, только ещё больше.

CrX ★★★★★
(08.04.26 11:30:19 MSK)

Ответ на: комментарий от CrX 08.04.26 11:30:19 MSK

Тексты не нужны.

sin_a ★★★★★
(08.04.26 11:33:08 MSK)

Ответ на: комментарий от CrX 08.04.26 11:30:19 MSK

наверное 95% публикуемых текстов не содержат в себе новых мыслей

1. вот тут медианная жижа усредняется по функции полезности
2. на этой жиже обучаем следующие поколение ИИ и попутно кормим кожаных мешков.
3. распространяем
4. goto 1:
5. profit!

ну и есть тролли которые генерят неверную информацию, ею тоже иишечка кормится. медиана полезности ещё ниже падает.

etwrq ★★★★★
(08.04.26 11:37:58 MSK)
Последнее исправление: etwrq 08.04.26 11:39:32 MSK (всего исправлений: 2)

Ссылка

Ответ на: комментарий от tiinn 08.04.26 11:30:00 MSK

Как круто, вместо хранения 14 мегов фото реального человека хранить промпт и модель на стопиццот рамов, ссд и 30 серверах, которая будет на запрос «фото моей любимой мамочки в саду под деревом» будет восстанавливать тебе негро-еврее-гея с японскими пагодами.

PcheloBiaka ★
(08.04.26 11:48:53 MSK)

Ответ на: комментарий от PcheloBiaka 08.04.26 11:48:53 MSK

Вообще было бы неплохо, если бы ИИ переводила всякие растровые диаграммы в какой-нибудь универсальный векторный формат.

Но проблема как с отсутствием универсального формата (ну не считая SVG), так и с плохим пониманием пространства современными моделями.

Вон GLM-5 пытается рисовать диаграммы, но получается через раз.

wandrien ★★★
(08.04.26 11:51:55 MSK) автор топика
Последнее исправление: wandrien 08.04.26 11:57:27 MSK (всего исправлений: 1)

Иронично, что статья по ссылке написана таким же узнаваемым роботизированным языком

Полагаю, в скором времени британские мочёные выяснят, что люди в основной своей массе унылы, косноязычны и не в состоянии рассказать что-то новое и интересное.

apt_install_lrzsz ★★★★
(08.04.26 12:02:00 MSK)

Ссылка

Ответ на: комментарий от wandrien 08.04.26 11:51:55 MSK

Но проблема как с отсутствием универсального формата

Хехе, просто надо создать универсальный формат :))

А мне гораздо интереснее было бы, если бы ИИ мог восстановить формулу по графику. Вот это было бы бы…

PcheloBiaka ★
(08.04.26 12:02:44 MSK)

Ответ на: комментарий от PcheloBiaka 08.04.26 12:02:44 MSK

если бы ИИ мог восстановить формулу по графику. Вот это было бы бы…

Наиболее эффективным способом хранения многих данных. В первую очередь — звука.

CrX ★★★★★
(08.04.26 12:05:04 MSK)

Ответ на: комментарий от CrX 08.04.26 12:05:04 MSK

Не понял. А как это связано? Расшифруй.

По моему тут прозвучала какая-то замашка на детерминизм.

PcheloBiaka ★
(08.04.26 12:05:55 MSK)
Последнее исправление: PcheloBiaka 08.04.26 12:06:34 MSK (всего исправлений: 1)

Ответ на: комментарий от sin_a 08.04.26 11:33:08 MSK

Дело в том, что тексты пишутся для людей, а не только для LLM. Статьи пишут обычно (потенциально) для разной аудитории, каждая из которой имеет разную квалификацию, и соотв. может или не может понять ту или иную часть статьи. Например, прочитав абстракт и введение, человек, никак не погружённый в тему, уже может почерпнуть какую-то новую для себя информацию, хотя бы то, что автор статьи считает актуальной проблематикой.

Поэтому тексты таки да, нужны. Собственно говоря, грамотных текстов и вообще людей, могущих донести суть темы до аудитории без шелухи и ненужных примерчиков, очень мало, а спрашивать у нейросети через чатик не всегда удобно. Иногда хочется приготовить эспрессо со сливками, откинуться на спинку удобного кресла и открыть длинный, но хорошо структурированный текст на почитать-подумать, на часик-другой…

seiken ★★★★★
(08.04.26 12:07:31 MSK)

По сабжу - лично мне статья понравилась, все понятно (мне). Правда тут есть нюанс, что я и так некоторое понятие о математике и устройстве GPT имел, и некоторые учебники читал. Как это воспримется с нуля, я не берусь оценить.

James_Holden ★★★★★
(08.04.26 12:10:27 MSK)

Ссылка

Текст можно не только растягивать, но и сокращать, во дела!

Итд итп

Смотрите, я статью написал!

Bfgeshka ★★★★★
(08.04.26 12:10:34 MSK)

Ссылка

Ответ на: комментарий от CrX 08.04.26 12:05:04 MSK

Наиболее эффективным способом хранения многих данных. В первую очередь — звука.

Если рассмотреть генеративные музыкальные модели, например MusicGen от фирмы-экстремиста (который я немоного изучал), то во-первых они в основном представляют собой GPT модель, адаптированную для генерации звука, но - еще содержат интересную побочную технологию, там используется автоэнкодер, потому что модель генерирует звук в пространстве латента, а не сразу PCM семплы, и автоэнкодер это разжимает в PCM. Но! У него есть и кодировщик, который жмет входную запись в пространство латента модели.

Так вот, эту пару - кодировщик-декодер от MusicGen, можно использовать как lossy аудио кодек. И этот кодек очень эффективен, просто поразительно эффективен на экстремально низких битрейтах.

James_Holden ★★★★★
(08.04.26 12:15:41 MSK)

Ответ на: комментарий от PcheloBiaka 08.04.26 12:05:55 MSK

Запись звука — это запись колебаний по времени. Эти колебания можно представить в виде простого графика (собственно его ты обычно и может видеть в большинстве программ для работы со звуком — представление Waveform), где по вертикали амплитуда, а по горизонтали — время. Сейчас в основном используется PCM (импульсно-кодовая модуляция) — сигнал разбивается на N точек в секунду (например 44100 для CD-стандарта) и каждой точке присваивается значение. Получается график колебаний вверх-вниз. Если описать его наиболее эффективной формулой, то получится эффективное сжатие данных. Ну то есть в простейшем случае у тебя есть биииииип синусоидой на пять минут, и файл весит много килобайт, а можно записать просто sin(X) и иметь всю информацию об этом звуке. Но для более сложных сигналов «угадать» наиболее подходящую функцию (тоже, конечно, намного более сложную, чем просто один синус) не представляется возможным. Ну то есть, кодеки для сжатия аудио, например FLAC, именно этим и занимаются, но довольно «примитивно» — делает приближение подгонкой простого полинома или LPC, а потом добавляет остаток — то, что в данных отличается от приближения. Ну вот если более «хитро» угадывать аппроксимацию, эффективность сжатия в теории можно увеличить очень неслабо (в зависимости от данных, конечно).

CrX ★★★★★
(08.04.26 12:17:43 MSK)

Ответ на: комментарий от etwrq 08.04.26 11:20:33 MSK

Не так. Не зря автор сделал оговорку про обучение. Стиль и порядок изложения с учётом местного контекста делает материал или более доступным для понимания или менее доступным для понимания. Человеческий язык контекстно зависимый плюс читающий существует не в вакууме, а в каком то информационном контексте. Поэтому все эти прологи и подводки, которые как бы не несут новой информации, они формируют нужный контекст для подачи основного материала

cobold ★★★★★
(08.04.26 12:34:58 MSK)

Ссылка

Тексты, проверяющие исследования тоже ничего нового не содержат? Или пацанам надо на слово верить? Я вообще скажу так: научная работа (любая, даже математическая) ценна только если автором было проведено исследование по которому написана статья. Если исследования не было, то и ценность около нуля. Беда в том, что исследование часто ленятся делать и потому я видел кучу статей по машинному обучению и статистике, где пацаны из уважаемого международного университета наврали о том что провели исследования, а потом, опираясь на их работы другие пацаны ещё какие-то выводы сделали. А потом проверяешь и там тыква, всё не так как описано всеми этими клоунами. Вот это всё нейронка заменить может.

peregrine ★★★★★
(08.04.26 12:41:16 MSK)

Ответ на: комментарий от CrX 08.04.26 12:17:43 MSK

Хм. Если мы имеем только шкалу линейную времени и не знаю какую частоты в данный момент, то квантом становится разрешение этой шкалы, как минимум по времени. так? Частота разных, параллельных, перекрёстных, смен колебания может (и будет) не попадать в эту шкалу. Глюки с частотой N раз в секунду. Другим способом было указание длинны указанной частоты, шкала времени не линейная, а, событийная(?). В таком виде мне вспоминается ранняя упаковка звука в синтезаторы. Там качество, конечно, было даже не близким к натуральному и от неё сразу отошли. Если я ничего не путаю. (по памяти пишу, а память у меня… ну вы понели).

Мне кажется на шкале должно быть как минимум больше информации, не одна кривая. Тогда, с ИИшечной фантазией, приблизительно, поверю.

Но что смущает во всех ИИшных «энкодерах/декодеах» - то что поставил другую модель и получил другой результат. Вспомни времена когда мы слушали музыкальное сопровождение в midi. Всё зависело от карточки. Вот тут то же самое. Любая смена модели приведёт к другому результату и даже та же модель будет давать другие результаты. Сомпронтэ?

PcheloBiaka ★
(08.04.26 12:44:28 MSK)
Последнее исправление: PcheloBiaka 08.04.26 12:46:22 MSK (всего исправлений: 1)

А данные где это статья возьмет, если это мои уникальные, из обработки

One ★★★★★
(08.04.26 12:45:35 MSK)

Ссылка

Ответ на: комментарий от CrX 08.04.26 11:30:19 MSK

Так особенность кожаных мешков как раз в том, что для того чтоб появилась прорывная работа, сначала надо сотню другую статей где по 1 абзацу с новой мыслью сделано. Без уравнений Максвелла не было бы ни СТО ни ОТО, а самих уравнений Максвелла не было бы, если бы не сотни статей с одним двумя фактами, которые как-то коряво ложились на известные к тому времени формулы. Ещё и Максвелла обсирали долго после того как сломались преобразования Галилео Галилея.

peregrine ★★★★★
(08.04.26 12:45:56 MSK)

Ссылка

Ответ на: комментарий от James_Holden 08.04.26 12:15:41 MSK

Так вот, эту пару - кодировщик-декодер от MusicGen, можно использовать как lossy аудио кодек. И этот кодек очень эффективен, просто поразительно эффективен на экстремально низких битрейтах.

Так в пределе этот кодек переданное аудио фактически может превратить в ноты (условно, MIDI) и слова, а при декодировании снова сыграет и споёт. Качество будет как у Рабиновича, зато потрясающе эффективно.

static_lab ★★★★★
(08.04.26 12:49:45 MSK)

Ответ на: комментарий от static_lab 08.04.26 12:49:45 MSK

Блин, народ, запилите такое, у вас же мозгов хватит :) Жутко интересно как это работает и какие у этого всего границы возможного.

PcheloBiaka ★
(08.04.26 12:52:31 MSK)

AI и придумывать статьи может: https://observer.co.uk/news/science-technology/article/ai-is-inventing-academic-articles-and-scholars-are-citing-them

TLDR: один британский учоный™ обнаружил, что в сети гуляет большое количество работ со ссылкой на его статью. В частности, один из его же студентов на эту статью сослался. Факт в том, что он эту статью не писал, не писал её даже AI, этой статьи попросту не существует. А студенты уже цитируют.

Aceler ★★★★★
(08.04.26 12:53:04 MSK)

Ответ на: комментарий от Aceler 08.04.26 12:53:04 MSK

Американская главная библиотека в колокола бьёт «проверяйте, реально ли существует книга, или статья перед тем как делать запрос!». ИИ фантазирует и следующий допридумывает и это всё забавно наблюдать.

PcheloBiaka ★
(08.04.26 12:55:06 MSK)

Ссылка

Ответ на: комментарий от CrX 08.04.26 11:30:19 MSK

Да, проблема не в ИИ, проблема в механизме распределения грантов, который отталкивается от количества написаных статей. Мы в своё время тоже одну мысль размазывали на четыре статьи, потому что вот оно так. И в те годы никакого ИИ не было.

Aceler ★★★★★
(08.04.26 12:55:12 MSK)

Ответ на: комментарий от PcheloBiaka 08.04.26 12:52:31 MSK

Тут нужны не мозги, а сотни нефти и петабайты данных, притом как-то легализованных для этой задачи. У «нас» ничего этого нет. Попроси у компаний, запрещенных на территории РФ, лучше.

James_Holden ★★★★★
(08.04.26 12:55:16 MSK)

Ответ на: комментарий от Aceler 08.04.26 12:55:12 MSK

Эту систему давно пора транклюкировать, и я очень надеюсь, что ИИ ее наконец и похоронит, а также всех науко-метро-дебилов лично, которые десятилетиями издеваются над учеными своим бредом. А портрет Хирша вообще поставим на площади, каждый будет подходить и плевать. Как у Бредбери.

James_Holden ★★★★★
(08.04.26 12:57:20 MSK)

Ссылка

Ответ на: комментарий от seiken 08.04.26 12:07:31 MSK

Прежде всего надо уточнить некоторые вещи. Является ли запись закона Ньютона текстом? Можно это переформулировать: является ли математическая запись формулировок и выражений текстом? Я не могу ответить ни да ни нет, но к этому случаю моё высказывание не относилось. Также, когда ты открываешь рот и выдыхаешь воздух – иногда он при этом колеблется. Можно ли считать это текстом? Если твой собеседник услышал эти колебания и зафиксировал в записи то да, но в сам момент передачи? С этим то же что и с предыдущим случаем.

Таким образом, я могу переформулировать: фиксированный текст общего назначения записанный при помощи естественного разговорного языка общего назначения и адресованный неопределённому кругу читателей – не нужен.

А ты попробуй выйти на улицу, потрогать.., нет, не то, поговорить с живым человеком. Впрочем, вот прямо сейчас ты читаешь мой ответ непосредственно тебе на твоё обращение непосредственно ко мне. Хотя это конечно протез.

Однажды знакомый мне сказал что джаз это только живое исполнение а запись это так, консервы. Ну, не то, чтобы консервы были чем то плохим, иногда они и нужны, конечно.

sin_a ★★★★★
(08.04.26 12:58:26 MSK)

Ответ на: комментарий от PcheloBiaka 08.04.26 12:44:28 MSK

Но что смущает во всех ИИшных «энкодерах/декодеах» - то что поставил другую модель и получил другой результат. Вспомни времена когда мы слушали музыкальное сопровождение в midi. Всё зависело от карточки. Вот тут то же самое. Любая смена модели приведёт к другому результату и даже та же модель будет давать другие результаты. Сомпронтэ?

Не, я не про то, чтобы потом генерировать тоже с помощью ИИ. Ты предложил с помощью ИИ угадывать функцию по графику. Это сжатие. Ну вот это можно использовать для эффективного сжатия звука. В результате у тебя «функция», которая разворачивается в нужный звук. А чтобы построить график по функции (как и воспроизвести этот звук), уже никакой ИИ не нужен, там детерминированный процесс. То есть, если натренировать модель именно эффективно угадывать функцию по графику, то такой ИИ нужен будет только для сжатия, для «разжатия» уже нет.

CrX ★★★★★
(08.04.26 13:00:58 MSK)

Ответ на: комментарий от CrX 08.04.26 12:17:43 MSK

Но для более сложных сигналов «угадать» наиболее подходящую функцию (тоже, конечно, намного более сложную, чем просто один синус) не представляется возможным.

4.2. ибо:
"При использовании в качестве базиса собственных функций оператора, ядром которого является корреляционная функция сигналов… нужно определить класс сигналов, для которого он отыскивается и найти оптимальный ортогональные базисные функции, определяемые функцией ковариации процесса. В этом случае необходимые и достаточные условия минимума нормы ошибки представления сигнала в виде суммы базисных функций определяет теорема Карунена-Лоэва © (wikipedia.org).

Это частный случай метода главных компонент, который может быть сведён к вычислению сингулярного разложения матрицы данных © (wikipedia.org).

quickquest ★★★★★
(08.04.26 13:02:38 MSK)

Ответ на: комментарий от CrX 08.04.26 13:00:58 MSK

Там в каждый квант времени будет своя функция :) мне так каацца.

PcheloBiaka ★
(08.04.26 13:06:51 MSK)

Ответ на: комментарий от James_Holden 08.04.26 12:55:16 MSK

Хм. так этот автоэнкодер не сервис подготовки данных для gpt, а её неотъемлемая часть наученная на данных и является её неотъемлемой частью? Я то думал…

PcheloBiaka ★
(08.04.26 13:10:05 MSK)

Ответ на: комментарий от quickquest 08.04.26 13:02:38 MSK

Ключевое слово «наиболее подходящую».

Так-то понятно, что возможно, и собственно этим и так занимаются (что я упомянул). Но эти методы — не всегда самые эффетивные.

CrX ★★★★★
(08.04.26 13:11:44 MSK)

Ссылка

Ответ на: комментарий от PcheloBiaka 08.04.26 13:06:51 MSK

Там в каждый квант времени будет своя функция :) мне так каацца.

Если кодировать белый шум, то да. На то он и белый шум.

CrX ★★★★★
(08.04.26 13:12:22 MSK)

Ответ на: комментарий от PcheloBiaka 08.04.26 13:10:05 MSK

Меня поразительное поразилово поразило. Этакий плагин для MuseScore рендерящий проект не средствами своих пипикалок, а с помощью этакого энкодера. Выт бы было быыы…

PcheloBiaka ★
(08.04.26 13:12:23 MSK)

Ссылка

Ответ на: комментарий от CrX 08.04.26 13:12:22 MSK

Если мы не говорим о приблизительном восстановлении звука в некотором приближении напоминающем результат, а о более менее качественном восстановлении оригинала… нет. не верю.

PcheloBiaka ★
(08.04.26 13:15:02 MSK)

Ответ на: комментарий от PcheloBiaka 08.04.26 13:15:02 MSK

Зависит от сигнала. Но для этого же и есть остаточное кодирование. Я же выше на пальцах уже это упомянул. FLAC тот же так и работает — находится аппроксимация (некоторое приближение, напоминающее результат), и к ней добавляется остаточное кодирование. Но аппроксимация находится только весьма простой подгонкой, и если её значительно улучшить, то в остаточном сигнале будет уже меньше энтропии, и таким образом можно добиться значительного увеличения эффективности сжатия. В том числе и без потерь. Хотя для lossy можно ещё больше.

CrX ★★★★★
(08.04.26 13:21:37 MSK)
Последнее исправление: CrX 08.04.26 13:21:50 MSK (всего исправлений: 1)

Ответ на: комментарий от CrX 08.04.26 13:21:37 MSK

Я, конечно, в этом не понимаю, но вот вам моё компетентное мнение - niet! :)) И не верится и… как бы и в ИИ совершенно недавно не верилось.

PcheloBiaka ★
(08.04.26 13:28:42 MSK)

Ответ на: комментарий от PcheloBiaka 08.04.26 13:28:42 MSK

ОК :)

Просто под конец напомню, что идею угадывать функцию по графику предложил ты, а не я. Я просто добавил, для чего это может быть полезно на практике ;)

CrX ★★★★★
(08.04.26 13:34:15 MSK)

Ссылка

Ответ на: комментарий от PcheloBiaka 08.04.26 12:52:31 MSK

Ну как бы LPC речевые кодеки типа всяких GSM-FR/AMR вполне себе примерно так и работают - звук речи разбивается на кусочки примерно соответствующие звукам человеческой речи и в эфир уходит информация об их последовательности, а на другом конце этот «текст» восстанавливается в речь типа синтезатором. Там правда ещё доп. информация о высоте тона, скажем так, передаётся, но тем не менее. :)

Да и софтинки которые с переменным успехом пытаются генерить ноты из музыки мне тоже попадались, даже под линукс, но название никак не вспомню.

Stanson ★★★★★
(08.04.26 13:36:54 MSK)

Ссылка

Ответ на: комментарий от sin_a 08.04.26 12:58:26 MSK

Является ли запись закона Ньютона текстом?

Даже чтобы сформулировать закон Ньютона, нужен естественный неформальный мета язык. Так что, да, является.

seiken ★★★★★
(08.04.26 13:59:05 MSK)

Ответ на: комментарий от seiken 08.04.26 13:59:05 MSK

А теперь объясни мне пожалуйста, зачем тебе тексты если ты дальше второго предложения не читаешь?

sin_a ★★★★★
(08.04.26 14:18:22 MSK)

Я все еще не утратил надежды на то, что нейрослоп приучит людей формулировать мысли лаконично, то есть несжимаемо, а любое растекание станет поводом для насмешек.

thesis ★★★★★
(08.04.26 14:23:58 MSK)

Ответ на: комментарий от sin_a 08.04.26 14:18:22 MSK

если ты дальше второго предложения не читаешь?

Пруфы или не было.

seiken ★★★★★
(08.04.26 14:27:40 MSK)

Ссылка

Ответ на: комментарий от thesis 08.04.26 14:23:58 MSK

Я все еще не утратил надежды на то, что нейрослоп приучит людей формулировать мысли лаконично, то есть несжимаемо,

Лаконичность убивает детали, а в деталях кроется дьявол. Объясняй потом, что в вопросе «Мы пойдём завтра в парк?» под «Мы» ты подразумевал и свою сестру, и свою маму заодно, а под «парк» подразумевал Центральный, а не парк Линкольна.

tiinn ★★★★★
(08.04.26 14:41:06 MSK)

Зашёл на https://arxiv.org/list/cs.AI/recent. :)

https://arxiv.org/abs/2604.05859 – «When Do We Need LLMs? A Diagnostic for Language-Driven Bandits»:

We study Contextual Multi-Armed Bandits (CMABs) for non-episodic sequential decision making problems where the context includes both textual and numerical information (e.g., recommendation systems, dynamic portfolio adjustments, offer selection; all frequent problems in finance). While Large Language Models (LLMs) are increasingly applied to these settings, utilizing LLMs for reasoning at every decision step is computationally expensive and uncertainty estimates are difficult to obtain. To address this, we introduce LLMP-UCB, a bandit algorithm that derives uncertainty estimates from LLMs via repeated inference. However, our experiments demonstrate that lightweight numerical bandits operating on text embeddings (dense or Matryoshka) match or exceed the accuracy of LLM-based solutions at a fraction of their cost. We further show that embedding dimensionality is a practical lever on the exploration-exploitation balance, enabling cost–performance tradeoffs without prompt complexity. Finally, to guide practitioners, we propose a geometric diagnostic based on the arms’ embedding to decide when to use LLM-driven reasoning versus a lightweight numerical bandit. Our results provide a principled deployment framework for cost-effective, uncertainty-aware decision systems with broad applicability across AI use cases in financial services.