LINUX.ORG.RU

Сам не знаю зачем это пишу, надеюсь в процессе набора текста, сформулирую...

 


0

1

Я просыпаюсь, делаю кофе, и начинаю поиск новостей, их иногда очень много, примерно понимая что будет «ненужно», отфильтровываю. Хотя иногда мне самому интереснее выбрать другое.

По тому что решил выбрать, формирую тексты, проверяю ссылки, часто их приходится уточнять, часто попадаются кривые речевые обороты, всё это правится. Вставляю картинки, если они есть в исходных текстах. Последнее время, замечаю, тексты выдаваемые идеально с первого раза стали получаться чаще. Стиль речи в ИИ текстах улучшается.

На новость уходит минут по 15-20, думаю это не много, 2-3 новости, и я перехожу к другим личным делам. Что-то могу пропустить, что-то не считаю речевой ошибкой. Что-то кажется мне понятным, но лучше перевести не могу, иногда оказывается что понимаю оригинал лучше чем ИИ, тогда вношу правку.

Не понимаю чего @dataman лепит мне какие-то злые рожи, что его коробит? Что за психи-то, а именно так это выглядит со стороны. Если не может помочь, можно не мешать.

Вижу, что большинство положительно реагирует на появление новостей и обсуждает их по существу, делясь положительными реакциями.

Иногда находится 1-2 человека разводящего под текстами флуд. Всё, всё сопротивление индустрИИализации, но тревожная тенденция заключается в том, что часто из-за флуда 2-3 человек, на старте половина комментариев от них и не по делу. И подобные комментарии начинают воспроизводить сами себя.

Мне не понятны все эти инициативы со стороны единственного человека, с концентрацией именно на моём кейсе. Не много-ли чести? А именно:

  • мало было ограничения на количество постов. Кстати реализовано с багом, можно тащить любое количество постов, просто сохранив их предварительно в черновики, сообщение о превышении лимита есть, а ограничения фактически нет.
  • снимать score за «плохо написанные» тексты. А судить об этом будет dataman, главный филолог ЛОРа, зарплату он мне что ли платит, чтобы наказывать?

Прошу не воспринимать как наезд, хочу чтобы было понятно, я со своей стороны тоже многое делаю. Как говорят в ИТ, «это не бесплатно», имея ввиду накладные расходы, даже в, казалось бы, элементарных кейсах.

★★★★★

Последнее исправление: unclestephen (всего исправлений: 1)
Ответ на: комментарий от PcheloBiaka

Слава богу, русский язык довольно обширен и пластичен

Эта мысль верна в исторической перспективе. Но не учитывает одного: ИИ не творит язык, он его усредняет.

Языковая модель это статистическая машина сама по себе. А сверху на это накладывается еще и агрессивное выравнивание RLHF.

ИИ стирает стилистическое разнообразие, загоняя все тексты в один безопасный, нейтральный и корпоративный шаблон. Язык теряет текстуру, становится безвкусным. Даже если там есть калории (практический смысл сообщения), есть эту баланду удовольствия мало.

Это даже если не рассматривать вопрос осмысленности как таковой для тысяч однотипных текстов, созданных однотипными промптами.

wandrien ★★★★
()
Последнее исправление: wandrien (всего исправлений: 1)
Ответ на: комментарий от wandrien

Теоретическое утверждение.

Во первых - без никаких ИИ русский язык уже очень давно кастрируется и загоняется в удобные московским чиновникам рамки. При этом русские слова активно выкидывались и запрещались или объявлялись местячковым просторечием. С приходом большевиков все запрещатели и упрощатели языка сорвались с цепи. Хуже всяких интернетных троллей себя вели, сами часто ничего не зная о языке. И кстати, не только русский кастрировали, куча языков исчезла просто под давлением кабинетов из Москвы в советское (и постсоветское) время. Ненависть ко всему чего такой запрещатель не знает - посмотрите на самых оторванных троллей в интернете, вот такие же реакции у них были. И вседозволенность и «я начальник ты говно» во все поля. И я не понаслышке знаю о таких, я в прошлом и фольклорист и сталкивался с таким бредом, что до сих пор трясёт. Я помню после концерта подошла одна (это в московском замосквореченском как его… горуправе, короче) и говорит - «как здорово вы поёте, но вот жаль, что вы людей неправильному языку учите, надо говорить так-то и сяк-то»… Кур…очка ты… чтоб ты понимала что ты говоришь…

Я заметил, что словарный запас ИИ заметно шире среднестатистического комментатора. А если начать с ним говорить широким набором слов, то и отвечать он начинает шире. Гораздо шире. И да, он не чувствует многого. Но во первых он учится (учился, но такое ощущение, что русскую речь исключат из его плотной программы обучения), а во вторых не надо ему доверят писать всё на 100%. Это ускоритель подготовки материала, а не писатель.

И да, меня несёт.

PcheloBiaka
()
Последнее исправление: PcheloBiaka (всего исправлений: 1)
Ответ на: комментарий от question4

Да русский в этом один из самых гибких языков. Он на половину, а может и больше состоит из заимствований. Как на нем только не говорят. В нем даже есть такие «английские» термины, которых собственно и в англоязычных странах то нету.

Если я скажу, что юзал раст и js для своего ДЕ, ты же отлично поймешь что я имел в виду. А елсли я лишь разок заюзал что то, ты тоже поймешь. Вообще там странные придирки предельно.

Напомню что слово «Благодарю» - тоже заимствование. Причем прямая калька с другого языка без изменений.

LightDiver ★★★★★
()
Ответ на: комментарий от wandrien

Он усредняет настолько же, насколько усредняешь ты. Просто подставляет наиболее вероятные токены. Это не усреднение, а только то, что подставляют в большинстве текстов. Просто общий стиль общения, на которых он обучался.

Ты обучался на других, но у тебя такое же усреднение в рамках твоего обучения.

Просто СЕОшников уже поздно бить по морде, имеем что имеем.

LightDiver ★★★★★
()
Ответ на: комментарий от LightDiver

Я выше уже описал, что считаю ключевыми проблемами (тексты без реального смысла, SEO-чепуха, однотипные промпты, порождающие однотипные тексты, передача не собственного опыта и размышлений, а многократно прожеванный пересказ пересказов, причесывание всей речи и МЫСЛЕЙ одной бездушной грёбёнкой корпоративного фильтра, общее заговнение интернета, когда теория мёртвого интернета постепенно из мема превращается в факт), и считаю тезис «усреднение в рамках твоего обучения» поверхностным ответом. Но сейчас хочу на другую тему сказать, про конкретику в определении ИИ.

Когда долго пользуешься разными ИИ для анализа разных материалов, то потом хорошо видишь все эти шаблоны в текстах. Иногда с точность до модели, иногда - более общее.

Да, отдельное совпадение структуры не говорит о генерации. Более того, даже если текст генерирован, это не говорит автоматически, что текст некачественный.

Но когда таких совпадений - сразу куча в одном тексте (а если еще и прослеживаются на текстах авторах несколько раз), то сомнений остаётся мало. Особенно когда они не только на уровне слов и выражений, но и на уровне общей структуры и динамики текста, ощущения потока.

Вот частные, не исчерпывающие примеры:

  • Слово честный. Выше уже подробно разобрал. По-русски можно сказать «честно говоря», «по-честному», или просто "Честно, ". Когда написано - «Честное уточение:», именно вот так, значит этот абзац скорее всего формулировала машина.
  • Слово сигнал в значении «важная информация». Им злоупотребляют все модели, с которыми я работал. При чем иногда прямо на английском его и пишут. Нигде от русскоязычных людей я не слышал именно такого употребления. Ни в соцсетях, ни во всяком общении по работе. Наверное есть такие чуваки, кто везде этот «сигнал» вставляет. Но тут скорее фактор заражения от машины, а не наоборот.
  • Внезапные вставки терминов или общеупотребимых слов на английском. «declares» как пример выше.
  • Пример с «mission-critical пайплайн». Что тут происходит? Модель хочет использовать структуру «определение + определяемое». Но чтобы это сработало в русском, первая часть должна быть в таком виде, чтобы из неё нельзя было слепить ни прилагательное, ни сущесвительное в родительном падеже. Например, как в «видео-фрагмент», «аудиозапись». Поэтому она оставляет mission-critical без перевода, в виде несклоняемой конструкции. Задача выполнена.
  • Есть однозначные маркеры конкретных моделей. Примеры для GPT:
    • «Ниже — разбор, что было сделано правильно, а что требует корректировки:»
    • «Ниже — не просто …, а … :»
    • «Это довольно типично для …: не просто [тезис], а [три пункта]». (Модели вообще любят делать «три пункта», в этом примере один шаблон вписывается в другой).
    • Придумывание граматически и лексически понятных конструкций, которые, тем не менее, не бьются с языковой интуицией. Например: «зрелее» вместо «более зрелый». Это тоже характерная черта именно GPT, другие модели это делают реже. Для GPT (и еще больше - для Грок) - русский немного «иностранный». (А для Gemini, например, нет. Gemini лучше чует особенности языка.)

И вот когда весь день работаешь с моделью, которая делает ревью кода или поиск в инете и пишет ответы в таком стиле, а потом заходишь почитать новости, а там такая же петрушка… Можно долго рассусоливать, какие там привычки и узус у автора текста, и на какой двухязычной лапше он общается по работе. А можно просто воспользоваться бритвой Оккама.

wandrien ★★★★
()
Ответ на: комментарий от wandrien

Это можно считать диалектами языка на самом деле. Свои поддиалекты есть в каждом обществе. В каждом городе, поселке чуть чуть язык отличается. Зависит от текстов, на которых обучались модели как раз. Просто так вокруг общаются и новый человек тоже будет так общаться.

В своем диалекте ты привык крутиться, в нем все ровно, гладко, привычно тебе. Сталкиваясь с чужим диалектом, чувствуешь шерохоатости. Ударения не там, слова чуть не те в нужных сестах. Окончания другие. Шаблонные стандартные слова где то используются другие, а где то не используются.

Например, я должно не мог привыкнуть, как у нас при встрече на улице принято говорить друг другу: «Здрасьте». Именно так в такой форме. Причем первым должен это сказать более младший старшему.

Вот у каждой модели тоже есть свой диалект русского, который отличается от твоего.

LightDiver ★★★★★
()
Ответ на: комментарий от PcheloBiaka

У вас там Министерство Филологии и Бетонных конструкций в начале марта напоминало школьникам, что «айтишник» не комильфо, зато «айти специалист» (прямо так, кириллицей) иконно русское название обросшее берестой и балалайками и приемлемо в обществе в котором не стыдно показаться и Мэри Попинс (другой персонаж истинно русских сказок)

«айти-специалист» – это результат бюрократии штучной, так сказать, кустарной, по технологиям 20-го века.

А вот «честные оговорки» из «трех пунктов» после «подробного разбора» о том, «что требует уточнения» — это результат бюрократии современной, автоматизированной, поставленной на поток.

Аксиома Эскобара.

wandrien ★★★★
()
Ответ на: комментарий от PcheloBiaka

С приходом большевиков все запрещатели и упрощатели языка сорвались с цепи. Хуже всяких интернетных троллей себя вели, сами часто ничего не зная о языке. И кстати, не только русский кастрировали, куча языков исчезла просто под давлением кабинетов из Москвы в советское (и постсоветское) время.

Вот уж ладно, как раз большевики приложили гигантские усилия для сохранения множества языков народов с небольшой численностью. Например эрзя, носителей языка 30-40 тысяч. Про упрощателей тоже спорно, самое известное упрощение при большевиках – это реформа орфографии, которую ещё при царе подготовили. Если что, мне ять и фиту жалко, я бы их оставил. Но чем руководствовались при проведении реформы – отлично понимаю. Задача стояла во внедрении всеобщей грамотности, упрощение орфографии его заметно облегчало.

hobbit ★★★★★
()
Ответ на: комментарий от hobbit

Вот уж ладно, как раз большевики приложили гигантские усилия для сохранения множества языков народов с небольшой численностью. Например эрзя, носителей языка 30-40 тысяч.

Тоже верно.

Впрочем, что касается сохранения языков большевиками, я могу легко накидать тезисов как в сторону сохранения, так и в сторону разрушения, половина из которых будут нарушением правил форума в части политики. Так что оставлю.

Если что, мне ять и фиту жалко

А мне нет. =) В рамках лингвистики это интересно, особенно если изучаешь другие славянские, и видишь там следы фонетических процессов, восходящих в праязыку.

Но вот писать в орфографии с «мёртвыми» и «дублирующимися» буквами я бы не хотел.

Современный морфологических принцип орфографии (сохраняем такое написание морфем, которое следует из «сильной» позиции каждой фонемы согласно живым фонетическим закономерностям) мне представляется компромиссом между максимально простым «как слышится, так и пишется» и сохранением исторической преемственности.

wandrien ★★★★
()
Последнее исправление: wandrien (всего исправлений: 1)
Ответ на: комментарий от wandrien

Но вот писать в орфографии с «мёртвыми» и «дублирующимися» буквами я бы не хотел.

Бѣлый, блѣдный, бѣдный бѣсъ
Убѣжалъ голодный въ лѣсъ.
Лѣшимъ по лѣсу онъ бѣгалъ,
Рѣдькой съ хрѣномъ пообѣдалъ.
И за горькiй тотъ обѣдъ
Далъ обѣтъ надѣлать бѣдъ.

По-моему, это прекрасно.

hobbit ★★★★★
()
Последнее исправление: hobbit (всего исправлений: 1)
Ответ на: комментарий от unclestephen

Цикорий лучше. А на растительном молоке-то как вкусно!

Mishahack
()
Ответ на: комментарий от LightDiver

Если ты научишь ИИ писать статьи слогом Маяковского, от этого осмысленность генерация контента не приобрётет. Будет просто мусор слогом Маяковского.

«Честные оговорки» со «взвешенной позицией» и «осторожными уточнениями» и все эти прочие «не только, а также» - это результат RLHF, чтобы машина давала «полезные ответы» и формулировала «аккуратные высказывания» без перекосов, и из всего этого потом генерируются тысячи однотипных сайтов, скармливаемых поисковому боту, после чего становятся пищей для языковой модели в составе поисковика.

«Честные оговорки» и «осторожные уточнения» по итогу оказываются не для человека, а для другой машины, которая этот текст оценивает и затем включает в свой ответ на поисковый запрос.

Индустрия создаёт не смыслы, а контент (заполнитель), оценивает не человеческое присутствие, а процент конверсии и количество переходов по ссылке.

По этой причине после чтения ленты новостей на некоторых сайтах (снова помяну недобрым словом Хабр, и это с ним уже давно, внедрение ИИ просто усилило тенденцию) на языке остаётся только выражение классика:

Честно говоря, потраченного времени жаль. Пятикратно переваренный кал.

Даже если новости и были информативными. Информативными они были «не смотря на» и «вопреки».

А вот ЛОР или некоторые соцсети - иное дело, потому что там авторская идея способна оказывать сопротивление.

wandrien ★★★★
()
Последнее исправление: wandrien (всего исправлений: 1)
Ответ на: комментарий от hobbit

Да, особенно если немного знаешь болгарский, где судьбы ѣ и е немного разошлись.

Прекрасно, не буду спорить.

Но писать так каждый день я не хочу)

wandrien ★★★★
()
Ответ на: комментарий от wandrien

Придумывание граматически и лексически понятных конструкций, которые, тем не менее, не бьются с языковой интуицией. Например: «зрелее» вместо «более зрелый». Это тоже характерная черта именно GPT, другие модели это делают реже. Для GPT (и еще больше - для Грок) - русский немного «иностранный». (А для Gemini, например, нет. Gemini лучше чует особенности языка.)

Кстати, я сейчас подумал, что вот у этой фичи может быть еще одна подоплёка.

GPT-5.x, когда его просишь сделать анализ/разбор/ревью, переходит на довольно рваный и «списочный» язык. Я вижу в этом стремление разработчиков на этапе RLHF заставить модель засовывать максимум структуры и максимум смысла в минимум токенов. Чтобы модель не затапливала контекстное окно и не жгла вычислительные ресурсы, но при этом давала информативные ответы.

Так вот словечки типа «зрелее» вместо «более зрелый» и калькирование английского синтаксиса вместо более сложного русского – это не только недостаточное владение языком, это еще может быть и вот этой тенденцией впихнуть максимум структуры в минимум токенов.

Вообще из моего опыта работы, разработчики GPT, похоже, держат при себе несколько ноу-хау относительно дообучения модели. GPT и больше структуры видит в анализируемом материале, и более цепко на фоне конкурентов держит мысль по мере роста контекстного окна, и также не ограничивается восторженным согласием, а способен критиковать и доказывать собственную точку зрения.

При том может проигрывать в знании конкретных фактов о мире, писателях, книгах, географических местах и т.п. Модель не на знание всего на свете ориентирована.

wandrien ★★★★
()
Для того чтобы оставить комментарий войдите или зарегистрируйтесь.