LINUX.ORG.RU
ФорумTalks

AI и Flibusta - ИИ на русском думает лучше чем на других языках?

 , ,


1

1

Добрый день.

Соседняя тема о ИИ и деструктивном сканирование бумажных книг навела на мысль, а что если для ИИ скачали Flibustu на 1.5 ТБ и скормили? Будет ли ИИ на русском лучше и качественнее думать, чем на других языках?

База ведь в принципе публичная и доступна всем, через торренты.

★★★★
Ответ на: комментарий от ratvier

Да чем она только не подразумевается. Планида-с...

piyavking ★★★★★
()
Ответ на: комментарий от Tesler

И даны были ему уста, говорящие гордо и богохульно, и дана ему власть действовать сорок два месяца.

ckotctvo
()
Ответ на: комментарий от mord0d

Оно «знает» как составлять из материалов, на которых обучено, но не способно придумать ничего нового

Это применимо и к абсолютному большинству людей. Очень мало тех кто хотябы раз за свою жизнь придумал что-то действительно новое, а не просто комбинацию уже известного. Но учитывая что размер обучающего датасета у ИИ намного больше чем у человека - больше шансов что оно придумает какую-нибудь удачную комбинацию.

Нарисовать человека с четырьмя руками, держащего в трёх руках два яблока.

Ну яблоко и двумя руками держать можно - маленькие дети например так нередко делают. Видел статью где рисующим ИИ задавали всякие подобные странные задачки. Типа например нарисовать космонавта в скафандре,скачущего на лошади. Успешно нарисовало кстати.

На тарелке лежало пять яблок, пять детей взяли по одному яблоку. Одно яблоко осталось на тарелке. Почему?

Если пять детей взяли пять яблок в обычном, бытовом, смысле этого выражения - то яблок на тарелке остаться не могло. Остальные варианты - искусственная казуистика. Довольно очевидно что на ней будет спотыкаться не только ИИ но и люди.

Да, многим людям психологически некомфортно признать что ИИ даже в его нынешней реинкарнации думает лучше чем они и знает больше чем они. Но это уже свершившийся факт. Боьшинство людей увы совсем не гении. Особенно бесятся отдельные школьные училки когда обнаруживают что ИИ в руках детишек превосходит их собственный интеллект.

watchcat382
()
Ответ на: комментарий от watchcat382

Но учитывая что размер обучающего датасета у ИИ намного больше чем у человека - больше шансов что оно придумает какую-нибудь удачную комбинацию.

Нет, это так не работает.

Ну яблоко и двумя руками держать можно - маленькие дети например так нередко делают.

Как думаешь, много ли в датасете Stable Diffusion фотографий, где одно яблоко держат двумя руками?
А много ли одновременно держат одно яблоко двумя руками и другое одной? Как оно "додумается" скомбинировать то, чего её не учили комбинировать?

Видел статью где рисующим ИИ задавали всякие подобные странные задачки. Типа например нарисовать космонавта в скафандре,скачущего на лошади. Успешно нарисовало кстати.

Это слишком простая задача, и её успешность говорит лишь о том, что у "тестировщиков" оказалось меньше фантазии, чем в датасете модели. (=

Если пять детей взяли пять яблок в обычном, бытовом, смысле этого выражения - то яблок на тарелке остаться не могло. Остальные варианты - искусственная казуистика. Довольно очевидно что на ней будет спотыкаться не только ИИ но и люди.

Да, далеко не все взрослые могут решить эту задачку. Она очень простая, но требует активности тех участков мозга, которыми большинство людей с возрастом перестают (активно) пользоваться. Дети решают быстро, почти не задумываясь. (=

Да, многим людям психологически некомфортно признать что ИИ даже в его нынешней реинкарнации думает лучше чем они и знает больше чем они.

При этом сами люди перестают думать, перекладывая эту задачу на ИИ.

Но это уже свершившийся факт.

Это не заслуга ИИ или тех, кто их разрабатывает/тренирует. Это деградация потребителей.

Боьшинство людей увы совсем не гении.

Проблема не в этом. Но я не хочу развивать эту тему — она приведёт к танцполу.

mord0d ★★★★★
()
Ответ на: комментарий от mord0d

это так не работает.

А по факту - работает. Причем как на бытовом уровне так и в научных исследованиях. Читал как искали какие-то молекулы с определенными свойствами. И нейросеть предложила очень намного больше потенциальных кандидатов для проверки чем получалось у людей. В итоге с помощью нейросети за какое-то небольшое время нашли больше чем до того за годы вручную.

у «тестировщиков» оказалось меньше фантазии, чем в датасете модели.

Учитывая размеры датасетов в голова тестировщиков и у моделей - ситуация становится вполне типовой.

При этом сами люди перестают думать, перекладывая эту задачу на ИИ.

Это правда. Люди вообще любят перекладывать свою работу на машины. Например в значительной степени перестали работать физически что привело к проблемам со здоровьем. Но всё равно идти на физические работы не хотят.

Обратите внимание, что люди например практически перестали считать «в уме». Причем в первую очередь те кто раньше делал это по работе - продавцы например. Теперь даже на рынке где присутствие кассового аппарата не обязательно - поголовно у всех калькуляторы и они считают на них абсолютно всё. В первую очередь потому что снижается вероятность ошибок. Аналогично, люди перестали упражняться в прокладке маршрутов как только появились навигаторы. Даже профессиональные водители, которым раньше вроде бы было «положено» знать местную географию. Потому что навигатор всё равно прокладывает маршруты более оптимально и делает это быстрее. Тоже самое происходит и с внедрением нейросетей. Разве что пока сдерживается аппаратными ограничениями - в портативный девайс пока ИИ не запихивается.

Это деградация потребителей.

Потребители неизбежно деградируют в условиях изобилия потребляемого. Бороться с этим явлением может только дефицит всего, по типу советского. Вот он стимулирует работать головой и руками. А когда всё можно получить в готовом виде - абсолютное большинство людей именно так и поступит.

watchcat382
()
Ответ на: комментарий от watchcat382

Если пять детей взяли пять яблок в обычном, бытовом, смысле этого выражения - то яблок на тарелке остаться не могло. Остальные варианты - искусственная казуистика.

Кто-то взял яблоко вместе с тарелкой.

Мальчик Серёжа, сорок четыре годика.

Aceler ★★★★★
()
Ответ на: комментарий от watchcat382

это так не работает.

А по факту - работает.

Не надо натягивать сову на глобус и выдавать желаемое за действительное. Подтягивание фактов под задачи выгодно в первую очередь тем, кто на этом зарабатывает.

В итоге с помощью нейросети за какое-то небольшое время нашли больше чем до того за годы вручную.

Ты знаешь что такое false-positive?

В первую очередь потому что снижается вероятность ошибок.

За счёт повышения сложности отлова ошибок. Человеческий фактор никто не отменял.

Потому что навигатор всё равно прокладывает маршруты более оптимально

Несколько лет назад случилась со мной история, когда навигатор упорно вёл через односторонне движение против направления движения под кирпич, на дорогу, которая ведёт почти в противоположную сторону от точки назначения. При этом ни правообладатели на навигационное ПО, ни авторы карт ответственности не несут.

mord0d ★★★★★
()

ИИ и так на русском лучше понимает и лучше думает. Даже западные. Видимо семантические конструкции более удобные, чем в примитивном английском.

pekmop1024 ★★★★★
()
Ответ на: комментарий от mord0d

которые не способно решить ИИ

С пятью яблоками чатгпт решил, а я нет.

foror ★★★★★
()

Блин, читайте классиков. С Лема можете начать - Сумма технологий. Усилитель интеллекта. Это ещё в 1963 году написали. За ним ещё Джобс попугайничал в своём утеряном интервью.

foror ★★★★★
()
Ответ на: комментарий от Aceler

Кто-то взял яблоко вместе с тарелкой.

Я же говорю - казуистика и извращение начального условия задачи. В нем же небыло сказано что кто-то взял тарелку.

watchcat382
()
Ответ на: комментарий от mord0d

навигатор упорно вёл через односторонне движение против направления движения под кирпич

Да, в софте бывают ошибки, даже в железе бывают. Вы столкнулись с проявлением одной и это запомнили. А то, сколько раз навигатор прокладывал более оптимальный маршрут чем вы это сделали бы «в уме» - не посчитали.

Я немало лет прожил в Питере и сам считал что город неплохо знаю и другие люди оценивали мое знание местной географии выше среднего. Но когда появились и достаточно развились навигационные программы с прокладкой маршрутов - мне пришлось признаться перед собой что они знают город лучше меня.

watchcat382
()
Ответ на: комментарий от pekmop1024

конструкции более удобные, чем в примитивном английском.

Что странно, так как английский всегда считался проще для изучения людьми чем русский. Собственно потому и стал международно-употребительным.

watchcat382
()
Ответ на: комментарий от watchcat382

В нем же небыло сказано что кто-то взял тарелку.

Поиск сути проблемы является основой решения задачи.

mord0d ★★★★★
()
Ответ на: комментарий от mord0d

Если к условию задачи додумывать то, чего в нем небыло в явной форме - то можно например предположить что после изъятия яблок на тарелку положили еще одно. Почему нет-то? В условии же это никак не оговаривается. И это ничем не лучше/хуже предположения о том что тарелку взяли вместе с яблоком. Если можно взять то можно и положить. То есть по факту имеем задачу с некорректным (неполным) условием и потом удивляемся что ИИ не находит решения которое автор задачи произвольно постановил считать «правильным». Хотя в силу неполноты исходного условия оно равноправно с многими другими.

watchcat382
()
Ответ на: комментарий от watchcat382

Что странно, так как английский всегда считался проще для изучения людьми чем русский. Собственно потому и стал международно-употребительным.

Он действительно считается проще русского, но он не самый простой, и стал международно-употребительным не поэтому, а по тем же причинам, почему до него немецкий, до него французский, ещё раньше латынь, а ещё раньше аккадский — в виду доминирования говорящего на нём народа (в данном случае США) в технологиях, культуре и частично науке соответствуюещего периода.

CrX ★★★★★
()
Ответ на: комментарий от watchcat382

Если к условию задачи додумывать то, чего в нем небыло в явной форме - то можно например предположить что после изъятия яблок на тарелку положили еще одно. Почему нет-то? В условии же это никак не оговаривается.

Потому что тарелка в задаче явно прописана, а наличие "дополнительных" (неучтённых!) яблок — нет.

То есть по факту имеем задачу с некорректным (неполным) условием

Ага, и тачку сдавать в сервис с полной самостоятельной диагностикой. Ведь их работа чинить сломанное, а не искать что там в очередной тачке сломалось… (%

mord0d ★★★★★
()
Ответ на: комментарий от mord0d

Тривиальные задачи, которые не способно решить ИИ:

Предполагал, что 4.2 и не ошибся. DeepSeek через 6 секунд написал:

Это классическая загадка, которая строится на неявном допущении.

Объяснение: Пять детей взяли по одному яблоку, но последний ребёнок взял яблоко вместе с тарелкой. То есть одно яблоко осталось лежать на тарелке, потому что тарелка тоже была взята.

Может быть ещё раз его запущу в этом году. :)

dataman ★★★★★
()
Ответ на: комментарий от dataman

DeepSeek через 6 секунд написал:

Это классическая загадка, которая строится на неявном допущении.

А если лишить его доступа в интернет? ^_~

mord0d ★★★★★
()
Ответ на: комментарий от dataman

Не его, а пользователя.
И тогда будет нельзя уличать в 4.2.

Если пользователю дать интернет, он тоже эту задачку легко решит. А без интернета у человека решить эту задачу чуть больше шансов (и тем их больше, чем он моложе).

mord0d ★★★★★
()
Ответ на: комментарий от watchcat382

Что странно, так как английский всегда считался проще для изучения людьми чем русский. Собственно потому и стал международно-употребительным.

У LLMок другие ограничения. Но на эту тему даже исследования кто-то проводил, и убеждался. Так что да, с гопотой лучше по-русски - если ты умеешь формулировать мысли, она очень исполнительна.

pekmop1024 ★★★★★
()
Ответ на: комментарий от dataman

Объяснение: Пять детей взяли по одному яблоку, но последний ребёнок взял яблоко вместе с тарелкой. То есть одно яблоко осталось лежать на тарелке, потому что тарелка тоже была взята.

Противоречит условию задачи. Получается, что пятое яблоко не взяли, взяли тарелку.

Вас обманули, с точки зрения логики это не тривиальная задача.

Obezyan
()
Ответ на: комментарий от mord0d

Задача на логику: На тарелке лежало пять яблок, пять детей взяли по одному яблоку. Одно яблоко осталось на тарелке. Почему?

Задача хорошая (хоть и баян), и забавно наблюдать, как те, кто просто не хочет признавать, что задача не обязана быть арифметической, ловят диссонансы. Только эта задача не на логику. Не знаю, на что именно (точнее, как это назвать), но точно не на логику. Она на умение видеть за абстракциями реальность и наоборот, не уверен, как это правильнее выразить. Это очень полезный навык в том числе в естественных науках — слишком легко заморочиться с формулами и забыть, зачем они были нужны, и как можно посмотреть снаружи готовой модели — так и делаются гениальные открытия и создаются новые теории.

Дети, кстати, вроде бы легче справляются с такими задачками, потому что у них ещё не настолько вдолблены в голову шаблоны, не настолько зашорен взор. Но, конечно, только с таким вот элементарным уровнем. Чтобы оно реально полезно было, надо совмещать это умение (не утратить с детства, или заново развить), но при этом обладать и заниями и умениями внутри общепризнанной картины.

P.S. С задачами на логику у GPT тоже всё плохо, кстати.

P.P.S. Дал задачку про яблоки deepseek’у, он дал правильный ответ. Скорее всего потому то это довольно известная задачка.

CrX ★★★★★
()
Последнее исправление: CrX (всего исправлений: 3)
Ответ на: комментарий от Obezyan

Получается, что пятое яблоко не взяли, взяли тарелку.

Левой рукой взяли тарелку, правой придерживали сверху яблоко, чтоб не укатилось.
Всегда так делаю.

dataman ★★★★★
()
Ответ на: комментарий от watchcat382

В том-то и дело, что нет. В изначальном условии про тарелку вообще ничего не было. И про то, что нельзя брать тарелку вместе с яблоком — тоже. И тут ловушка сознания состоит в том, что ты сам добавляешь эти ограничения, что яблоко можно брать только отдельно от тарелки — потому что ты часто решал подобные задачи, и там тарелка не участвовала. А у детей этого ограничения ещё нет.

Вот и ИИ, воспитанный на корпусе текстов, будет видеть только то, что есть в этих текстах.

Ну это я так, сбоку проходил, не буду вам мешать)

Aceler ★★★★★
()
Ответ на: комментарий от dataman

Левой рукой взяли тарелку, правой придерживали сверху яблоко, чтоб не укатилось. Всегда так делаю.

Мне сложно представить, я больше по бананам.

Obezyan
()
Ответ на: комментарий от CrX

Он действительно считается проще русского

Тогда непонятно почему выше утверждали что ИИ якобы лучше думает на русском.

watchcat382
()
Ответ на: комментарий от pekmop1024

если ты умеешь формулировать мысли, она очень исполнительна.

Могу это только подтвердить. Исполнительна и полезна, в рамках своих возможностей естественно.

Обратился тут ко мне сосед с просьбой привести в пригодный для просмотра формат видео с автономной «охотничьей камеры» (hunter camera). Там еноты и лисы наснимались. Но размер этого видео получился невообразимый и качество так себе из-за шума. Я как-то совсем не спец в обработке видео. Но как обычно «тыжпрограммист - помоги» :) Ничего, в результате небольшого диалога с ИИ родилась вот такая командная строка и всё получилось:

 ffmpeg -i "$src" -strict 2  -preset veryslow -crf 31 \
        -vf "crop=iw:ih-36:0:0,\           scale=trunc(iw/2)*2:576:force_original_aspect_ratio=decrease,\
            pad=ceil(iw/2)*2:ih:(ow-iw)/2:0,\
            hqdn3d=6:0:8:0" \
        -pix_fmt yuv420p -color_range 2 \
        -an -tune film -movflags +faststart "$dst"

Понятно, что я должен был потратить непонятно сколько времени на тщательное изучение документации к ffmpeg и всяких статей на эту тему, и стать экспертом в обработке видео. Чтобы сконвертировать несколько файлов и до следующего случая всё благополучно забыть потому что непонятно когда он случится и случится ли вообще. Своей видеокамеры у меня всё равно нет, да и видеооператором работать я не умею. А так ИИ сэкономил мне изрядное количество времени.

watchcat382
()
Ответ на: комментарий от Aceler

добавляешь эти ограничения, что яблоко можно брать только отдельно от тарелки

Но в задаче нет и ограничения на то что яблоко надо брать с тарелкой. То есть условие неполное и допускающее неоднозначные толкования. Это примерно как написать уравнение, имеющее несколько решений и потом спорить какое из этих решений более правильное.

Вот и ИИ, воспитанный на корпусе текстов, будет видеть только то, что есть в этих текстах.

Недавно прямо тут на ЛОРе мне доказывали, что если ИИ задать арифметический пример на сложение каких-нибудь чисел то начиная с какого-то (достаточно большого) размера модели он приобретает способность выдавать правильные ответы даже если точно такого примера сложения именно этих чисел в обучающем наборе небыло. Как это у него получается - я так и не понял. Магия видимо.

watchcat382
()
Ответ на: комментарий от watchcat382

Тогда непонятно почему выше утверждали что ИИ якобы лучше думает на русском.

Ну что непонятного? ИИ не думает. Конкретно LLM составляют тексты. Чем больше и качественнее тексты были использованы для обучения модели, тем качественнее составляют. ТС высказал предположение, что если для обучения LLM использовалась в том числе Flibusta, чуть менее чем полностью состоящая из русскоязычной литературы, а сопоставимого по масштабам корпуса текстов на любом другом языке не было, то на русском он будет работать лучше. Утверждение спорное, но по-моему вполне понятное.

CrX ★★★★★
()
Ответ на: комментарий от Bfgeshka

Ещё вариант: на тарелке лежало пять яблок, и ещё одно (или больше) яблок лежало на столе рядом. В условии ведь не сказано, что помимо яблок на тарелке не было других яблок, как и не сказано, что все мальчики взяли по яблоку с тарелки или с тарелкой, только что они взяли по яблоку, без уточнения откуда и как. Тогда если один из мальчиков взял яблоко не с тарелки, а откуда-то ещё, то одно яблоко осталось на тарелке.

Но ответ с тем, что кто-то взял с тарелкой всё же самый простой — он требует меньше дополнений к картине, данной в условии — не приходится предполагать ни принты на тарелке, ни другие яблоки.

CrX ★★★★★
()
Последнее исправление: CrX (всего исправлений: 4)
Ответ на: комментарий от watchcat382

То есть условие неполное и допускающее неоднозначные толкования. Это примерно как написать уравнение, имеющее несколько решений и потом спорить какое из этих решений более правильное.

Соглашусь. Нас в школе всех учили, что решать надо формальные задачи, что у задачи надо искать все возможные решения, иначе решение считалось неполным и не принималось. И поэтому для нас «взял яблоко» — это когда абстрактный субъект переместил абстрактный объект и только его из ячейки «общая» в ячейку «личное».

А дети — они такой логики ещё не знают, поэтому они представляют яблоки и тарелки. И любой ответ будет правильным — кто-то взял вместе с тарелкой, кто-то положил обратно или на тарелке нанесён рисунок яблока, как сказал @Bfgeshka. Яблоки лишние рядом лежали. В конце концов, если включить фантазию, то можно взять яблоко в том смысле, о котором дети ещё не знают (cм. напр. «Американский пирог») :-D.

Как это у него получается - я так и не понял. Магия видимо.

Я ненастоящий специалист по нейросетям, в отличие от преподавания, тут мне нечего сказать.

Aceler ★★★★★
()
Ответ на: комментарий от Obezyan

Шрайк (с вашей аватары

Разве это Шрайк? Я был уверен, что Гайвер :)

P.S. Нагуглил обложку. Шрайк.

question4 ★★★★★
()
Последнее исправление: question4 (всего исправлений: 1)
Ответ на: комментарий от dataman

И один из них вернул яблоко на тарелку.

Irma ★★★
()
Ответ на: комментарий от dataman

Мальчик берет яблоко с тарелки, мужчина берет сразу всю тарелку.

Obezyan
()

Будет ли ИИ на русском лучше и качественнее думать, чем на других языках?

Нет, т.к. русский язык сложнее (плюс в русском языке не все его аспекты при письме отображают, например логическое ударение..)

Sm0ke85
()

Публичные американские AI больше всего натренированы как раз на английском и русском.

У китайских нейросетей, вроде DeepSeek - приоритет языков - английский, китайский, русский.

lovesan ★★☆
()
Ответ на: комментарий от lovesan

Спасибо советскому наследию. Огромному количеству книг в огромном количестве публичных библиотек в огромном количестве городов и сел.

Меня удивляет тот факт, что большинство книг отсканированных в цифровой формат на русском языке были сделаны совершенно добровольно огромным количеством энтузиастов. Совершенно бесплатно, на самых простых сканерах.

Энтузиасты написали ScanKromstator, ScanTailor, написали отличную документацию как использовать программы и получать хороший результат.

Даже flibusta была открыта немцем, который знал русский язык.

Nurmukh ★★★★
() автор топика
Ответ на: комментарий от dataman

Кто все эти люди? Что там за безобразие там происходит? Я тоже так хочу!

PcheloBiaka
()
Ответ на: комментарий от Nurmukh

Тут не только книги. В интернете огромное русскоязычное пространство. Одно из самых крупных, и открытых.

lovesan ★★☆
()
Ответ на: комментарий от Nurmukh

Китайцы это свой мирок внутри. Китайские ИИ только на него и затачиваются.

Франкоязычных большинство - нищие и необразованные негрилы из африк. Которые никому не нужны.

Испаноязычные - лат. америка всякая, то же самое как с африкой практически.

lovesan ★★☆
()
Ответ на: комментарий от lovesan

Средний «русскоязычный» богаче только комплектом зимней одежды от среднего «испаноязычный» и «франкоязычный».

Nurmukh ★★★★
() автор топика

Естественно! Великий и могучий же.

urxvt ★★★★★
()
Ответ на: комментарий от Bfgeshka

Ещё на тарелке мог быть принт с яблоком.

Это был мой ответ.

sr11
()
Ответ на: комментарий от watchcat382

Но когда появились и достаточно развились навигационные программы с прокладкой маршрутов - мне пришлось признаться перед собой что они знают город лучше меня.

Есть и такой невложимый в железо фактор, как психологический комфорт при рулении. Например, ехать привычным маршрутом психологически менее напряжно. Ехать по более удобной дороге в объезд, зато без светофоров и в 4 полосы, а не более короткому маршруту со светофорами каждые 300 м по 1 полосе с колдоёбинамы и выебонами на ней. Делать меньше поворотов налево (я лично их не люблю). Подъезжать по полосе с более удобными местами для парковки. Подъезжать к месту так, что в обратный путь не придётся разворачиваться.

mister_VA ★★
()
Закрыто добавление комментариев для недавно зарегистрированных пользователей (со score < 50)