LINUX.ORG.RU

Датасеты для нейросетей

 , датасеты,


3

2

Собственно разыскивается САБЖ, хочется именно под нейросети (не регрессия, не рэндом форесты и так далее, нейронкам нужно больше данных для обучения, на маленьких наборах рулят более простые алгоритмы). Желательно не про картинки (в картинках жестко рулит CNN и его модификации). Хочется чего-то качественного но не слишком сложного для сети (в то же время чтоб объём данных для обучения был достаточно большой), чтоб протестировать разные архитектуры сетей и проверить пару гипотез, но в то же время не упереться в объёмы видеопамяти. В идеале хотелось бы чего-то простенького, что может уложиться в 5-6 гигов видеопамяти в плане модели сети на раннем этапе (нет мне не надо достигать 99% точности, мне важнее узнать что способом a я достиг 75% точности затратив n часов обучения, а способом b я достиг 80% точности, затратив m часов обучения при одинаковых или похожих объёмах видеопамяти), если будет понятно, что гипотезы будут подтверждены, то там уже можно и машинку арендовать и делать что-то интересное и практическое. В общем, ищется аналог Lena.jpg но под нейронки, чем универсальней, тем лучше. На kaggle смотрел, но там слишком много датасетов, а хочется чего-то эталонного, так что хочу послушать предложения ЛОР-овцев.

PS

Интересные датасеты с интересными задачами тоже рассматриваются, но в приоритете эталонные датасеты.

PPS

Лучше чтоб мне не было нужды чистить и преобразовывать данные, это отдельная задача, которая на данный момент мне не требуется.

★★★★★

Последнее исправление: peregrine (всего исправлений: 2)
Ответ на: комментарий от byko3y

В чём проблема просто дальше использовать облачные сервисы?

Сливать кодовую базу проекта облачному сервису? Вы сейчас это на серьезных щщах?

Не обижайтесь, но у меня стойкое впечатление что с вами что-то не так. Как будто СДВГ или что-то такое (буду рад ошибиться). Это видно по нашей дискуссии.

Obezyan
()
Ответ на: комментарий от Obezyan

Сначала сеть обучается на кодовой базе, потом вся кодовая база прогоняется перегоняется в эмбеддинги которые заносятся в векторную базу. В дальнейшем при изменении кода, автоматически (каждую ночь) проект прогоняется еще раз получая обновленные данные в векторной базе.
Чуть-чуть больше 1млн строк.

200 тысяч строк кода на nomic-embed-text за 5 минут на моей машине считаются. В полной точности. При изменении кода оно инкрементально индексирует новый.

Сеть при этом не переобучается заново, это не нужно тк она уже имеет базовое представление о проекте + актуальный код. Те на утро она может спокойно оперировать тем что вчера накодили разработчики.

Это уже считается прошлым веком, потому что глюки в эмбедингах очень затрудняют рабочий процесс. Чтобы оперировать тем, что вчера и сегодня накодили программисты, нужны агентные модели, которые будут в реальном времени вычитывавать код, историю комитов, документацию — не додуманные резюмированные переиначенные выжимки, а тащить в контекст дословное содержание.

A6000 тут нужна потому что KV кеш занимает дофига места и разработчики обращаются к сети одновременно.

Если гонять нейросетки нонстоп в автономных агентных режимах, половина из которых будут кружится в бесконечных циклах размышлений, то никаких стоек не хватит. Если не делать этого, то и A6000 будет слишком много.

Причем отклик должен быть быстрым иначе будет дико раздражать при использовании.

По недавнему исследованию MS само кодописание занимает примерно 20% рабочего времени. Почему я и поставил вопрос: задача заключается в достижении цифр на бенчмарках времени отклика нейросети или в реализации прикладных программ? Если в реализации программ, то большую часть времени всё равно занимает анализ и координация. Если программист большую часть времени смотрит, как нейросеть пытается за него сделать его работу, то, возможно, нужно не ускорять нейросеть, а уволить кнопкодава и нанять настоящего программиста.

Конечно, когда человек один и кроме ноута у него ничего нет, то локально ему llama.cpp пойдет, вот только квантованная сеть будет давать шлак. Чисто поиграться пойдет, что-то вменяемое написать - нет.

Всё, что меняет неквантованная большая модель — это теперь вайбкодерные пет проекты на гитхабе выросли с 1000 строк до 10000 строк. Дальше происходит то же самое: нейросеть не способна мыслить вглубь, начинает дублировать решения (менее очевидным способом), каждый цикл внесения правок требует на порядки больше времени и вычислений, чем в начале разработки, всё чаще и чаще ИИ просто не способен решить задачу автономно ни за какое время и человеку нужно придумывать, как преодолёть барьер.

По исследованию MIT начала 2025 года нейросети строго замедляют процесс разработки — и там ни разу не квантованные нейросети на llama.cpp использовались. Я так-то сам немного использую локальный ИИ за пределами простых задач аля «найди фичу в незнакомом коде», я пользуюсь облачными намного больше, но я никогда не передаю им тупо весь код, я лишь ставлю абстрактную задачу и рассматриваю предложения от ИИ, ну типа «какая стоимость cpuid+rdtsc по сравнению с lfence+rdtsc?».

byko3y ★★★★
()
Ответ на: комментарий от Dimez

Сливать кодовую базу проекта облачному сервису?

Ну мне на совершенно серьёзных щщах говорили на это «ачотаковато?»

Проблема людей, которые не работают, но имитируют работу, была всегда, с нейросетями или без. Сейчас она стала актуальнее потому, что нейросети резко выросли, а бороться ними ещё не научились.

Когда работник сливает исходный код облаку, а потом результат работы облака выдаёт за свой труд — это серьёзный саботаж. Но если фирма заботится о безопасности и на рабочем ноуте следят за сливом исходного кода, то тут мы приходим к каноничному способу использования нейросетей — например, написать вопрос нейросети на смартфоне... Вполне возможно, что половина ответа будет придумана уже в процессе печатания запроса.

Так-то я сам в шоке от людей, которые просто берут и заливают исходники на какой-то AWS, мол «да мне удобнее через облако на двух устройствах работать» — тут как бы даже не про ИИ речь идёт.

byko3y ★★★★
()
Ответ на: комментарий от byko3y

и на рабочем ноуте следят за сливом исходного кода

Ты же понимаешь, что гарантировать нераспространение исходного кода с ноутбуков работников невозможно только техническими средствами?

Так-то я сам в шоке от людей, которые просто берут и заливают исходники на какой-то AWS, мол «да мне удобнее через облако на двух устройствах работать» — тут как бы даже не про ИИ речь идёт.

Полностью и бесповоротно согласен.

Dimez ★★★★★
()
Последнее исправление: Dimez (всего исправлений: 1)
Ответ на: комментарий от Dimez

Ты же понимаешь, что гарантировать нераспространение исходного кода с ноутбуков работников невозможно только техническими средствами?

Ну да. Я о том, что если вы наняли непонятно кого, то он вам не только сорцы на сервера OpenAI зальёт, но и ещё куда-нибудь похуже. Комитить ИИ слоп в репу проекта — просто одна из форм. Если кулибины аля автора Artalk напишут вам БД нейросеткой, то непонятно, что потом с вашими данными будет. И так далее.

«Я ничо не понимаю, что тут написано, пусть нейросетка разберётся и исправит код» — это уже полпути к «да пофигу, я уже и так треть кода проекта на облако залил». Лично я не отрицаю пользу ИИ, но у него очень узкий спектр применимости в разработке.

byko3y ★★★★
()
Ответ на: комментарий от byko3y

Это какое фанатичное отрицание возможностей видеокарты и утилит способных использовать ее мощь правильно. Я даже не знаю что тут еще сказать, да и сомневаюсь что надо ли.

Obezyan
()
Ответ на: комментарий от Obezyan

С чего вы взяли что ПАРСЕР текста занимается наймом? Сеть не делает никаких выводов о кандидате, она парит его резюме и складывает в базу чтобы рекрутер/кадровое агентство мог быстро найти нужных кандидатов по указаны скилам, городу или типу работы. Дальше, получив список кандидатов с ними ведёт работу человек.

Это в идеальном мире. В реальном имеем то что нейросеть и отбор проводит, кажется уже была новость о том, что одна из таких сетей отказывала неграм на основании цвета кожи (потому что статистически при тренировке параметр коррелировал с другими, вроде образования и оказался сильным маркером, чтоб его не обобщать).

peregrine ★★★★★
() автор топика
Ответ на: комментарий от Obezyan

А я тебя обрадую: современные IDE почти все с нейросетями и угадай где они крутятся, правильно в облаках, но майкрософт, джетбрейнс и прочие мамой клянутся что «будут честными и код не сопрут кроме как для обучения нейросетей». А народ то юзает.

peregrine ★★★★★
() автор топика
Ответ на: комментарий от peregrine

Всё равно дорого.

Это не для физиков. Для предприятия это буквально копейки.

Вообще, продаваны подобное, то что стоит 500к, продают за 5млн, то что стоит ~3млн - за 15…(реальные случаи). Мне же не нужно кормить стадо манагеров и держать ООО поэтому ценник такой гуманный.

Obezyan
()
Ответ на: комментарий от peregrine

В реальном имеем то что нейросеть и отбор проводит

В реальном мире это ОТДЕЛЬНАЯ нейросеть. Так называемая сеть принятия решений. Такие сети я делаю только для компьютерных игр, а не для жизни. Также я не делаю детекторы человеков и системы наведения на объекты. По тем же самым причинам, у Обезъяна не так много принципов поэтому теми что есть он дорожит.

Obezyan
()
Ответ на: комментарий от Obezyan

Для предприятия да, копейки. Но только если оно на этом деньги зарабатывает. Для условного предприятия которое занимается, скажем, ремонтом автомобилей (пример синтетический) ИИ как бы нужен, например, для диагностики поломок, позволяя экономить время и ЗП для ремонтника, скорее всего даже за год при 10 точках и 15 мастерах оно окупится даже при покупке за 5 лямов. Но вот не спешат они нанимать таких как ты. Я больше скажу - видел в больнице платной систему которая подсказывает врачу какие таблетки больному не стоит выписывать (противопоказания по болезням из карты) и какие можно (врач обычно из списка выбирает предложенного что-то для типовых случаев), но даже такое не спешат многие покупать, хотя явно время экономит и кучу проблем с противопоказаниями снимает, помечая лекарства как потенциально проблемные под ответственность врача.

peregrine ★★★★★
() автор топика
Последнее исправление: peregrine (всего исправлений: 1)
Ответ на: комментарий от peregrine

А я тебя обрадую: современные IDE почти все с нейросетями и угадай где они крутятся, правильно в облаках, но майкрософт, джетбрейнс и прочие мамой клянутся что «будут честными и код не сопрут кроме как для обучения нейросетей». А народ то юзает.

У меня локальные сети подключены в NetBeans/SublimeText/LazyVim. Причем я бы не сказал что постоянно их использую, в основном для скучных задач уровня написания swagger дока в виде комментария к функции.

ИТ разработчики поделились на «народ» который ест облачный ИИ с лопаты и «обезъян» с собственными мощностями достаточными для запуска локальных версий. Есть еще фанатики локальных квантованных в усмерть сетей на ноутбучном CPU, но это клиника.

Мое ИМХО - если синьор не может заработать себе на видеокарту то он слишком рано нацепил на себя синьорские «погоны». Все остальное - запах слабости и детские оправдания. Видеокарты не настолько дороги, какие-нибудь стоматологи или токари зачастую вкладываются в свое оборудование и инструменты кратно больше. И ничего, нормально.

Obezyan
()
Ответ на: комментарий от Obezyan

Осталось убедить владельцев в том что им это надо. На практике это порой сложно. Тебе как продающему готовое это не видно, к тебе идут когда начальство созрело. А вот на самих таких предприятиях это очень чувствуется.

peregrine ★★★★★
() автор топика
Ответ на: комментарий от peregrine

Я понимаю вашу боль. На самом деле в РФ есть с этим проблема, в головах. По сравнению с западными компаниями отставание лет на 5. Созревание руководства это лишь верхушка айсберга. Есть еще огромный пласт проблем с ИТ/ML отделами.

Особенно сильно это чувствуется в столичных конторах где осела куча «знатоков» закончивших престижные вузы, но не продвинувшееся далее университетской программы. Вот это прям со скрипом пробивается, и далеко не всегда. Нельзя сделать человека счастливым насильно.

Страх потери авторитета перед руководством и осознание что теплое место может перестать быть теплым очень часто ставит крест вообще на любой автоматизации «извне». И пофиг что контора будет продолжать терпеть убытки из-за неэффективной работы, раньше ведь худо бедно работало, и вообще подход уровня «зачем конторе существовать если там не будет меня», ведь как известно - своя рубашка ближе к телу.

Obezyan
()
Ответ на: комментарий от Obezyan

Это какое фанатичное отрицание возможностей видеокарты и утилит способных использовать ее мощь правильно. Я даже не знаю что тут еще сказать, да и сомневаюсь что надо ли.

Ну я как бы всё ещё жду, когда кто-то продемонстрирует мне что-то интереснее бредогенератора использовав «мощь правильно». Последний год эдак жду.

byko3y ★★★★
()
Ответ на: комментарий от peregrine

А я тебя обрадую: современные IDE почти все с нейросетями и угадай где они крутятся, правильно в облаках, но майкрософт, джетбрейнс и прочие мамой клянутся что «будут честными и код не сопрут кроме как для обучения нейросетей». А народ то юзает.

Я скажу даже больше: плугины якобы опенсорсные и якобы независимые по факту затачиваются под функцию клиента одного-двух-трёх облачных сервисов, для всего остального нужен напильник и матерное слово. Причём, ситуацию исправлять никто не спешит, по очевидным причинам. Собственно, некоторые даже и не скрывают, что являются клиентом единственного сервиса.

byko3y ★★★★
()
Ответ на: комментарий от Obezyan

Вообще, продаваны подобное, то что стоит 500к, продают за 5млн, то что стоит ~3млн - за 15…(реальные случаи). Мне же не нужно кормить стадо манагеров и держать ООО поэтому ценник такой гуманный.

Да, самое обидное то, что это действительно работает, потому что продаётся по итогу удовлетворённость заказчика, которую вообще непонятно как измерять, ведь заказчик всё равно ничерта не понимает в этих ваших нейросетях и оценить результат не может. Вплоть до того, что продадут какую-то облачную подписку под видом персонально разработанного защищенного сервиса.

Сделанную за два дня админку django продавать за миллионы не вчера придумали так-то.

byko3y ★★★★
()
Ответ на: комментарий от Obezyan

Мое ИМХО - если синьор не может заработать себе на видеокарту то он слишком рано нацепил на себя синьорские «погоны».

Ты уверен, что ты когда-то занимался разработкой софта, а не бойлерплейтами? DeepSeek R1 — это слишком слабая нейросеть для моих задач. А ты уже накопил на сетуп для хотя бы R1?

byko3y ★★★★
()
Ответ на: комментарий от Obezyan

Правильная автоматизация ВСЕГДА окупается для предприятия, вопрос только в сроках.

Казалось бы, при чём тут нейросети... Предприятию нужны прежде всего гарантированно работающие программы, а не нейросети.

byko3y ★★★★
()
Ответ на: комментарий от byko3y

Ну я как бы всё ещё жду, когда кто-то продемонстрирует мне что-то интереснее бредогенератора использовав «мощь правильно». Последний год эдак жду.

Я так понял для вас все за что платят - «неинтересно». Давайте что-нибудь бесплатное возьмем, но интересное. Например, определение виртуалов на этом форуме, взяв данные за последние 5 лет (можно и за 25 лет взять но и пятилетку не осилите). С помощью видеокарты наэмбеддим, кластеризуем, индексируем, обучаем и ищем.

Вот результат - ЛОР во всей красе, красные - забаненые пользователи. Небольшие черточки по кругу - виртуалы. Часть виртуалов забанена, часть заброшена. Всплеск виртуалов пришелся на 22 год, по понятным причинам. Граф не приближаю чтобы не появились ники, не хочу никого подставлять, но вот «безопасная» часть графа для понимания.

Попробуйте повторить это на CPU. На GPU заняло 2 часа.

Obezyan
()
Ответ на: комментарий от byko3y

Ты уверен, что ты когда-то занимался разработкой софта

Да куда мне, обезьяну.

DeepSeek R1 — это слишком слабая нейросеть для моих задач.

Огласите весь список.

Obezyan
()
Ответ на: комментарий от Obezyan

Давайте что-нибудь бесплатное возьмем, но интересное. Например, определение виртуалов на этом форуме, взяв данные за последние 5 лет (можно и за 25 лет взять но и пятилетку не осилите). С помощью видеокарты наэмбеддим, кластеризуем, индексируем, обучаем и ищем.

Давайте «бесплатное» возьмем. И какой же мой второй аккаунт?

byko3y ★★★★
()
Ответ на: комментарий от Obezyan

Правильная автоматизация ВСЕГДА окупается для предприятия, вопрос только в сроках.

С одной стороны так, с другой, если честно, то вокруг автоматизации ещё с очень давних времён, буквально с 1960-х, была мода что-нибудь заменить роботами. Я не настолько стар, чтобы помнить шестидесятые, но общался с людьми, которые помнят ещё те реалии.

anonymous_incognito ★★★★★
()
Ответ на: комментарий от peregrine

но даже такое не спешат многие покупать, хотя явно время экономит и кучу проблем с противопоказаниями снимает, помечая лекарства как потенциально проблемные под ответственность

Врачи наверное лучше бы ответили, но даже как их клиент, скажу, что к официальным инструкциям со сведениями о показаниях, противопоказаниях и побочных действиях стоит относиться осторожно. Более-менее опытные врачи в курсе, что на бумаге иногда официальные противопоказания - перестраховка и наоборот, почему-то не пишут о о реальных проблемах.

anonymous_incognito ★★★★★
()
Ответ на: комментарий от anonymous_incognito

С одной стороны так, с другой, если честно, то вокруг автоматизации ещё с очень давних времён, буквально с 1960-х, была мода что-нибудь заменить роботами. Я не настолько стар, чтобы помнить шестидесятые, но общался с людьми, которые помнят ещё те реалии.

Автоматизация уже очень глубоко проникла во все сферы к 2020 году, до помешательства на нейросетях. И в том числе я занимался автоматизацией на мелких-средних предприятиях. И компьютерное зрение без нейросетей было очень давно.

То есть, грубо говоря, раньше сидела секретарша бумажки заполняла, а теперь бумажки вообще не нужны, все документы оформляются в компьютере сразу без участия кожанного мешка. И в отличие от нейросетей эти программы считали всё точно до копейки.

byko3y ★★★★
()
Ответ на: комментарий от anonymous_incognito

Более-менее опытные врачи в курсе, что на бумаге иногда официальные противопоказания - перестраховка и наоборот, почему-то не пишут о о реальных проблемах.

80% результатов не воспроизводятся, 50% не могут повторить даже сами авторы, зная все не упомянутые факторы. Чери пикинг и просто наглючая ложь давно являются нормой для фармы. Это уже не говоря о том, что большинство врачей даже не пытаются ничего нового узнать и просто лечат по старинке. В США врачи давно превратились в драг дилеров.

Теперь внимание вопрос: а откуда вообще нейросеть может брать правдивую информацию для диагностики?

byko3y ★★★★
()
Ответ на: комментарий от byko3y

Я сейчас StyleDistance/mstyledistance попробовал — мой стиль по её мнению на 99% совпадает с соседними сообщениями anonymous_incognito. Замечательный ИИ, надо больше такого. Я уверен, что мой стиль находится где-то в этом самом центральном комке людей, которые просто умеют грамотно писать, у которых активный словарный запас больше тысячи слова, и ошибки совершаются случайным образом, а не эта хрень аля «пробел с обоих сторон , запятой» или «полное отсутствие знаков препинания».

byko3y ★★★★
()
Ответ на: комментарий от byko3y

О в тему. Вчера хотел собрать из сорцов https://github.com/IlyaGrebnov/libbsc (посмотреть на эффективность алгоритма на маленьких по объёму данных, на большом объёме там и скорость и качество очень и очень хороши). Там внутри cuda и процессорные оптимизации, такие как AMX (Advanced Matrix Extensions). Есть дистрибутив, Ubuntu LTS самый свежий (вроде как самый популярный для куды). Угадай что они сделали в нём (как и в куче других дистрибутивов, правильно, вот это). Год прошел, ничего не изменилось, если кроме куды в приложении есть AMX инструкции, то тебя ждёт занимательный квест потому как amxtileintrin.h (вроде как оно с gcc идёт поломано, там в треде подробнее написано почему). Считаю что сделано это специально, чтоб приложения с кудой было гораздо сложнее собирать (тебе ещё gcc придётся патчить и пересобирать по-хорошему), чтоб народ не думал о том, чтоб какие-то ИИ модельки и прочие числодробилки у себя локально поднимать, а шёл к дядям в облака где специально обученный человек всё это уже пропатчил. Да, на моей машинке потом конечно вылезли другие проблемы с nvcc (куда с сайта nvidia ломает графику, куда с реп не совместима с gcc из реп). Такие дела. До ИИ бума такой фигни не было, куда просто работала. А сейчас имеем то что имеем.

peregrine ★★★★★
() автор топика
Ответ на: комментарий от anonymous_incognito

Неа, после того как астматику с аспириновой астмой «опытные врачи» с 30 годами стажа выписали НПВП препарат для разжижения крови, что чуть не привело к смерти человека, хорошо что скорая быстро приехала, я очень внимательно читаю официальные противопоказания и крайне низкого мнения о врачах. Потому как при ней даже если по жизненно важным показателям выписывают НПВП то принимают его только в больнице, под контролем врача, готовые к реанимационным действиям (которые потребуются), а дальше пользуются тем фактом что после приёма аспирина и приступа астмы в течении 24-72 часов у больного не может быть повторного приступа.

peregrine ★★★★★
() автор топика
Ответ на: комментарий от byko3y

Давайте «бесплатное» возьмем.

Я имел ввиду бесплатную задачу, но не суть.

И какой же мой второй аккаунт?

Я понимаю что чтобы я не ответил вы скажете противоположное, но это не важно, у вас нет второго аккаунта который написал достаточно чтобы попасть выше порогового значения.

Obezyan
()
Ответ на: комментарий от anonymous_incognito

С одной стороны так, с другой, если честно, то вокруг автоматизации ещё с очень давних времён, буквально с 1960-х, была мода что-нибудь заменить роботами. Я не настолько стар, чтобы помнить шестидесятые, но общался с людьми, которые помнят ещё те реалии.

История идет по кругу. Появляется «новая совершенная технология или методика» (с) Ее пихают везде. Большинство в итоге разочаровывается, потому что серебряной пули - нет, но технология находит свою нишу. Без тех же роботов немыслимы современные автомобильные заводы, сборочные линии и огромные логистические центры обработки посылок.

Точно также будет с нейронками, грубо говоря они уже переживали одну зиму ИИ, переживут и вторую. Я лишь пытаюсь сказать что это такой же инструмент который как и другие который со временем займет свои ниши и поможет в автоматизации.

Я не сторонник запихивания ИИ в каждое отверстие в надежде получить больше удовольствия, но признаю что есть места где их применение лучше чем приложить подорожник.

Obezyan
()
Ответ на: комментарий от a1ba

Мой старый аккаунт с этим не связал? На втором скрине себя вижу, но связей с этим нет. :)

Выборка за последние 5 лет, те если вы активно шалили раньше то не попадет. Я не буду рассказывать у кого что есть, форум и так умирает, покажу только немного тех кому терять уже нечего:

  1. скриншот - подтвержденный мультиакк
  2. скриншот - хотя сеть не анализирует имена, тут даже Вангой быть не надо
  3. скриншот - загадка для @Dimez
Obezyan
()
Ответ на: комментарий от Obezyan

Я понимаю что чтобы я не ответил вы скажете противоположное, но это не важно, у вас нет второго аккаунта который написал достаточно чтобы попасть выше порогового значения.

500+ комментариев, но они достаточно старые, могли в окно не попасть.

byko3y ★★★★
()
Ответ на: комментарий от peregrine

Считаю что сделано это специально, чтоб приложения с кудой было гораздо сложнее собирать

Разгадка проста — у нвидии переусложнённый глючный софт. Это даже не злобная намеренность, а просто неизбежность любого сложного софта.

У меня на ноуте стоит нвидия, гоняю на ней нейросетки, там же играю в игры. Довольно регулярно система зависает раз в неделю-две по непонятным причинам. Выход из спящего режима — рулетка, зачастую приходится руками включать монитор для иксов из терминала. Заметь, что это никак не связано с палками в колёса конкурентам. Чтобы собрать отладочный llama.cpp для CUDA мне пришлось разворачивать ихние официальные контейнера, потому что у нвидии постоянно какой-то треш с несовместимостью заголовков. Дефолтная сборка llama.cpp собирается с твоим установленным драйвером, но если ты в контейнере, то будешь собираться с дефолтными 61;70;75;80;86;89 — во-первых вся эта хрень компилируется вечность, во-вторых если твоей архитектуре нет в списке, то добро пожаловать в JIT-компиляцию из PTX.

шёл к дядям в облака где специально обученный человек всё это уже пропатчил

Так Nvidia выкладывает образ с нужными патчами. Другое дело, что собранный там бинарь запустится только в том же контейнере.

До ИИ бума такой фигни не было, куда просто работала. А сейчас имеем то что имеем

Весь питоновый софт для ML-а тотально всрат, 3 Гб зависимостей для hello world извольте установить. Именно потому мне так симпатичен llama.cpp, который требует минимум зависимостей без CUDA. Даже Vulkan сборку намного, намного проще делать, и она генерирует кросплатформенные ядра, при этом производительность 80-90% от кудовой — это очень даже достойная плата за кросплатформенность.

На самом деле, по секрету между нами девочками, разрабы llama.cpp тоже частично поддаются волне хайпа и втаскивают в проект фичи раньше, чем эти фичи начинают работать. У них вон в API сервере гонки чёрт знает сколько времени, и никто особо не парится, мол «имеющийся сервер лучче чем ничего».

byko3y ★★★★
()
Ответ на: комментарий от Obezyan

Я лишь пытаюсь сказать что это такой же инструмент который как и другие который со временем займет свои ниши и поможет в автоматизации.

Внезапно, я пытаюсь сказать то же самое. Именно для NLP, то есть неточной идеоматичной информации, нейронки прекрасно подходят. А вот в точных областях пока что от них вреда бывает больше чем пользы.

byko3y ★★★★
()
Ответ на: комментарий от byko3y

Скорее всего вы правы. Для более точного определения нужно брать все данные за 26 лет существования форума, но мне лень выкачивать это все несколько дней, тк rate limiter на сервере не спит и потом еще сутки только эмбеддинги строить.

Это просто попытка показать что будет если не брать готовое решение, которое явно не адаптировано под конкретную задачу, а создать свое, с нуля и заточить под задачу. Возможно, не стоило срезать углы и ограничивать датасет, но и так те результаты которые я получил показывают что подход рабочий.

Большинство подобных решений заточены под анализ косинусного сходства как сильного признака, но на этом форуме он самый слабый. Скорее всего из-за специфичности обсуждаемых тем. Поэтому если вы возьмете какую-нибудь готовую сеть для анализа она покажет мусор. Так и должно быть потому что сеть не затачивалась под задачу.

Obezyan
()
Ответ на: комментарий от byko3y

Внезапно, я пытаюсь сказать то же самое. Именно для NLP, то есть неточной идеоматичной информации, нейронки прекрасно подходят. А вот в точных областях пока что от них вреда бывает больше чем пользы.

Я с вами полностью согласен. Сети стоит применять в двух областях - там где нет точного решения и там где точное решение есть, но мы не способны его посчитать из-за большой вычислительной сложности, поэтому но хотим одним глазком хоть на первое приближение глянуть.

Это же просто числовые сита которые помогают выявлять неявные (для нас) закономерности. Сознания у современных ИИ не больше чем у калькулятора, а точности в разы меньше.

Obezyan
()
Ответ на: комментарий от Obezyan

Возможно, не стоило срезать углы и ограничивать датасет, но и так те результаты которые я получил показывают что подход рабочий.

Блин, поиск клонов в соцсетках я ещё лет пять назад на ютьюбе видел. Другое дело, что он прежде всего опирается на то, что пользователь не пытается скрываться. Ну типа чел зарегал новый аккаунт вконтакте и добавил точно тех же людей в друзья.

Большинство подобных решений заточены под анализ косинусного сходства как сильного признака, но на этом форуме он самый слабый. Скорее всего из-за специфичности обсуждаемых тем.

Тоже не понимаю прикола косинуса, анализ стиля в целом подразумевает анализ аномалий, а не усреднённой статистики.

byko3y ★★★★
()
Ответ на: комментарий от Obezyan

Это же просто числовые сита которые помогают выявлять неявные (для нас) закономерности. Сознания у современных ИИ не больше чем у калькулятора, а точности в разы меньше.

Если речь про химию, уравнения Шрёдингера, ab initio вычисления, то там просто математики-физики традиционно не могут высрать что-то прагматичное. Расчёты в вороятностных-волновых полях крайне тяжелы, но сами процессы на самом деле намного проще. Весь хайп с квантовым процессорами был вызван тем, что якобы процессор делал вычисление, которое якобы по Шрёдингеру нужно было бы годами делать на обычных компьютерах. И якобы из этого следует, что квантовый процессор настолько быстрый, а не что ваши уравнения слишком сложны.

byko3y ★★★★
()
Ответ на: комментарий от byko3y

Блин, поиск клонов в соцсетках я ещё лет пять назад на ютьюбе видел

Лет 10-12 назад (уже точно не помню) было собеседование в дочернюю контору Палантира которая занимается поиском чего скажут в больших данных. Там нужно было по массиву email сообщений определить организованную преступную группу из 8 человек которая разбросана по всему миру и скрывает свою деятельность.

Сети тогда не были развиты как сейчас, но все равно с помощью NLP и стат методов удалось вытащить кластер из ~50 человек в котором были 5 из 8. Остальных 3х уже было просто найти по связям с этими 5ю. На это тогда две недели ушло, ковыряние в FANN на С (torch тогда только только появился) чтобы сделать модель и тд.

Как говорится: добро пожаловать в анал отдел .jpg

Obezyan
()
Ответ на: комментарий от byko3y

Весь хайп с квантовым процессорами был вызван тем, что якобы процессор делал вычисление, которое якобы по Шрёдингеру нужно было бы годами делать на обычных компьютерах. И якобы из этого следует, что квантовый процессор настолько быстрый, а не что ваши уравнения слишком сложны.

Насколько я помню, квантовый процессор может быстро делать только алгоритм Шора. Это уже журналисты раздули что он все может быстро.

Кубиты же уже сейчас можно крутить на нормальной карте с помощью Nvidia CudaQ. Я так у себя Гамильтонианы крутил ради интереса - работает. Только это конечно же не «истинные» кубиты, а эмуляция.

Забавно то что настоящих кубитов там нет, а квантовый шум от них есть и приходится его учитывать.

Obezyan
()