LINUX.ORG.RU

Датасеты для нейросетей

 , датасеты,


3

2

Собственно разыскивается САБЖ, хочется именно под нейросети (не регрессия, не рэндом форесты и так далее, нейронкам нужно больше данных для обучения, на маленьких наборах рулят более простые алгоритмы). Желательно не про картинки (в картинках жестко рулит CNN и его модификации). Хочется чего-то качественного но не слишком сложного для сети (в то же время чтоб объём данных для обучения был достаточно большой), чтоб протестировать разные архитектуры сетей и проверить пару гипотез, но в то же время не упереться в объёмы видеопамяти. В идеале хотелось бы чего-то простенького, что может уложиться в 5-6 гигов видеопамяти в плане модели сети на раннем этапе (нет мне не надо достигать 99% точности, мне важнее узнать что способом a я достиг 75% точности затратив n часов обучения, а способом b я достиг 80% точности, затратив m часов обучения при одинаковых или похожих объёмах видеопамяти), если будет понятно, что гипотезы будут подтверждены, то там уже можно и машинку арендовать и делать что-то интересное и практическое. В общем, ищется аналог Lena.jpg но под нейронки, чем универсальней, тем лучше. На kaggle смотрел, но там слишком много датасетов, а хочется чего-то эталонного, так что хочу послушать предложения ЛОР-овцев.

PS

Интересные датасеты с интересными задачами тоже рассматриваются, но в приоритете эталонные датасеты.

PPS

Лучше чтоб мне не было нужды чистить и преобразовывать данные, это отдельная задача, которая на данный момент мне не требуется.

★★★★★

Последнее исправление: peregrine (всего исправлений: 2)
Ответ на: комментарий от byko3y

В чём проблема просто дальше использовать облачные сервисы?

Сливать кодовую базу проекта облачному сервису? Вы сейчас это на серьезных щщах?

Не обижайтесь, но у меня стойкое впечатление что с вами что-то не так. Как будто СДВГ или что-то такое (буду рад ошибиться). Это видно по нашей дискуссии.

Obezyan
()
Ответ на: комментарий от Obezyan

Сначала сеть обучается на кодовой базе, потом вся кодовая база прогоняется перегоняется в эмбеддинги которые заносятся в векторную базу. В дальнейшем при изменении кода, автоматически (каждую ночь) проект прогоняется еще раз получая обновленные данные в векторной базе.
Чуть-чуть больше 1млн строк.

200 тысяч строк кода на nomic-embed-text за 5 минут на моей машине считаются. В полной точности. При изменении кода оно инкрементально индексирует новый.

Сеть при этом не переобучается заново, это не нужно тк она уже имеет базовое представление о проекте + актуальный код. Те на утро она может спокойно оперировать тем что вчера накодили разработчики.

Это уже считается прошлым веком, потому что глюки в эмбедингах очень затрудняют рабочий процесс. Чтобы оперировать тем, что вчера и сегодня накодили программисты, нужны агентные модели, которые будут в реальном времени вычитывавать код, историю комитов, документацию — не додуманные резюмированные переиначенные выжимки, а тащить в контекст дословное содержание.

A6000 тут нужна потому что KV кеш занимает дофига места и разработчики обращаются к сети одновременно.

Если гонять нейросетки нонстоп в автономных агентных режимах, половина из которых будут кружится в бесконечных циклах размышлений, то никаких стоек не хватит. Если не делать этого, то и A6000 будет слишком много.

Причем отклик должен быть быстрым иначе будет дико раздражать при использовании.

По недавнему исследованию MS само кодописание занимает примерно 20% рабочего времени. Почему я и поставил вопрос: задача заключается в достижении цифр на бенчмарках времени отклика нейросети или в реализации прикладных программ? Если в реализации программ, то большую часть времени всё равно занимает анализ и координация. Если программист большую часть времени смотрит, как нейросеть пытается за него сделать его работу, то, возможно, нужно не ускорять нейросеть, а уволить кнопкодава и нанять настоящего программиста.

Конечно, когда человек один и кроме ноута у него ничего нет, то локально ему llama.cpp пойдет, вот только квантованная сеть будет давать шлак. Чисто поиграться пойдет, что-то вменяемое написать - нет.

Всё, что меняет неквантованная большая модель — это теперь вайбкодерные пет проекты на гитхабе выросли с 1000 строк до 10000 строк. Дальше происходит то же самое: нейросеть не способна мыслить вглубь, начинает дублировать решения (менее очевидным способом), каждый цикл внесения правок требует на порядки больше времени и вычислений, чем в начале разработки, всё чаще и чаще ИИ просто не способен решить задачу автономно ни за какое время и человеку нужно придумывать, как преодолёть барьер.

По исследованию MIT начала 2025 года нейросети строго замедляют процесс разработки — и там ни разу не квантованные нейросети на llama.cpp использовались. Я так-то сам немного использую локальный ИИ за пределами простых задач аля «найди фичу в незнакомом коде», я пользуюсь облачными намного больше, но я никогда не передаю им тупо весь код, я лишь ставлю абстрактную задачу и рассматриваю предложения от ИИ, ну типа «какая стоимость cpuid+rdtsc по сравнению с lfence+rdtsc?».

byko3y ★★★★
()
Ответ на: комментарий от Dimez

Сливать кодовую базу проекта облачному сервису?

Ну мне на совершенно серьёзных щщах говорили на это «ачотаковато?»

Проблема людей, которые не работают, но имитируют работу, была всегда, с нейросетями или без. Сейчас она стала актуальнее потому, что нейросети резко выросли, а бороться ними ещё не научились.

Когда работник сливает исходный код облаку, а потом результат работы облака выдаёт за свой труд — это серьёзный саботаж. Но если фирма заботится о безопасности и на рабочем ноуте следят за сливом исходного кода, то тут мы приходим к каноничному способу использования нейросетей — например, написать вопрос нейросети на смартфоне... Вполне возможно, что половина ответа будет придумана уже в процессе печатания запроса.

Так-то я сам в шоке от людей, которые просто берут и заливают исходники на какой-то AWS, мол «да мне удобнее через облако на двух устройствах работать» — тут как бы даже не про ИИ речь идёт.

byko3y ★★★★
()
Ответ на: комментарий от byko3y

и на рабочем ноуте следят за сливом исходного кода

Ты же понимаешь, что гарантировать нераспространение исходного кода с ноутбуков работников невозможно только техническими средствами?

Так-то я сам в шоке от людей, которые просто берут и заливают исходники на какой-то AWS, мол «да мне удобнее через облако на двух устройствах работать» — тут как бы даже не про ИИ речь идёт.

Полностью и бесповоротно согласен.

Dimez ★★★★★
()
Последнее исправление: Dimez (всего исправлений: 1)
Ответ на: комментарий от Dimez

Ты же понимаешь, что гарантировать нераспространение исходного кода с ноутбуков работников невозможно только техническими средствами?

Ну да. Я о том, что если вы наняли непонятно кого, то он вам не только сорцы на сервера OpenAI зальёт, но и ещё куда-нибудь похуже. Комитить ИИ слоп в репу проекта — просто одна из форм. Если кулибины аля автора Artalk напишут вам БД нейросеткой, то непонятно, что потом с вашими данными будет. И так далее.

«Я ничо не понимаю, что тут написано, пусть нейросетка разберётся и исправит код» — это уже полпути к «да пофигу, я уже и так треть кода проекта на облако залил». Лично я не отрицаю пользу ИИ, но у него очень узкий спектр применимости в разработке.

byko3y ★★★★
()
Ответ на: комментарий от byko3y

Это какое фанатичное отрицание возможностей видеокарты и утилит способных использовать ее мощь правильно. Я даже не знаю что тут еще сказать, да и сомневаюсь что надо ли.

Obezyan
()
Ответ на: комментарий от Obezyan

С чего вы взяли что ПАРСЕР текста занимается наймом? Сеть не делает никаких выводов о кандидате, она парит его резюме и складывает в базу чтобы рекрутер/кадровое агентство мог быстро найти нужных кандидатов по указаны скилам, городу или типу работы. Дальше, получив список кандидатов с ними ведёт работу человек.

Это в идеальном мире. В реальном имеем то что нейросеть и отбор проводит, кажется уже была новость о том, что одна из таких сетей отказывала неграм на основании цвета кожи (потому что статистически при тренировке параметр коррелировал с другими, вроде образования и оказался сильным маркером, чтоб его не обобщать).

peregrine ★★★★★
() автор топика
Ответ на: комментарий от Obezyan

А я тебя обрадую: современные IDE почти все с нейросетями и угадай где они крутятся, правильно в облаках, но майкрософт, джетбрейнс и прочие мамой клянутся что «будут честными и код не сопрут кроме как для обучения нейросетей». А народ то юзает.

peregrine ★★★★★
() автор топика
Ответ на: комментарий от peregrine

Всё равно дорого.

Это не для физиков. Для предприятия это буквально копейки.

Вообще, продаваны подобное, то что стоит 500к, продают за 5млн, то что стоит ~3млн - за 15…(реальные случаи). Мне же не нужно кормить стадо манагеров и держать ООО поэтому ценник такой гуманный.

Obezyan
()
Ответ на: комментарий от peregrine

В реальном имеем то что нейросеть и отбор проводит

В реальном мире это ОТДЕЛЬНАЯ нейросеть. Так называемая сеть принятия решений. Такие сети я делаю только для компьютерных игр, а не для жизни. Также я не делаю детекторы человеков и системы наведения на объекты. По тем же самым причинам, у Обезъяна не так много принципов поэтому теми что есть он дорожит.

Obezyan
()
Ответ на: комментарий от Obezyan

Для предприятия да, копейки. Но только если оно на этом деньги зарабатывает. Для условного предприятия которое занимается, скажем, ремонтом автомобилей (пример синтетический) ИИ как бы нужен, например, для диагностики поломок, позволяя экономить время и ЗП для ремонтника, скорее всего даже за год при 10 точках и 15 мастерах оно окупится даже при покупке за 5 лямов. Но вот не спешат они нанимать таких как ты. Я больше скажу - видел в больнице платной систему которая подсказывает врачу какие таблетки больному не стоит выписывать (противопоказания по болезням из карты) и какие можно (врач обычно из списка выбирает предложенного что-то для типовых случаев), но даже такое не спешат многие покупать, хотя явно время экономит и кучу проблем с противопоказаниями снимает, помечая лекарства как потенциально проблемные под ответственность врача.

peregrine ★★★★★
() автор топика
Последнее исправление: peregrine (всего исправлений: 1)
Ответ на: комментарий от peregrine

А я тебя обрадую: современные IDE почти все с нейросетями и угадай где они крутятся, правильно в облаках, но майкрософт, джетбрейнс и прочие мамой клянутся что «будут честными и код не сопрут кроме как для обучения нейросетей». А народ то юзает.

У меня локальные сети подключены в NetBeans/SublimeText/LazyVim. Причем я бы не сказал что постоянно их использую, в основном для скучных задач уровня написания swagger дока в виде комментария к функции.

ИТ разработчики поделились на «народ» который ест облачный ИИ с лопаты и «обезъян» с собственными мощностями достаточными для запуска локальных версий. Есть еще фанатики локальных квантованных в усмерть сетей на ноутбучном CPU, но это клиника.

Мое ИМХО - если синьор не может заработать себе на видеокарту то он слишком рано нацепил на себя синьорские «погоны». Все остальное - запах слабости и детские оправдания. Видеокарты не настолько дороги, какие-нибудь стоматологи или токари зачастую вкладываются в свое оборудование и инструменты кратно больше. И ничего, нормально.

Obezyan
()
Ответ на: комментарий от Obezyan

Осталось убедить владельцев в том что им это надо. На практике это порой сложно. Тебе как продающему готовое это не видно, к тебе идут когда начальство созрело. А вот на самих таких предприятиях это очень чувствуется.

peregrine ★★★★★
() автор топика
Ответ на: комментарий от peregrine

Я понимаю вашу боль. На самом деле в РФ есть с этим проблема, в головах. По сравнению с западными компаниями отставание лет на 5. Созревание руководства это лишь верхушка айсберга. Есть еще огромный пласт проблем с ИТ/ML отделами.

Особенно сильно это чувствуется в столичных конторах где осела куча «знатоков» закончивших престижные вузы, но не продвинувшееся далее университетской программы. Вот это прям со скрипом пробивается, и далеко не всегда. Нельзя сделать человека счастливым насильно.

Страх потери авторитета перед руководством и осознание что теплое место может перестать быть теплым очень часто ставит крест вообще на любой автоматизации «извне». И пофиг что контора будет продолжать терпеть убытки из-за неэффективной работы, раньше ведь худо бедно работало, и вообще подход уровня «зачем конторе существовать если там не будет меня», ведь как известно - своя рубашка ближе к телу.

Obezyan
()
Ответ на: комментарий от Obezyan

Это какое фанатичное отрицание возможностей видеокарты и утилит способных использовать ее мощь правильно. Я даже не знаю что тут еще сказать, да и сомневаюсь что надо ли.

Ну я как бы всё ещё жду, когда кто-то продемонстрирует мне что-то интереснее бредогенератора использовав «мощь правильно». Последний год эдак жду.

byko3y ★★★★
()
Ответ на: комментарий от peregrine

А я тебя обрадую: современные IDE почти все с нейросетями и угадай где они крутятся, правильно в облаках, но майкрософт, джетбрейнс и прочие мамой клянутся что «будут честными и код не сопрут кроме как для обучения нейросетей». А народ то юзает.

Я скажу даже больше: плугины якобы опенсорсные и якобы независимые по факту затачиваются под функцию клиента одного-двух-трёх облачных сервисов, для всего остального нужен напильник и матерное слово. Причём, ситуацию исправлять никто не спешит, по очевидным причинам. Собственно, некоторые даже и не скрывают, что являются клиентом единственного сервиса.

byko3y ★★★★
()
Ответ на: комментарий от Obezyan

Вообще, продаваны подобное, то что стоит 500к, продают за 5млн, то что стоит ~3млн - за 15…(реальные случаи). Мне же не нужно кормить стадо манагеров и держать ООО поэтому ценник такой гуманный.

Да, самое обидное то, что это действительно работает, потому что продаётся по итогу удовлетворённость заказчика, которую вообще непонятно как измерять, ведь заказчик всё равно ничерта не понимает в этих ваших нейросетях и оценить результат не может. Вплоть до того, что продадут какую-то облачную подписку под видом персонально разработанного защищенного сервиса.

Сделанную за два дня админку django продавать за миллионы не вчера придумали так-то.

byko3y ★★★★
()
Ответ на: комментарий от Obezyan

Мое ИМХО - если синьор не может заработать себе на видеокарту то он слишком рано нацепил на себя синьорские «погоны».

Ты уверен, что ты когда-то занимался разработкой софта, а не бойлерплейтами? DeepSeek R1 — это слишком слабая нейросеть для моих задач. А ты уже накопил на сетуп для хотя бы R1?

byko3y ★★★★
()
Ответ на: комментарий от Obezyan

Правильная автоматизация ВСЕГДА окупается для предприятия, вопрос только в сроках.

Казалось бы, при чём тут нейросети... Предприятию нужны прежде всего гарантированно работающие программы, а не нейросети.

byko3y ★★★★
()
Ответ на: комментарий от byko3y

Ну я как бы всё ещё жду, когда кто-то продемонстрирует мне что-то интереснее бредогенератора использовав «мощь правильно». Последний год эдак жду.

Я так понял для вас все за что платят - «неинтересно». Давайте что-нибудь бесплатное возьмем, но интересное. Например, определение виртуалов на этом форуме, взяв данные за последние 5 лет (можно и за 25 лет взять но и пятилетку не осилите). С помощью видеокарты наэмбеддим, кластеризуем, индексируем, обучаем и ищем.

Вот результат - ЛОР во всей красе, красные - забаненые пользователи. Небольшие черточки по кругу - виртуалы. Часть виртуалов забанена, часть заброшена. Всплеск виртуалов пришелся на 22 год, по понятным причинам. Граф не приближаю чтобы не появились ники, не хочу никого подставлять, но вот «безопасная» часть графа для понимания.

Попробуйте повторить это на CPU. На GPU заняло 2 часа.

Obezyan
()
Ответ на: комментарий от byko3y

Ты уверен, что ты когда-то занимался разработкой софта

Да куда мне, обезьяну.

DeepSeek R1 — это слишком слабая нейросеть для моих задач.

Огласите весь список.

Obezyan
()
Ответ на: комментарий от Obezyan

Давайте что-нибудь бесплатное возьмем, но интересное. Например, определение виртуалов на этом форуме, взяв данные за последние 5 лет (можно и за 25 лет взять но и пятилетку не осилите). С помощью видеокарты наэмбеддим, кластеризуем, индексируем, обучаем и ищем.

Давайте «бесплатное» возьмем. И какой же мой второй аккаунт?

byko3y ★★★★
()
Ответ на: комментарий от Obezyan

Правильная автоматизация ВСЕГДА окупается для предприятия, вопрос только в сроках.

С одной стороны так, с другой, если честно, то вокруг автоматизации ещё с очень давних времён, буквально с 1960-х, была мода что-нибудь заменить роботами. Я не настолько стар, чтобы помнить шестидесятые, но общался с людьми, которые помнят ещё те реалии.

anonymous_incognito ★★★★★
()
Ответ на: комментарий от peregrine

но даже такое не спешат многие покупать, хотя явно время экономит и кучу проблем с противопоказаниями снимает, помечая лекарства как потенциально проблемные под ответственность

Врачи наверное лучше бы ответили, но даже как их клиент, скажу, что к официальным инструкциям со сведениями о показаниях, противопоказаниях и побочных действиях стоит относиться осторожно. Более-менее опытные врачи в курсе, что на бумаге иногда официальные противопоказания - перестраховка и наоборот, почему-то не пишут о о реальных проблемах.

anonymous_incognito ★★★★★
()
Ответ на: комментарий от anonymous_incognito

С одной стороны так, с другой, если честно, то вокруг автоматизации ещё с очень давних времён, буквально с 1960-х, была мода что-нибудь заменить роботами. Я не настолько стар, чтобы помнить шестидесятые, но общался с людьми, которые помнят ещё те реалии.

Автоматизация уже очень глубоко проникла во все сферы к 2020 году, до помешательства на нейросетях. И в том числе я занимался автоматизацией на мелких-средних предприятиях. И компьютерное зрение без нейросетей было очень давно.

То есть, грубо говоря, раньше сидела секретарша бумажки заполняла, а теперь бумажки вообще не нужны, все документы оформляются в компьютере сразу без участия кожанного мешка. И в отличие от нейросетей эти программы считали всё точно до копейки.

byko3y ★★★★
()
Ответ на: комментарий от anonymous_incognito

Более-менее опытные врачи в курсе, что на бумаге иногда официальные противопоказания - перестраховка и наоборот, почему-то не пишут о о реальных проблемах.

80% результатов не воспроизводятся, 50% не могут повторить даже сами авторы, зная все не упомянутые факторы. Чери пикинг и просто наглючая ложь давно являются нормой для фармы. Это уже не говоря о том, что большинство врачей даже не пытаются ничего нового узнать и просто лечат по старинке. В США врачи давно превратились в драг дилеров.

Теперь внимание вопрос: а откуда вообще нейросеть может брать правдивую информацию для диагностики?

byko3y ★★★★
()
Ответ на: комментарий от byko3y

Я сейчас StyleDistance/mstyledistance попробовал — мой стиль по её мнению на 99% совпадает с соседними сообщениями anonymous_incognito. Замечательный ИИ, надо больше такого. Я уверен, что мой стиль находится где-то в этом самом центральном комке людей, которые просто умеют грамотно писать, у которых активный словарный запас больше тысячи слова, и ошибки совершаются случайным образом, а не эта хрень аля «пробел с обоих сторон , запятой» или «полное отсутствие знаков препинания».

byko3y ★★★★
()