LINUX.ORG.RU

Датасеты для нейросетей

 , датасеты,


3

2

Собственно разыскивается САБЖ, хочется именно под нейросети (не регрессия, не рэндом форесты и так далее, нейронкам нужно больше данных для обучения, на маленьких наборах рулят более простые алгоритмы). Желательно не про картинки (в картинках жестко рулит CNN и его модификации). Хочется чего-то качественного но не слишком сложного для сети (в то же время чтоб объём данных для обучения был достаточно большой), чтоб протестировать разные архитектуры сетей и проверить пару гипотез, но в то же время не упереться в объёмы видеопамяти. В идеале хотелось бы чего-то простенького, что может уложиться в 5-6 гигов видеопамяти в плане модели сети на раннем этапе (нет мне не надо достигать 99% точности, мне важнее узнать что способом a я достиг 75% точности затратив n часов обучения, а способом b я достиг 80% точности, затратив m часов обучения при одинаковых или похожих объёмах видеопамяти), если будет понятно, что гипотезы будут подтверждены, то там уже можно и машинку арендовать и делать что-то интересное и практическое. В общем, ищется аналог Lena.jpg но под нейронки, чем универсальней, тем лучше. На kaggle смотрел, но там слишком много датасетов, а хочется чего-то эталонного, так что хочу послушать предложения ЛОР-овцев.

PS

Интересные датасеты с интересными задачами тоже рассматриваются, но в приоритете эталонные датасеты.

PPS

Лучше чтоб мне не было нужды чистить и преобразовывать данные, это отдельная задача, которая на данный момент мне не требуется.

★★★★★

Последнее исправление: peregrine (всего исправлений: 2)
Ответ на: комментарий от byko3y

В чём проблема просто дальше использовать облачные сервисы?

Сливать кодовую базу проекта облачному сервису? Вы сейчас это на серьезных щщах?

Не обижайтесь, но у меня стойкое впечатление что с вами что-то не так. Как будто СДВГ или что-то такое (буду рад ошибиться). Это видно по нашей дискуссии.

Obezyan
()
Ответ на: комментарий от Obezyan

Сначала сеть обучается на кодовой базе, потом вся кодовая база прогоняется перегоняется в эмбеддинги которые заносятся в векторную базу. В дальнейшем при изменении кода, автоматически (каждую ночь) проект прогоняется еще раз получая обновленные данные в векторной базе.
Чуть-чуть больше 1млн строк.

200 тысяч строк кода на nomic-embed-text за 5 минут на моей машине считаются. В полной точности. При изменении кода оно инкрементально индексирует новый.

Сеть при этом не переобучается заново, это не нужно тк она уже имеет базовое представление о проекте + актуальный код. Те на утро она может спокойно оперировать тем что вчера накодили разработчики.

Это уже считается прошлым веком, потому что глюки в эмбедингах очень затрудняют рабочий процесс. Чтобы оперировать тем, что вчера и сегодня накодили программисты, нужны агентные модели, которые будут в реальном времени вычитывавать код, историю комитов, документацию — не додуманные резюмированные переиначенные выжимки, а тащить в контекст дословное содержание.

A6000 тут нужна потому что KV кеш занимает дофига места и разработчики обращаются к сети одновременно.

Если гонять нейросетки нонстоп в автономных агентных режимах, половина из которых будут кружится в бесконечных циклах размышлений, то никаких стоек не хватит. Если не делать этого, то и A6000 будет слишком много.

Причем отклик должен быть быстрым иначе будет дико раздражать при использовании.

По недавнему исследованию MS само кодописание занимает примерно 20% рабочего времени. Почему я и поставил вопрос: задача заключается в достижении цифр на бенчмарках времени отклика нейросети или в реализации прикладных программ? Если в реализации программ, то большую часть времени всё равно занимает анализ и координация. Если программист большую часть времени смотрит, как нейросеть пытается за него сделать его работу, то, возможно, нужно не ускорять нейросеть, а уволить кнопкодава и нанять настоящего программиста.

Конечно, когда человек один и кроме ноута у него ничего нет, то локально ему llama.cpp пойдет, вот только квантованная сеть будет давать шлак. Чисто поиграться пойдет, что-то вменяемое написать - нет.

Всё, что меняет неквантованная большая модель — это теперь вайбкодерные пет проекты на гитхабе выросли с 1000 строк до 10000 строк. Дальше происходит то же самое: нейросеть не способна мыслить вглубь, начинает дублировать решения (менее очевидным способом), каждый цикл внесения правок требует на порядки больше времени и вычислений, чем в начале разработки, всё чаще и чаще ИИ просто не способен решить задачу автономно ни за какое время и человеку нужно придумывать, как преодолёть барьер.

По исследованию MIT начала 2025 года нейросети строго замедляют процесс разработки — и там ни разу не квантованные нейросети на llama.cpp использовались. Я так-то сам немного использую локальный ИИ за пределами простых задач аля «найди фичу в незнакомом коде», я пользуюсь облачными намного больше, но я никогда не передаю им тупо весь код, я лишь ставлю абстрактную задачу и рассматриваю предложения от ИИ, ну типа «какая стоимость cpuid+rdtsc по сравнению с lfence+rdtsc?».

byko3y ★★★★
()
Ответ на: комментарий от Dimez

Сливать кодовую базу проекта облачному сервису?

Ну мне на совершенно серьёзных щщах говорили на это «ачотаковато?»

Проблема людей, которые не работают, но имитируют работу, была всегда, с нейросетями или без. Сейчас она стала актуальнее потому, что нейросети резко выросли, а бороться ними ещё не научились.

Когда работник сливает исходный код облаку, а потом результат работы облака выдаёт за свой труд — это серьёзный саботаж. Но если фирма заботится о безопасности и на рабочем ноуте следят за сливом исходного кода, то тут мы приходим к каноничному способу использования нейросетей — например, написать вопрос нейросети на смартфоне... Вполне возможно, что половина ответа будет придумана уже в процессе печатания запроса.

Так-то я сам в шоке от людей, которые просто берут и заливают исходники на какой-то AWS, мол «да мне удобнее через облако на двух устройствах работать» — тут как бы даже не про ИИ речь идёт.

byko3y ★★★★
()
Ответ на: комментарий от byko3y

и на рабочем ноуте следят за сливом исходного кода

Ты же понимаешь, что гарантировать нераспространение исходного кода с ноутбуков работников невозможно только техническими средствами?

Так-то я сам в шоке от людей, которые просто берут и заливают исходники на какой-то AWS, мол «да мне удобнее через облако на двух устройствах работать» — тут как бы даже не про ИИ речь идёт.

Полностью и бесповоротно согласен.

Dimez ★★★★★
()
Последнее исправление: Dimez (всего исправлений: 1)
Ответ на: комментарий от Dimez

Ты же понимаешь, что гарантировать нераспространение исходного кода с ноутбуков работников невозможно только техническими средствами?

Ну да. Я о том, что если вы наняли непонятно кого, то он вам не только сорцы на сервера OpenAI зальёт, но и ещё куда-нибудь похуже. Комитить ИИ слоп в репу проекта — просто одна из форм. Если кулибины аля автора Artalk напишут вам БД нейросеткой, то непонятно, что потом с вашими данными будет. И так далее.

«Я ничо не понимаю, что тут написано, пусть нейросетка разберётся и исправит код» — это уже полпути к «да пофигу, я уже и так треть кода проекта на облако залил». Лично я не отрицаю пользу ИИ, но у него очень узкий спектр применимости в разработке.

byko3y ★★★★
()