LINUX.ORG.RU

Датасеты для нейросетей

 , датасеты,


0

1

Собственно разыскивается САБЖ, хочется именно под нейросети (не регрессия, не рэндом форесты и так далее, нейронкам нужно больше данных для обучения, на маленьких наборах рулят более простые алгоритмы). Желательно не про картинки (в картинках жестко рулит CNN и его модификации). Хочется чего-то качественного но не слишком сложного для сети (в то же время чтоб объём данных для обучения был достаточно большой), чтоб протестировать разные архитектуры сетей и проверить пару гипотез, но в то же время не упереться в объёмы видеопамяти. В идеале хотелось бы чего-то простенького, что может уложиться в 5-6 гигов видеопамяти в плане модели сети на раннем этапе (нет мне не надо достигать 99% точности, мне важнее узнать что способом a я достиг 75% точности затратив n часов обучения, а способом b я достиг 80% точности, затратив m часов обучения при одинаковых или похожих объёмах видеопамяти), если будет понятно, что гипотезы будут подтверждены, то там уже можно и машинку арендовать и делать что-то интересное и практическое. В общем, ищется аналог Lena.jpg но под нейронки, чем универсальней, тем лучше. На kaggle смотрел, но там слишком много датасетов, а хочется чего-то эталонного, так что хочу послушать предложения ЛОР-овцев.

PS

Интересные датасеты с интересными задачами тоже рассматриваются, но в приоритете эталонные датасеты.

PPS

Лучше чтоб мне не было нужды чистить и преобразовывать данные, это отдельная задача, которая на данный момент мне не требуется.

★★★★★

Последнее исправление: peregrine (всего исправлений: 2)

хочется чего-то эталонного

кек, такой эталон даже сбер не осилил собрать всем колхозом... им на конфе задали вопрос типа как они валидировали данные для обучения, чувак позорно слился (а потом удивляетесь почему гигачат такое говно)

Lordwind ★★★★★
()
Ответ на: комментарий от Lordwind

сбер понятно что не осилит, публично. Потому как корпорасты скачают флибусту или либген в случае США корпорастов и будут на ней нейронки учить. Но признаться в этом нельзя (по тому как украденных текстов там на миллионы или даже на миллиарды рублей уж точно, а может и долларов).

anonymous
()
Ответ на: комментарий от cobold

Угу, чёт про них сразу не подумал. Но там помойные датасеты сгенерированные чат гопотой и фильтра толкового нет. Чтоб эту ИИ выжимку из выдачи убрать.

peregrine ★★★★★
() автор топика
Последнее исправление: peregrine (всего исправлений: 1)

но в приоритете эталонные датасеты.

Надо будет статью написать по датасетам, которыми я пользовался в процессе изучения нейросетей. Руки не доходят :)

Пока подкину 2-3 датасета.

Если из совсем простого и классически-эталонного, то начни с датасета MNIST - где скачать и как использовать найдёшь в гугле. Это датасет с образцами рукописного написания цифр. Картинки там ч/б 28x28 пикселей (или какое-то другое разрешение точно не помню). Составлен был в начале 90-х, выюзан всеми кому не лень вдоль и поперёк :) Не официально называется иногда «цифровой дрозофиллой» по аналогии со значением этой мушки для биологов. Для работы с ним хватит 5-6 Гб VRAM и даже менее 1 Гб хватит для интересных результатов.

Есть ещё относительно недавно составленный AudioMNIST с аудиофайлами с образцами произнесения различными дикторами (спикерами в терминологии) отдельных цифр. https://github.com/soerenab/AudioMNIST Это уже по затратам RAM для интересных результатов посуровее, но в принципе в 8Гб должно уложиться.

Есть датасет ImageNet https://www.image-net.org с картинками разных объектов, с распознавания которых с ошибкой менее 17% началась нейровесна в 2012-м. Тогда использовали 4 видюхи GTX 580 с 2 Гб VRAM, тренировали на них емнип неделю. Сейчас для той точности одной должно хватить в течение суток. Но чтобы его выкачать есть некоторые сложности. Надо регистрироваться или на ImageNet или на kaggle https://www.kaggle.com/competitions/imagenet-object-localization-challenge/data и принимать лицензии (не применять для коммерческих целей итд) Причём для полного датасета (с миллионом картинок) там емнип дополнительные сложности.

Отдельно замечу по поводу масштабирования достижений при тренировке нейросети. Далеко не всегда можно взять accuracy простым увеличением сложности и количества эпох. Я бы даже сказал, что для каждой архитектуры есть предел, то есть, например, для чего-то легко достигнешь 75%, хорошо поднатужившись 80%, а уже 85% - обломись, хоть ферму из тысячи H200 гоняй месяц.

anonymous_incognito ★★★★★
()
Последнее исправление: anonymous_incognito (всего исправлений: 2)