Нейросетей тред

0

2

Знаю, что на ЛОР-чике есть люди, которые ими занимаются. Собственно вопрос к этим людям: в каких областях они этим заняты и откуда берут выборки для обучения. Может есть крупные проекты с большим количеством данных? Знаю про викидату, но там маленькое разнообразие как по мне. Есть что больше?

Ссылка

← Алексей Волин, замминистра Минцифры, счёл блокировки контента неэффективными

Одиннадцать патчей для ext4 →

Я думаю заняться нейросетями. Но мне нужно много денег платить, а знаний 0.

так что мечты, мечты

~~Shulman~~ ☆
(01.11.18 12:11:31 MSK)

Ссылка

cast Sadler, ты единственный запомнился мне интересом к нейросеткам.

peregrine ★★★★★
(01.11.18 12:31:06 MSK) автор топика

Neural Networks (куча всяческих ссылок) ©.

откуда берут выборки для обучения

Из условий задачи: «выборки нужно выбирать, они сами не выберутся».

quickquest ★★★★★
(01.11.18 12:33:44 MSK)

Ответ на: комментарий от quickquest 01.11.18 12:33:44 MSK

Ну смотри, предположим, захочу я научную работу по подавлению помех с помощью нейронных сетей на данных со сканеров роговицы глаза писать и упрусь в то, что данных надо много и все это ПД, что добавит геморроя до невозможного уровня. Вот так со многим. Либо ПД, либо сферические в вакууме данные хрен соберешь. А за ссылку спасибо.

peregrine ★★★★★
(01.11.18 12:44:46 MSK) автор топика
Последнее исправление: peregrine 01.11.18 12:45:11 MSK (всего исправлений: 1)

Занимаюсь, в основном, OCR с сопутствующей обработкой изображений. Выборка накапливалась как побочный продукт деятельности компании за несколько лет.

откуда берут выборки для обучения

https://toolbox.google.com/datasetsearch для более-менее попсовых вещей и ручная разметка для специфических.

ymn ★★★★★
(01.11.18 12:45:48 MSK)

Ссылка

Ответ на: комментарий от peregrine 01.11.18 12:44:46 MSK

данных надо много

Как правило да, но существуют приемы, которые позволяют существенно расширить имеющуюся выборку. Очень сильно зависит от задачи, но жить уже более-менее можно начиная с 500 - 1000 документов в обучающей выборке.

ymn ★★★★★
(01.11.18 12:51:27 MSK)

Ссылка

Ответ на: комментарий от peregrine 01.11.18 12:44:46 MSK

упрусь в то, что данных надо много

Дык, это одна из причин медленного развития нейротехнологий. Даже в твоей голове мозг учится много лет... Но лёгких путей тут нету, искусственно сгенерированные обучающие данные могут давать систематические методические ошибки.

quickquest ★★★★★
(01.11.18 12:52:47 MSK)
Последнее исправление: quickquest 01.11.18 12:54:28 MSK (всего исправлений: 1)

Ссылка

Для меня это хобби, занимаюсь по большей части звуком и пытаюсь что-то делать в графике, хотя уже не успеваю за современным объёмом работ в этой области. Жду, когда допилят Tensorflow под использование Tensor Cores RTX 2080.

В плане фото есть масса готовых датасетов, вроде MSCOCO. Вот, например, список нескольких популярных: https://www.analyticsvidhya.com/blog/2018/03/comprehensive-collection-deep-le... .

Советую брать предобученные модели и доучивать их на своих задачах, это зачастую намного быстрее и снижает вероятность свалиться в переобучение на небольшой выборке. Если данные, конечно, не слишком экзотичны.

Sadler ★★★
(01.11.18 13:02:27 MSK)
Последнее исправление: Sadler 01.11.18 13:06:09 MSK (всего исправлений: 1)

Ответ на: комментарий от peregrine 01.11.18 12:31:06 MSK

Solace вроде ещё.

theNamelessOne ★★★★★
(01.11.18 13:09:10 MSK)

Ссылка

Знаю людей, которые с этим экспериментируют. Области — физхимия, биохимия, обработка сигналов. Большая часть исходных данных — из коммерческих БД, как правило собранных вручную (трудоёмкость — десятки и сотни человеко-лет).

Единственная бесплатная, к которой присматривались — http://www.crystallography.net/cod/

Проблема обучения по справочникам в том, что там обычно каждое вещество встречается 1 раз. А нужно несколько.

olegd ★★★
(01.11.18 15:23:28 MSK)

Ссылка

Собственно вопрос к этим людям: в каких областях они этим заняты и откуда берут выборки для обучения

Видеофиксация нарушений ПДД и сопутствующее, данных у нас завались.

~~WitcherGeralt~~ ★★
(01.11.18 16:45:26 MSK)

Ссылка

в каких областях они этим заняты

Большинство знакомых - в экономических. Банковский скоринг и всякое такое.

Как хобби - тренируются на kaggle, оттуда же и датасеты.

phoen ★★
(01.11.18 19:51:52 MSK)

Ссылка

Ответ на: комментарий от Sadler 01.11.18 13:02:27 MSK

И на сколько 2080 с тенсорными быстрее работает 2080 (если эти ядра не задействовать).

ymuv ★★★★
(03.11.18 05:38:23 MSK)

Ответ на: комментарий от ymuv 03.11.18 05:38:23 MSK

А откуда я могу это знать, если поддержки Tensor cores до сих пор нет? Если просто скомпилить текущий TF с CUDA 10, то раза в полтора быстрее, чем предыдущее поколение. Если судить по официальным характеристикам, с использованием тензорных ядер должно быть раз в 5 быстрее, чем чисто на CUDA.

Sadler ★★★
(03.11.18 13:43:46 MSK)
Последнее исправление: Sadler 03.11.18 13:50:00 MSK (всего исправлений: 1)

Структура реальности такова, что нейросети уже умеют много интересного, но зарабатывать на них пока мало у кого получается. Поэтому атмосфера там примерно та же, что и в академической науке: мало денег и много булщита.

Сам пару лет был «AI ресёрчером» в одной фирме. Приятно перед знакомыми хвастать, а в остальном одни минусы. Денег платят мало, неадеквата много, чёткого бизнес-плана у фирмы нет, коллеги сплошные «дата-саентисты», которые питон по комиксам учили. Ныне забил и работаю обычным девелопером за вдвое больший прайс с 10 до 16 без нервов и с умными коллегами.

Pacmu3ka
(03.11.18 14:11:39 MSK)