LINUX.ORG.RU

История изменений

Исправление peregrine, (текущая версия) :

Ну так нырять надо во всё это. Сам по себе уровень не поднимется. Можешь учиться пойти в магу на биг дату, там тебе разжуют как смогут, но дадут что-то похожее пилить, с аудио, например, у меня трудность в том, как его представить для нейросети, надо читать сначала, т.е. я сходу не слеплю. И не стесняйся искать статьи на английском и русском по применении ML-я в твоей задаче. Скорее всего кто-то уже делал что-то похожее, может хуже, а может и лучше. Готовый код не надо, надо понимать что и как происходит. Я подумаю и накидаю в тред то, что критически важно понимать чтобы big data изучать.

Пока на первой мысли это следующие вопросы:

1. Какие функции активации есть у нейронов? Какие особенности есть у этих функций, что такое область чувствительности? Когда 0 это очень-очень плохо, а когда просто плохо? А 1?

2. Сколько выходов должно быть у нейросети? А сколько входов? По какой формуле считать количество нейронов для выхода?

3. Что такое автокодировщик и каскадирование? Как это связано с deep learning? А какие другие примеры каскадирования, кроме глубинных нейронных сетей есть в ML? Почему глубинная нейронка лучше, чем «плоская»/однослойная, ведь формально однослойная может быть научена точно так же, как и глубокая? Как выбрать количество нейронов внутри сети? Что такое нейронный газ? Обучение с учителем и без учителя.

4. Регрессия, деревья решений, симплекс метод, кластеризация, карты Кохонена. Что такое векторное пространство признаков? Какие проблемы есть у кластеризации? Как правильно генерировать синтетические данные для обучения? Что можно делать с пространством признаков, чтобы улучшить кластеризацию и как понять что нужно?

5. Генетические алгоритмы. Нечёткая логика.

6. ТАУ. Понятие сходимости. Ошибки. (Вроде само по себе не ML, но понимать надо).

7. Байесовский наивный классификатор.

8. Марковские сети, марковские цепи, скрытые марковские модели.

9. Свёрточная нейронная сеть.

10. Жадные алгоритмы

11. Даталейк, витрина данных.

12. Немного полезных технологий (SQL, Python)

13. Полезный софт: OpenRefine (серьёзная штука), Deductor, Loginom (это отечественные продукты, для обучения не так уж и плохи, проприетарщина, для обучения бесплатно ЕМНИП, да и потыкать можно данные через них для начала). Jupyter Notebook (серьёзная штука).

Да, я могу по каждому из вопросов что-то рассказать или дать ссылку на то, где рассказано так как мне нравится, но лучше почитай википедию для начала, что будет непонятно, можешь спрашивать, мне тренировка в теории не помешает.

Исходная версия peregrine, :

Ну так нырять надо во всё это. Сам по себе уровень не поднимется. Можешь учиться пойти в магу на биг дату, там тебе разжуют как смогут, но дадут что-то похожее пилить, с аудио, например, у меня трудность в том, как его представить для нейросети, надо читать сначала, т.е. я сходу не слеплю. И не стесняйся искать статьи на английском и русском по применении ML-я в твоей задаче. Скорее всего кто-то уже делал что-то похожее, может хуже, а может и лучше. Готовый код не надо, надо понимать что и как происходит. Я подумаю и накидаю в тред то, что критически важно понимать чтобы big data изучать.

Пока на первой мысли это следующие вопросы:

1. Какие функции активации есть у нейронов? Какие особенности есть у этих функций, что такое область чувствительности? Когда 0 это очень-очень плохо, а когда просто плохо? А 1?

2. Сколько выходов должно быть у нейросети? А сколько входов? По какой формуле считать количество нейронов для выхода?

3. Что такое автокодировщик и каскадирование? Как это связано с deep learning? А какие другие примеры каскадирования, кроме глубинных нейронных сетей есть в ML? Почему глубинная нейронка лучше, чем «плоская»/однослойная, ведь формально однослойная может быть научена точно так же, как и глубокая? Как выбрать количество нейронов внутри сети? Что такое нейронный газ? Обучение с учителем и без учителя.

4. Регрессия, деревья решений, симплекс метод, кластеризация, карты Кохонена. Что такое векторное пространство признаков? Какие проблемы есть у кластеризации? Как правильно генерировать синтетические данные для обучения? Что можно делать с пространством признаков, чтобы улучшить кластеризацию и как понять что нужно?

5. Генетические алгоритмы. Нечёткая логика.

6. ТАУ. Понятие сходимости. Ошибки. (Вроде само по себе не ML, но понимать надо).

7. Байесовский наивный классификатор.

8. Марковские сети, марковские цепи, скрытые марковские модели.

9. Свёрточная нейронная сеть.

10. Жадные алгоритмы

11. Даталейк, витрина данных.

12. Немного полезных технологий (SQL, Python)

13. Полезный софт: OpenRefine (серьёзная штука), Deductor, Loginom (это отечественные продукты, для обучения не так уж и плохи, проприетарщина, для обучения бесплатно ЕМНИП, да и потыкать можно данные через них для начала). Jupyter Notebook (серьёзная штука).