LINUX.ORG.RU

История изменений

Исправление peregrine, (текущая версия) :

Кури машинное обучение. Если langdetect (наивный байес с улучшениями) тебе недостаточно хорош, то придётся самому велосипедить, а на чём будет основано твоё определение языка это отдельная история, есть SVM, есть нейронки, есть словари, есть fuzzy logick, есть деревья решений и леса деревьев решений, а есть генетические алгоритмы (список того что можно употребить для решения этой задачи далеко не полный). Что будет лучше работать и на основе чего надо строить грамотную систему это очень сложная задача, которая требует опыта, кучи знаний и времени. Для начала попробуй потыкать каждую базовую модель, посмотри результаты, посчитай F-меру, оцени что тебе важнее охват или точность, выбери хороший по скорости/точности алгоритм и пляши вокруг него. Адекватная модель, решающая задачу классификации будет у тебя через год примерно или 2 если всё плохо, если ты плотненько ей займёшься параллельно раскуривая предметную область, статьи на тему и теорию, учитывая твою глубину постановки вопроса.

Исправление peregrine, :

Кури машинное обучение. Если langdetect (наивный байес с улучшениями) тебе недостаточно хорош, то придётся самому велосипедить, а на чём будет основано твоё определение языка это отдельная история, есть SVM, есть нейронки, есть словари, есть fuzzy logick, есть деревья решений и леса деревьев решений, а есть генетические алгоритмы (список того что можно употребить для решения этой задачи далеко не полный). Что будет лучше работать и на основе чего надо строить грамотную систему это очень сложная задача, которая требует опыта, кучи знаний и времени. Для начала попробуй потыкать каждую базовую модель, посмотри результаты, посчитай F-меру, оцени что тебе важнее охват или точность, выбери хороший по скорости/точности алгоритм и пляши вокруг него. Адекватная модель, решающая задачу классификации будет у тебя через год примерно, если ты плотненько ей займёшься параллельно раскуривая предметную область, статьи на тему и теорию, учитывая твою глубину постановки вопроса.

Исходная версия peregrine, :

Кури машинное обучение. Если langdetect (наивный байес с улучшениями) тебе недостаточно хорош, то придётся самому велосипедить, а на чём будет основано твоё определение языка это отдельная история, есть SVM, есть нейронки, есть словари, есть fuzzy logick, есть деревья решений и леса деревьев решений, а есть генетические алгоритмы. Что будет лучше работать и на основе чего надо строить грамотную систему это очень сложная задача, которая требует опыта, кучи знаний и времени. Для начала попробуй потыкать каждую базовую модель, посмотри результаты, посчитай F-меру, оцени что тебе важнее охват или точность, выбери хороший по скорости/точности алгоритм и пляши вокруг него. Адекватная модель, решающая задачу классификации будет у тебя через год примерно, если ты плотненько ей займёшься параллельно раскуривая предметную область, статьи на тему и теорию, учитывая твою глубину постановки вопроса.