История изменений
Исправление peregrine, (текущая версия) :
Кури машинное обучение. Если langdetect (наивный байес с улучшениями) тебе недостаточно хорош, то придётся самому велосипедить, а на чём будет основано твоё определение языка это отдельная история, есть SVM, есть нейронки, есть словари, есть fuzzy logick, есть деревья решений и леса деревьев решений, а есть генетические алгоритмы (список того что можно употребить для решения этой задачи далеко не полный). Что будет лучше работать и на основе чего надо строить грамотную систему это очень сложная задача, которая требует опыта, кучи знаний и времени. Для начала попробуй потыкать каждую базовую модель, посмотри результаты, посчитай F-меру, оцени что тебе важнее охват или точность, выбери хороший по скорости/точности алгоритм и пляши вокруг него. Адекватная модель, решающая задачу классификации будет у тебя через год примерно или 2 если всё плохо, если ты плотненько ей займёшься параллельно раскуривая предметную область, статьи на тему и теорию, учитывая твою глубину постановки вопроса.
Исправление peregrine, :
Кури машинное обучение. Если langdetect (наивный байес с улучшениями) тебе недостаточно хорош, то придётся самому велосипедить, а на чём будет основано твоё определение языка это отдельная история, есть SVM, есть нейронки, есть словари, есть fuzzy logick, есть деревья решений и леса деревьев решений, а есть генетические алгоритмы (список того что можно употребить для решения этой задачи далеко не полный). Что будет лучше работать и на основе чего надо строить грамотную систему это очень сложная задача, которая требует опыта, кучи знаний и времени. Для начала попробуй потыкать каждую базовую модель, посмотри результаты, посчитай F-меру, оцени что тебе важнее охват или точность, выбери хороший по скорости/точности алгоритм и пляши вокруг него. Адекватная модель, решающая задачу классификации будет у тебя через год примерно, если ты плотненько ей займёшься параллельно раскуривая предметную область, статьи на тему и теорию, учитывая твою глубину постановки вопроса.
Исходная версия peregrine, :
Кури машинное обучение. Если langdetect (наивный байес с улучшениями) тебе недостаточно хорош, то придётся самому велосипедить, а на чём будет основано твоё определение языка это отдельная история, есть SVM, есть нейронки, есть словари, есть fuzzy logick, есть деревья решений и леса деревьев решений, а есть генетические алгоритмы. Что будет лучше работать и на основе чего надо строить грамотную систему это очень сложная задача, которая требует опыта, кучи знаний и времени. Для начала попробуй потыкать каждую базовую модель, посмотри результаты, посчитай F-меру, оцени что тебе важнее охват или точность, выбери хороший по скорости/точности алгоритм и пляши вокруг него. Адекватная модель, решающая задачу классификации будет у тебя через год примерно, если ты плотненько ей займёшься параллельно раскуривая предметную область, статьи на тему и теорию, учитывая твою глубину постановки вопроса.