История изменений
Исправление peregrine, (текущая версия) :
Вопрос в повторяемости. А то я когда писал свою статью по машинному обучению, то смотрел на результаты товарищей из-за бугра (США, Испания, Германия) и как на их датасетах и данных проверял описанные ими алгоритмы с целью усовершенствования, так и на своих, которые сам собрал. Так вот, и немцы (очень сильно «исправили» датасет, удалив всё что вносит смущение) и испанцы (нагло написали цифры от балды) сильно наврали касательно заявленной точности их моделей, которая у них лучше чем у американцев получилась (на самом деле нифига не лучше). Я посидел, покумекал и всё же сделал лучше, но пришлось придумывать чем можно обогатить датасет чтобы стало лучше, потому что чисто на алгоритмах ну 70% точности в 75% можно превратить увеличив время обучения с суток до пары месяцев (при условии что хорошо бы раз в неделю всё перелопачивать, поскольку процесс меняется во времени быстро), а после грамотного обогащения которое позволило вычислить совсем не релевантные признаки и найти новые релевантные признаки время обучения упало до 6 часов на той же машине, а точность поднялась до 85%. Да точность фиговая, но такая уж задача решалась что там шумов много и рандом сильно влияет.
Исходная версия peregrine, :
Вопрос в повторяемости. А то я когда писал свою статью по машинному обучению, то смотрел на результаты товарищей из-за бугра (США, Испания, Германия) и как на их датасетах и данных проверял описанные ими алгоритмы с целью усовершенствования, так и на своих, которые сам собрал. Так вот, и немцы и испанцы сильно наврали касательно заявленной точности их моделей, которая у них лучше чем у американцев получилась (на самом деле нифига не лучше). Я посидел, покумекал и всё же сделал лучше, но пришлось придумывать чем можно обогатить датасет чтобы стало лучше, потому что чисто на алгоритмах ну 70% точности в 75% можно превратить увеличив время обучения с суток до пары месяцев (при условии что хорошо бы раз в неделю всё перелопачивать, поскольку процесс меняется во времени быстро), а после грамотного обогащения которое позволило вычислить совсем не релевантные признаки и найти новые релевантные признаки время обучения упало до 6 часов на той же машине, а точность поднялась до 85%. Да точность фиговая, но такая уж задача решалась что там шумов много и рандом сильно влияет.