LINUX.ORG.RU

История изменений

Исправление peregrine, (текущая версия) :

Лично мне OCR пилить интересно, например, но я через ML хочу, а значит мне датасет нужен для начала, поди его найди в опенсорсе и для разных языков с разными шрифтами. На английском и немецком есть, а на русском уже всё плохо, а опенсорс это значит что и данные должны быть не серые или вообще ворованные, а белые, на которые в явном виде есть разрешение. А таких в природе нету. Вот и выходит что наукоёмкий опенсорс писать сложно.

ЗЫ

Для начала с сегментацией текста хотя бы.

Исходная версия peregrine, :

Лично мне OCR пилить интересно, например, но я через ML хочу, а значит мне датасет нужен для начала, поди его найди в опенсорсе и для разных языков с разными шрифтами. На английском и немецком есть, а на русском уже всё плохо, а опенсорс это значит что и данные должны быть не серые или вообще ворованные, а белые, на которые в явном виде есть разрешение. А таких в природе нету. Вот и выходит что наукоёмкий опенсорс писать сложно.