LINUX.ORG.RU

История изменений

Исправление peregrine, (текущая версия) :

ручками делать сложна, особенно когда есть очепятки и ошипки в тексте. Надо брать хитрые метрики, вроде расстояний слов по левенштейну и ещё усложнять тем, что есть безграмотность, ошибки распознавания и опечатки. Т.е. ИРЛ опечатка на соседнюю клавишу, жы шы и ошибка распознавания похожих букв ближе чем рандомная замена. Так что для начала надо кластеризовать текст по доминирующим в нём ошибкам и с учётом этого мерить расстояния. Правда я не уверен что кто-то это делает сейчас, даже гугл. Но в готовом как-то больше шансов что всё учли.

Исходная версия peregrine, :

ручками делать сложна, особенно когда есть очепятки и ошипки в тексте. Надо брать хитрые метрики, вроде расстояний слов по левенштейну и ещё усложнять тем, что есть безграмотность, ошибки распознавания и опечатки. Т.е. ИРЛ опечатка на соседнюю клавишу, жы шы и ошибка распознавания похожих букв ближе чем рандомная замена. Так что для начала надо кластеризовать текст по доминирующим в нём ошибкам и с учётом этого мерить расстояния. Правда я не уверен что кто-то это делает сейчас, даже гугл.