LINUX.ORG.RU

История изменений

Исправление Manhunt, (текущая версия) :

Пытаться гадать на втором после запятой знаке непонятных магических коэффициентов распознавания — занятие сомнительное. Нужен какой-то независимый от распознавателя источник оценок. Или лучше несколько *независимых* друг от друга источников. Я бы рассмотрел каждую букву совместно с ее соседями (например, в контексте строки или страницы):

  1. Когда распознаватель букву распознал, он в результате должен был уточнить её расположение в сегменте и размеры. Если он этого не сделал, нужно сделать это самостоятельно, то есть найти best fit модели буквы на конкретные растровые данные. Далее:
    • Геометрические размеры каждой буквы. Обычно в текстах используется несколько типовых размеров, а всё что в них не вписывается — фуфло. Разве что, для первой буквы в абзаце можно исключение делать.
    • Кернинг и всё такое. Если буква расположена относительно других букв абсолютно невменяемым образом, то ну её нафиг.
    • Типовой вид конкретной буквы в конкретном тексте. Если буква «h» уже встречалась в этом тексте 10 раз, то можно составить растровую модель (хотя бы построить частотное распределение яркости каждого пикселя), как обычно буква «h» именно в этом тексте выглядит. Слишком уж атипичные буквы — фуфло.
  2. Людишки из своих никчемных букв обычно составляют какие-то осмысленные тексты, а не просто пишут какие попало буквы в абы каком порядке. Отсюда:
    • Обычно русские и английские буквы разделены пробелами, знаками препинания, или хотя бы числами. Поэтому слово A2 — фуфло.
    • Обычно слова словарные, а если в словаре слова нет, то оно хотя бы слоговую структуру имеет (гласные-согласные чередуются в соответствии с частотными данными для конкретного человеческого языка). За исключением формул, конечно. Поэтому слово A3 — какое-то подозрительное.

Поскольку оценка каждой буквы завит от интерпретации всех остальных букв, то, видимо, для всей страницы придётся сделать несколько итераций (пока суммарная оценка достоверности распознавания всех букв на странице не стабилизируется).

чему ты больше доверяешь из приведённых результатов и почему

Без дополнительных сведений варианты A1, A3 и A4 выглядят равноправными. Для варианта A4 нужно как-то оценить правдоподобность предположения, что в сегментах 2, 3 и 4 ничего не написано.

Исправление Manhunt, :

Пытаться гадать на втором после запятой знаке непонятных магических коэффициентов распознавания — занятие сомнительное. Нужен какой-то независимый от распознавателя источник оценок. Или лучше несколько *независимых* друг от друга источников. Я бы рассмотрел каждую букву совместно с ее соседями (например, в контексте строки или страницы):

  1. Когда распознаватель букву распознал, он в результате должен был уточнить её расположение в сегменте и размеры. Если он этого не сделал, нужно сделать это самостоятельно, то есть найти best fit модели буквы на конкретные растровые данные. Далее:
    • Геометрические размеры каждой буквы. Обычно в текстах используется несколько типовых размеров, а всё что в них не вписывается — фуфло. Разве что, для первой буквы в абзаце можно исключение делать.
    • Кернинг и всё такое. Если буква расположена относительно других букв абсолютно невменяемым образом, то ну её нафиг.
    • Типовой вид конкретной буквы в конкретном тексте. Если буква «h» уже встречалась в этом тексте 10 раз, то можно составить растровую модель (хотя бы построить частотное распределение яркости каждого пикселя), как обычно буква «h» именно в этом тексте выглядит. Слишком уж атипичные буквы — фуфло.
  2. Людишки из своих никчемных букв обычно составляют какие-то осмысленные тексты, а не просто пишут какие попало буквы в абы каком порядке. Отсюда:
    • Обычно русские и английские буквы разделены пробелами, знаками препинания, или хотя бы числами. Поэтому слово A2 — фуфло.
    • Обычно слова словарные, а если в словаре слова нет, то оно хотя бы слоговую структуру имеет (гласные-согласные чередуются в соответствии с частотными данными для конкретного человеческого языка). За исключением формул, конечно.

Поскольку оценка каждой буквы завит от интерпретации всех остальных букв, то, видимо, для всей страницы придётся сделать несколько итераций (пока суммарная оценка достоверности распознавания всех букв на странице не стабилизируется).

чему ты больше доверяешь из приведённых результатов и почему

Без дополнительный сведений варианты A1, A3 и A4 выглядят равноправными. Для варианта A4 нужно как-то оценить правдоподобность предположения, что в сегментах 2, 3 и 4 ничего не написано.

Исправление Manhunt, :

Пытаться гадать на втором после запятой знаке непонятных магических коэффициентов распознавания — занятие сомнительное. Нужен какой-то независимый от распознавателя источник оценок. Или лучше несколько *независимых* друг от друга источников. Я бы рассмотрел каждую букву совместно с ее соседями (например, в контексте строки или страницы):

  1. Когда распознаватель букву распознал, он в результате должен был уточнить её расположение в сегменте и размеры. Если он этого не сделал, нужно сделать это самостоятельно, то есть найти best fit модели буквы на конкретные растровые данные. Далее:
    • Геометрические размеры каждой буквы. Обычно в текстах используется несколько типовых размеров, а всё что в них не вписывается — фуфло. Разве что, для первой буквы в абзаце можно исключение делать.
    • Кернинг и всё такое. Если буква расположена относительно других букв абсолютно невменяемым образом, то ну её нафиг.
    • Типовой вид конкретной буквы в конкретном тексте. Если буква «h» уже встречалась в этом тексте 10 раз, то можно составить растровую модель (хотя бы построить частотное распределение яркости каждого пикселя), как обычно буква «h» именно в этом тексте выглядит. Слишком уж атипичные буквы — фуфло.
  2. Людишки из своих никчемных букв обычно составляют какие-то осмысленные тексты, а не просто пишут какие попало буквы в абы каком порядке. Отсюда:
    • Обычно русские и английские буквы разделены пробелами, знаками препинания, или хотя бы числами. Поэтому слово A2 — фуфло.
    • Обычно слова словарные, а если в словаре слова нет, то оно хотя бы слоговую структуру имеет (гласные-согласные чередуются в соответствии с частотными данными для конкретного человеческого языка). За исключением формул, конечно.

Поскольку оценка каждой буквы завит от интерпретации всех остальных букв, то, видимо, для всей страницы придётся сделать несколько итераций (пока суммарная оценка достоверности распознавания всех букв на странице не стабилизируется).

чему ты больше доверяешь из приведённых результатов и почему

Без дополнительный сведений варианты A1, A3 и A4 выглядят равноправными.

Исходная версия Manhunt, :

Пытаться гадать на втором после запятой знаке непонятных магических коэффициентов распознавания — занятие сомнительное. Нужен какой-то независимый от распознавателя источник оценок. Или лучше несколько *независимых* друг от друга источников. Я бы рассмотрел каждую букву совместно с ее соседями (например, в контексте строки или страницы):

  1. Когда распознаватель букву распознал, он в результате должен был уточнить её расположение в сегменте и размеры. Если он этого не сделал, нужно сделать это самостоятельно, то есть найти best fit модели буквы на конкретные растровые данные. Далее:
    • Геометрические размеры каждой буквы. Обычно в текстах используется несколько типовых размеров, а всё что в них не вписывается — фуфло. Разве что, для первой буквы в абзаце можно исключение делать.
    • Кернинг и всё такое. Если буква расположена относительно других букв абсолютно невменяемым образом, то ну её нафиг.
    • Типовой вид конкретной буквы в конкретном тексте. Если буква «h» уже встречалась в этом тексте 10 раз, то можно составить растровую модель (хотя бы построить частотное распределение яркости каждого пикселя), как обычно буква «h» именно в этом тексте выглядит. Слишком уж атипичные буквы — фуфло.
  2. Людишки из своих никчемных букв обычно составляют какие-то осмысленные тексты, а не просто пишут какие попало буквы в абы каком порядке. Отсюда:
    • Обычно русские и английские буквы разделены пробелами, знаками препинания, или хотя бы числами. Поэтому слово A2 — фуфло.
    • Обычно слова словарные, а если в словаре слова нет, то оно хотя бы слоговую структуру имеет (гласные-согласные чередуются в соответствии с частотными данными для конкретного человеческого языка). За исключением формул, конечно.

Поскольку оценка каждой буквы завит от интерпретации всех остальных букв, то, видимо, для всей страницы придётся сделать несколько итераций (пока суммарная оценка достоверности распознавания всех букв на странице не стабилизируется).