LINUX.ORG.RU

Сообщения gregg128

 

Tesseract 3.00 — новая версия ПО для оптического распознавания текста

Новости — Open Source
Группа Open Source

Программисты компании Google выпустили третью версию Tesseract, системы оптического распознавания текста.

В новой версии добавлена поддержка множества языков, включая русский.

В числе прочих изменений:

  • добавлен новый модуль анализа структуры документа;
  • добавлена поддержка формата HOCR;
  • библиотека Leptonica стала основной для работы с изображениями;
  • переписан код для работы с неоднозначно распознанными символами;
  • удалена поддержка VC++6.

Загрузить можно здесь.

>>> Подробности

 , ,

gregg128
()

HELP! Рекурсивно запросить URL

Форум — Development

Есть странная задачка: нужно выдернуть из файла миллион URL-ов, по одному скормить их сайту (просто http-запрос сделать с этим URL), для каждого такого хттп-запроса убедиться, что сайт ответил, но не дожидаться полного ответа сайта (он будет мегабайт на пять), а проверить, что в первых XYZ байт ответа есть определённое ключевое слово, после чего оборвать соединение.

Чем бы это получше сделать ? Я слишком слабо знаю всякие bash-и и прочее, поэтому прошу помощи.

Спасибо заранее!

gregg128
()

Помогите пжлст скриптики написать

Форум — Development

Добрый день, Пожалуйста расскажите, как можно скриптами решить следующие задачи:

1) в текущем каталоге оставить только изображения размером не менее x точек по верхней стороне, а остальные удалить.

2) Кроп: из всех картинок в данном каталоге вырезать прямоугольник, с координатами левого верхнего угла X точек гориз. и Y точек верт. Правый нижний угол должен совпадать с правым нижним углом страницы, т.е. отрезается только слева и сверху. Про вторую задачу я знаю что что-то подобное делается через convert из ImageMagick, но так как я плохо разбираюсь в скриптах, то написать я ничего толкового не смог :(

Заранее огромное спасибо!

gregg128
()

RSS подписка на новые темы