LINUX.ORG.RU
ФорумTalks

Польза от капчи


0

0

Ученые приспособили программу CAPTCHA, которая различает компьютеров и людей в Сети, для перевода бумажных текстов, созданных в "докомпьютерную" эпоху, в цифровой формат. Созданная американскими специалистами программа reCAPTCHA при помощи пользователей интернета позволяет расшифровывать тексты с более чем 99 процентной точностью. Как сообщают создатели reCAPTCA в своей статье, опубликованной в журнале Science, к настоящему моменту программа перевела из "аналога" в "цифру" 440 миллионов слов.

Разработанная в Университете Карнеги-Меллона в Питтсбурге программа CAPTHA (от англ. Completely Automated Public Turing test to tell Computers and Humans Apart - полностью автоматизированный публичный тест Тьюринга для различения компьютеров и людей) позволяет определить, кем является пользователь системы: машиной или человеком. Перед выполнением какого-либо действия (например, отправки e-mail-сообщения или регистрации на форуме) CAPTCHA просит пользователя распознать какое-либо слово или набор букв и/или цифр и ввести его с клавиатуры. Для человека подобная операция не составляет труда, однако оптические считывающие устройства, применяемые, например, программами по рассылке спама, часто не справляются с этой задачей.

Интернет-пользователи используют программу CAPTCHA около 200 миллионов раз в день. Исходя из расчета, что на распознавание и ввод одного слова (или набора букв и цифр) у человека, в среднем, уходит 10 секунд, специалисты из Университета Карнеги-Меллона подсчитали, что ежедневно человечество "теряет" около 500 тысяч часов печатного времени. Ученые решили употребить его для оцифровки книжных и газетных архивов.

Первым шагом для перевода бумажных текстов в цифровой формат является их "прочтение" с помощью оптических считывающих устройств. Из-за дефектов, возникших при хранении (например, пожелтения бумаги или расплывания шрифта) сканеры не могут распознать, в среднем, одно слово из пяти. Сомнительные слова расшифровываются вручную. reCAPTCHA перекладывает эту задачу на пользователей Сети. Программа отбирает неопознанные слова и предлагает их интернетчикам вместо обычного набора CAPTCHA. Если три пользователя опознают сомнительное слово одинаково, reCAPTCHA добавляет этот вариант в финальный текст.

Работа программы была протестирована на архивах газеты The New York Times. reCAPTCHA успешно перевела в "цифру" ее подшивку за 1908 год. Сейчас она "взялась" за следующие выпуски. Кроме того, интернет-пользователи с помощью reCAPTCHA оцифровывают книги из архива Internet Archive.

reCAPTCHA - не первая программа, которая использует "фоновую" активность пользователей Сети или их компьютеров для выполнения сложных монотонных действий (принцип распределенных вычислений). Проект SETI использует свободные ресурсы компьютеров пользователей интернета для расшифровки сигналов радиотелескопов. На сайте сlimatprediction.net желающие могут скачать программное обеспечение, которое будет проверять различные математические модели изменения климата и оценивать, как сильно влияют на общую картину небольшие изменения параметров.

http://lenta.ru/news/2008/08/15/recaptcha/_Printed.htm

★★★★

отлично придумано, молодцы!

anonymous
()
Ответ на: комментарий от anonymous

> б[оооо]ян

Это будет боян когда лор подключится к проекту. Мне, как анонимусу, было бы приятнее, если бы от ввода капчи была бы какая-нить польза людям.

anonymous
()

Даже в разделе l-o-r как-то предлагали ввести такую капчу.

anonymous
()
Ответ на: комментарий от anonymous

угу. цитируешь капчу - а там стихи Ахматовой. регистраты сразу к анонимусу начнут по-другому относиться.

anonymous
()
Ответ на: комментарий от maloi

> если бы на ленте.вру вышли бы из анабиоза на пару лет раньше - это был бы не боян

А если бы на ЛОРе.. раньше.. это быол бы боян.. Ы? ;)

Bod ★★★★
() автор топика

Получается, что контроля-то человечности как раз и не происходит? Смысл такой капчи в чем тогда?

home_user ★★★
()
Ответ на: комментарий от home_user

> Получается, что контроля-то человечности как раз и не происходит? Смысл такой капчи в чем тогда?

Где-то была толковая статья.. Сейчас не в состоянии найти. Но смысл был в том, что капча создает трудности _именно человеку_ :) Как защита от роботов она никакая..
В качестве простого примера - есть такая вендовая утиллитка для работы с файл-хостингами USDownloader. В ее базе десятки этих хостингов. Ей даже пресловутые рапидшаровские кошки с собаками на один зуб. А половина ЛОРа на этом обламывалась. Так кто робот? Программа или ЛОРовцы? ;)

Bod ★★★★
() автор топика
Ответ на: комментарий от home_user

Лорчую. Ввод пользователя никак не проверить, это уже не каптча: "Введите правильный текст или GTFO", а собирательство-побирательство-надувательство: "Сами мы не местные, введите нам верный текст, пожалуйста."

anonymous
()

карочи, робаты нас захватят скоро. =(

Nevminoz
()
Ответ на: комментарий от anonymous

Будут организованные флешмобы. Ну что-то вроде: анонимусы договорятся распознавать слово "дом" как слово "***" везде. Вот смеху то будет.

anonymous
()

БОЯН. Кстати, они поделяться с общественностью?

FiXer ★★☆☆☆
()
Ответ на: комментарий от Bod

> USDownloader. В ее базе десятки этих хостингов. Ей даже пресловутые рапидшаровские кошки с собаками на один зуб

Во-первых, у рапиды больше нет каптч. Во-вторых, последние каптчи с рапиды в USD так и не были сломаны (их ломанула хакерская группа из германии).

В-третьих, если бы жадные дети разрабатывающие USD вкладывали энтузиазм не в выкачивание порнухи с файлопомоек, то в Линуксе давно уже была бы самая лучшая распознавалка текста.

anonymous
()

Пользы от капчи именно владельцам сайтов мало, так как она легко обходится путём запускания порносайта, где для просмотра следующей картинки надо будет решить капчу на атакуемом спамерами сайте.

RommeDeSerieux
()

Ну а если миллионы пользователей будут целенаправленно распознавать одно из слов правильно, а другое неправильно?

true
()
Ответ на: комментарий от anonymous

> Во-первых, у рапиды больше нет каптч.

Спасибо, что сообщил ;)

> Во-вторых, последние каптчи с рапиды в USD так и не были сломаны (их ломанула хакерская группа из германии).


Что ты говоришь. Что-то я через короткое время уже качал с рапиды без всяких капч еще до того, как их отменили. И не заморачивался ни собаками, ни кошками..

> В-третьих, если бы жадные дети разрабатывающие USD вкладывали энтузиазм не в выкачивание порнухи с файлопомоек, то в Линуксе давно уже была бы самая лучшая распознавалка текста.


Еще один, решивший что ему кто-то что-то должен? Ты с торрентов тоже исключительно порнуху качаешь? Ну, не буду читать тебе лекцию о ассортименте выкладываемом на всякие я-папки, рапиды и пр. Скажу только, что зачастую гораздо удобнее выложить файл (независимо от размера) на рапиду, чем выкладывать его на торрент-раздачу.

Bod ★★★★
() автор топика
Ответ на: комментарий от Bod

> независимо от размера

Это я погорячился. До 100 Мб. кажется..

Bod ★★★★
() автор топика
Ответ на: комментарий от true

> Ну а если миллионы пользователей будут целенаправленно распознавать одно из слов правильно, а другое неправильно?

Нужно кому-то проверять текст после этого. Что касается преднамеренного искажения - надеюсь, что организовать миллионы во-зло сложнее, чем для доброго дела ;)

Bod ★★★★
() автор топика
Ответ на: комментарий от anonymous

>Будут организованные флешмобы. Ну что-то вроде: анонимусы договорятся распознавать слово "дом" как слово "***" везде. Вот смеху то будет.

эта проблема легко решается - фрагмент текста делится на такие куски, например:

>Знак '>' в начале абзаца выделяет абзац курсивом цитирования)

Зн|ак '>'в нач|але абз|аца выде|ляет аб|зац кур|сивом цитир|ования)

и пользователь вводит два слова, точнее два куска слов

ubuNToo
()
Ответ на: комментарий от Bod

> Что ты говоришь. Что-то я через короткое время уже качал с рапиды без всяких капч еще до того, как их отменили. И не заморачивался ни собаками, ни кошками..

распознание и перебор готовых капч - разные вещи, кошек на рапиде никто сломать не смог.

phasma ★☆
()
Ответ на: комментарий от anonymous

> Лорчую. Ввод пользователя никак не проверить, это уже не каптча

Если в секунду капчу вводят 10 пользователей - можно капчу рассылать нескольким. Если не все ввели одинаково - говорим всем - неправильно ввели и капчу куда-нибудь в очередь, через час пустить.

Legioner ★★★★★
()
Ответ на: комментарий от true

На самом деле плохо другое. Если большинство пользователей поставят спецсофт, который будет коммуницировать между собой и отдавать одинаковые ответы (бессмысленные) на одинаковые капчи - вся идея обломается.

Legioner ★★★★★
()

Интересно, а как будет проверяться самый первый пользователь, который вводит символы с картинки, если система еще сама не знает, что на картинке?

lexius ★★
()

Спамеры уже давно так делают

Quasar ★★★★★
()
Ответ на: комментарий от lexius

Блин, не только лентуру читать нужно. Предлагается 2 слова - 1 известное машине, другое нет. Пользователь вводит 2. Если неправильно известное - вся капча не защитывается. Иначе второе записывается как потенциально распознаное. В случае совпадения распознгований от нескольких пользователей, слово считается окончательно распознаным.

anonymous
()

сдается мне, на ленте бойцы почитали ct за август месяц - там про капчи статья была здоровая, про reCAPTCHA в том числе.

зы. кстати ct - очень милый журнальчик оказался. у нас (в России) пока что 4й номер вышел, ребята пишут толково и по делу, про linux в том числе, всем кто любит подобную прессу - настоятельно рекомендую.

Darwin
()
Ответ на: комментарий от Legioner

>На самом деле плохо другое. Если большинство пользователей поставят спецсофт, который будет коммуницировать между собой и отдавать одинаковые ответы (бессмысленные) на одинаковые капчи - вся идея обломается.

Против такой подлости :) можно применить следующий метод: кусок текста разбивается на буквы, затем они перемешиваются на сервере по нескольким разным алгоритмам и отдаются на распознавание флешмоберам.

например:

>лунное затмение

1. луатз нниеоемен

2. тмоеннлу ениеза

3. и т.д...

потом распознанные буквы перемешиваются по "обратному" алгоритму...

Правда, могут возникнуть трудности с вычислительными мощностями серверов капчи. Ну и надо опеспечивать, чтобы флешмоберы не "взломали" алгоритмы перестановки букв (символов) для каждой конкретной капчи, хотя имхо если информация о них хранится на сервере - это невозможно.

ubuNToo
()

С удивлением обнаружил, как мало местных обитателей правит статьи на lurkmore.ru :D

KRoN73 ★★★★★
()
Ответ на: комментарий от Legioner

>Если в секунду капчу вводят 10 пользователей - можно капчу рассылать нескольким. Если не все ввели одинаково - говорим всем - неправильно ввели и капчу куда-нибудь в очередь, через час пустить.

То есть я ставлю бота, который в ответ на капчи даёт бессмысленный текст, и все пользователи ресурса обламываются? Гениальная идея.

anonymous
()
Ответ на: комментарий от lexius

>Интересно, а как будет проверяться самый первый пользователь, который вводит символы с картинки, если система еще сама не знает, что на картинке?

Его, скорее всего, пропускают без проверки. А также второго, третьего и так до тех пор, пока три одинаковых ответа не наберётся.

Дибо распознавать неизвестное заставляют факультативно, впридачу к уже осиленному.

Короче, как капча это совершенно негодная вещь.

anonymous
()
Ответ на: комментарий от anonymous

Народ, если лениво ссылку изучать, хотя бы тему перед ответом читайте.

...

Система работает давно и работает отлично. И очень вандалоустойчива.

KRoN73 ★★★★★
()
Ответ на: комментарий от KRoN73

> С удивлением обнаружил, как мало местных обитателей правит статьи на lurkmore.ru :D

за пределами ЛОРа жизни нет и точка ·

sid350 ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.