Тексты, распознанные при помощи reCAPTCHA

Да, тебя имеют для оцифровки проприетарщины

~~simple_best_world_web_master~~
(13.12.09 01:43:34 MSK)

Ответ на: комментарий от simple_best_world_web_master 13.12.09 01:43:34 MSK

Кто кого имеет - вопрос открытый, т.к. http://ba.shorg.ru/thread/abyss/71704

~~Ttt~~ ☆☆☆☆☆
(13.12.09 02:04:54 MSK) автор топика

Ответ на: комментарий от Ttt 13.12.09 02:04:54 MSK

Интересный метод :) Надо будет проверить.

DuskMan
(13.12.09 03:53:57 MSK)

Ответ на: комментарий от DuskMan 13.12.09 03:53:57 MSK

Но чтобы прокатило, надо, чтобы большинство из вводивших это слово, ввели «правильное». Но в любом случае, если я ввожу это «правильное» слово, я не участвую в оцифровке проприетарщины. А чтобы проверить, сработало ли, и надо получить доступ к тем текстам.

~~Ttt~~ ☆☆☆☆☆
(13.12.09 04:48:37 MSK) автор топика

Ссылка

Ответ на: комментарий от Ttt 13.12.09 02:04:54 MSK

Пфф, я уже давно вместо одного из слов ввожу мусор, ибо лень.

Ramen ★★★★
(13.12.09 05:59:55 MSK)

Ссылка

Ответ на: комментарий от Ttt 13.12.09 02:04:54 MSK

Разве там одно из слов сделано генератором?

Я думал, что одно слово неизвестно, а второе - уже ранее распознанный кусок n-ым количеством юзеров.

Waterlaz ★★★★★
(13.12.09 06:16:45 MSK)

Ответ на: комментарий от Waterlaz 13.12.09 06:16:45 MSK

>Я думал, что одно слово неизвестно, а второе - уже ранее распознанный кусок n-ым количеством юзеров.
Судя по всему, генератором. Потому что визуально обнаружить то слово, которое нужно ввести для принятия капчи, совсем не сложно.

Ramen ★★★★
(13.12.09 07:53:30 MSK)

Ссылка

test

Adjkru ★★★★★
(13.12.09 09:49:44 MSK)

Ссылка

Ответ на: комментарий от DuskMan 13.12.09 03:53:57 MSK

>>http://ba.shorg.ru/thread/abyss/71704

Идиотизм. Тогда уж не fuck а рандомное, иначе его просто отсекут.

За красоту идеи всегда распознаю правильно.

mclaudt ☆
(13.12.09 09:57:51 MSK)

Ответ на: комментарий от mclaudt 13.12.09 09:57:51 MSK

тогда большинство юзеров не введут одно и тоже слово

qnikst ★★★★★
(13.12.09 11:44:16 MSK)

Ссылка

Неужели вам всем настолько «западло» правильно ввести слова?

Не нужна мне корова, лишь бы у соседа двух не было.

и эти люди тут рассуждают о своей цивилизованности и превосходством над «пиндосами»

~~sdio~~ ★★★★★
(13.12.09 12:04:46 MSK)

Ответ на: комментарий от Ttt 13.12.09 02:04:54 MSK

гораздо логичнее чем срать в чужой сервис открыть свой с аналогичными функциями.

qnikst ★★★★★
(13.12.09 12:59:34 MSK)

Ссылка

Ответ на: комментарий от sdio 13.12.09 12:04:46 MSK

Если бы тексты были в свободном доступе - то было бы не западло. Для того, чтобы узнать это, я и создал эту тему. А если книги закопиращиваются - то извините.

~~Ttt~~ ☆☆☆☆☆
(13.12.09 15:00:05 MSK) автор топика

>and to this day over 300 million people (more than 5% of the world's population!) have helped us digitize content from the New York Times and the Internet Archive.

http://www.nytimes.com/

http://www.archive.org/index.php

dn2010 ★★★★★
(13.12.09 15:05:45 MSK)

Ответ на: комментарий от dn2010 13.12.09 15:05:45 MSK

>http://www.nytimes.com/

All materials contained on this site are protected by United States copyright law and may not be reproduced, distributed, transmitted, displayed, published or broadcast without the prior written permission of The New York Times Company or in the case of third party materials, the owner of that content.

Так что в чём-то те, кто вводят «правильное» слово, правы.

~~Ttt~~ ☆☆☆☆☆
(13.12.09 15:48:00 MSK) автор топика

Ответ на: комментарий от Ttt 13.12.09 15:48:00 MSK

Угу, конечно. Связался с теми, кто не все выкладывает в свободный доступ - все, п;%№ц, ты копираст и должен быть уничтожен.

В Internet Archive тексты (в том числе, распозанные с помощью reCaptcha) доступны свободно по лицензиям Creative Commons. Но спонсировать reCaptcha кто-то должен, верно? Ты спонсируешь? Владельцы сайтов спонсируют? Может, учредители www.archive.org могут оплатить в полном объеме сервера и жуткий трафик с reCaptcha? Нет, ведь! NY Times их спонсируют! Так что приходится с ними считаться и часть работы выполнять по их заказу.

Я понимаю, конечно, жуткую НЕНАВИСТЬ к копирастам, но ведь деньги-то учредителям проекта нужны. А для пользователя, в общем, все равно: ему велят решить капчу, он и решает. А кто хочет «поднасрать копирастам» - поднасирайте. Только потом не удивляйтесь, если весь проект закроют. И вы будете решать обычные капчи. С нулем полезной работы.

proud_anon ★★★★★
(13.12.09 17:26:56 MSK)

Ответ на: комментарий от Ttt 13.12.09 15:00:05 MSK

А случайно сгенерированную капчу вам значительно приятнее разгадывать, так?

Потому я напомнил: «Не нужна мне корова, лишь бы у соседа двух не было»

~~sdio~~ ★★★★★
(13.12.09 17:37:15 MSK)

Ссылка

Ответ на: комментарий от proud_anon 13.12.09 17:26:56 MSK

>Но спонсировать reCaptcha кто-то должен, верно? Ты спонсируешь? Владельцы сайтов спонсируют? Может, учредители www.archive.org могут оплатить в полном объеме сервера и жуткий трафик с reCaptcha?

Пусть баннеры на свой сайт повесят.

И вы будете решать обычные капчи. С нулем полезной работы.

В том и дело, что их как раз удобнее решать. Надо вводить всего 5 символов вместо 10-20, и их человек может безошибочно распознать. А в рекапче часто бывает непонятно, что написано. То ли «m», то ли «rn». То ли «e», то ли «c».

~~Ttt~~ ☆☆☆☆☆
(13.12.09 17:46:43 MSK) автор топика

Ответ на: комментарий от Ttt 13.12.09 17:46:43 MSK

А сейчас вообще рекапча куплена (или в процессе покупки) гуглом, поэтому archive.org скорее всего отпадёт.

~~Ttt~~ ☆☆☆☆☆
(13.12.09 17:50:10 MSK) автор топика

Ответ на: комментарий от Ttt 13.12.09 17:50:10 MSK

>Пусть баннеры на свой сайт повесят.

И много ли пользователей на сайт reCaptcha ходит?

P.S.Блокировка рекламы у тебя отключена, да?

А сейчас вообще рекапча куплена (или в процессе покупки) гуглом, поэтому archive.org скорее всего отпадёт.

Зато появится books.google.com, что тоже неплохо. Свободные книги оттуда тоже можно свободно скачать, а по несвободным хотя бы поиск иногда есть.

А в рекапче часто бывает непонятно, что написано. То ли «m», то ли «rn». То ли «e», то ли «c».

Хм? Так это, скорее всего, и есть нераспознанное слово. Введи то, на что больше похоже, и пусть статистические алгоритмы сами решат. Чаще всего там попадаются нормальные английские слова, которые известно, как пишутся.

proud_anon ★★★★★
(13.12.09 18:01:45 MSK)

Ответ на: комментарий от proud_anon 13.12.09 18:01:45 MSK

>Хм? Так это, скорее всего, и есть нераспознанное слово.

Нет. Второй вариант ещё более непонятным был.

~~Ttt~~ ☆☆☆☆☆
(13.12.09 19:13:37 MSK) автор топика

Ссылка

Ответ на: комментарий от proud_anon 13.12.09 18:01:45 MSK

>И много ли пользователей на сайт reCaptcha ходит?

А на сайт archive.org?

Зато появится books.google.com, что тоже неплохо. Свободные книги оттуда тоже можно свободно скачать, а по несвободным хотя бы поиск иногда есть.

Ну распознаю же я не только свободные книги.

~~Ttt~~ ☆☆☆☆☆
(13.12.09 19:17:56 MSK) автор топика

Ответ на: комментарий от Ttt 13.12.09 19:17:56 MSK

И посмотрел я на этих гуглобуках, там скан журнала 1827 года издания запрещено использовать в коммерческих целях, хотя сам текст по-идее уже давно является общественным достоянием. А если я, например, хочу распространить его за вознаграждение (пусть даже символическое) на носителях или в бумажном виде тем, у кого интернета нет. И ещё там написано, что режут автоматические запросы, поэтому за NAT, скорее всего, пользоваться их сервисом, будет невозможно (когда у меня был NAT (4 IP-адреса на всю дерёвню), было невозможно открыть сохранённые копии веб-страниц, и на поисковые запросы часто заставлял вводить капчу).

~~Ttt~~ ☆☆☆☆☆
(13.12.09 19:30:34 MSK) автор топика

Ответ на: комментарий от Ttt 13.12.09 19:30:34 MSK

И ещё лицезния запрещает удалять баннер гугла с каждой страницы. А если я, например, хочу страницу данной книги поместить в учебник по литературе или истории. Как там будет этот баннер смотреться?

~~Ttt~~ ☆☆☆☆☆
(13.12.09 22:34:31 MSK) автор топика

Ответ на: комментарий от Ttt 13.12.09 22:34:31 MSK

>А на сайт archive.org?

Сильно меньше, чем пользуется reCaptcha.

Ну распознаю же я не только свободные книги.

Ну э-э... Деньги-то Гуглю нужны, и реКаптчистам - тоже. Кроме того, Google, по-моему, сам платит издателям и авторам за право сканить книги и делать по ним поиск.

И посмотрел я на этих гуглобуках, там скан журнала 1827 года издания запрещено использовать в коммерческих целях, хотя сам текст по-идее уже давно является общественным достоянием.

Не знаю, имеют ли они на это право. Впрочем, скан-то гугловский, сделан за ресурсы Гугла.

А если я, например, хочу распространить его за вознаграждение (пусть даже символическое) на носителях или в бумажном виде тем, у кого интернета нет.

Я точно не знаю, возможно, это попадет в рамки «некоммерческого использования» (типа, ты бумагу продавал или носители).

И ещё там написано, что режут автоматические запросы, поэтому за NAT, скорее всего, пользоваться их сервисом, будет невозможно

Это чисто технический вопрос, он к лицензии отношения не имеют. Не знаю, может, логин поможет? И потом, скачать сами книги (хотя и без поиска) в любом случае можно.

А если я, например, хочу страницу данной книги поместить в учебник по литературе или истории. Как там будет этот баннер смотреться?

Ну, если Гугл имеет право на свои ограничения, то ты не имеешь права без особого разрешения использовать сканы в таких целях. Можешь обратиться к Гуглу, наверное, они разрешат. Но так или иначе, тебе придется в этом учебнике написать, через какие третьи руки получен этот скан и где хранится оригинал.

Одним словом, я лично не наблюдаю сейчас, чтобы издатели книг получали большую пользу от распознанных текстов. Они либо вообще не выкладывают ничего официально в Интернет, либо выкладывают свои оригиналы текстов (ну или только изображения, без текста). А архив Гугла - так ведь до этого архива никакого другого похожего не было. Где ты вообще мог взять сканы западных журналов 1827-го года? На создание такого архива нужны деньги, люди, ресурсы. И вот, он есть. По мне, так это хорошо.

proud_anon ★★★★★
(14.12.09 19:39:12 MSK)

Ответ на: комментарий от proud_anon 14.12.09 19:39:12 MSK

>Ну э-э... Деньги-то Гуглю нужны, и реКаптчистам - тоже.

Для удовлетворения этой потребности не обязательно в добровольно-принудительном порядке использовать людей, которые могут вообще не знать ни о гуглобуках, ни о NY Times, и которым эти распознавания нафиг нужны.

Это чисто технический вопрос, он к лицензии отношения не имеют.

Мне пофигу, почему они дискриминируют пользователей с серым IP, но ФАКт остаётся ФАКтом, они это делают специльно, т.к. технических трудностей для доступа к данному сервису через NAT нету.

Не знаю, может, логин поможет?

Для сохранённых копий веб-страниц не помогал.

Ну, если Гугл имеет право на свои ограничения, то ты не имеешь права без особого разрешения использовать сканы в таких целях.

Раз гугл имеет право ограничивать меня, то я имею право вводить в рекапчу неправильные слова. Я ни с кем никаких контрактов по этому поводу не заключал.

~~Ttt~~ ☆☆☆☆☆
(15.12.09 17:45:21 MSK) автор топика

Ссылка

Похожие темы