Но чтобы прокатило, надо, чтобы большинство из вводивших это слово, ввели «правильное». Но в любом случае, если я ввожу это «правильное» слово, я не участвую в оцифровке проприетарщины. А чтобы проверить, сработало ли, и надо получить доступ к тем текстам.
>Я думал, что одно слово неизвестно, а второе - уже ранее распознанный кусок n-ым количеством юзеров.
Судя по всему, генератором. Потому что визуально обнаружить то слово, которое нужно ввести для принятия капчи, совсем не сложно.
Если бы тексты были в свободном доступе - то было бы не западло. Для того, чтобы узнать это, я и создал эту тему. А если книги закопиращиваются - то извините.
>and to this day over 300 million people (more than 5% of the world's population!) have helped us digitize content from the New York Times and the Internet Archive.
All materials contained on this site are protected by United States copyright law and may not be reproduced, distributed, transmitted, displayed, published or broadcast without the prior written permission of The New York Times Company or in the case of third party materials, the owner of that content.
Так что в чём-то те, кто вводят «правильное» слово, правы.
Угу, конечно. Связался с теми, кто не все выкладывает в свободный доступ - все, п;%№ц, ты копираст и должен быть уничтожен.
В Internet Archive тексты (в том числе, распозанные с помощью reCaptcha) доступны свободно по лицензиям Creative Commons. Но спонсировать reCaptcha кто-то должен, верно? Ты спонсируешь? Владельцы сайтов спонсируют? Может, учредители www.archive.org могут оплатить в полном объеме сервера и жуткий трафик с reCaptcha? Нет, ведь! NY Times их спонсируют! Так что приходится с ними считаться и часть работы выполнять по их заказу.
Я понимаю, конечно, жуткую НЕНАВИСТЬ к копирастам, но ведь деньги-то учредителям проекта нужны. А для пользователя, в общем, все равно: ему велят решить капчу, он и решает. А кто хочет «поднасрать копирастам» - поднасирайте. Только потом не удивляйтесь, если весь проект закроют. И вы будете решать обычные капчи. С нулем полезной работы.
>Но спонсировать reCaptcha кто-то должен, верно? Ты спонсируешь? Владельцы сайтов спонсируют? Может, учредители www.archive.org могут оплатить в полном объеме сервера и жуткий трафик с reCaptcha?
Пусть баннеры на свой сайт повесят.
И вы будете решать обычные капчи. С нулем полезной работы.
В том и дело, что их как раз удобнее решать. Надо вводить всего 5 символов вместо 10-20, и их человек может безошибочно распознать. А в рекапче часто бывает непонятно, что написано. То ли «m», то ли «rn». То ли «e», то ли «c».
А сейчас вообще рекапча куплена (или в процессе покупки) гуглом, поэтому archive.org скорее всего отпадёт.
Зато появится books.google.com, что тоже неплохо. Свободные книги оттуда тоже можно свободно скачать, а по несвободным хотя бы поиск иногда есть.
А в рекапче часто бывает непонятно, что написано. То ли «m», то ли «rn». То ли «e», то ли «c».
Хм? Так это, скорее всего, и есть нераспознанное слово. Введи то, на что больше похоже, и пусть статистические алгоритмы сами решат. Чаще всего там попадаются нормальные английские слова, которые известно, как пишутся.
И посмотрел я на этих гуглобуках, там скан журнала 1827 года издания запрещено использовать в коммерческих целях, хотя сам текст по-идее уже давно является общественным достоянием. А если я, например, хочу распространить его за вознаграждение (пусть даже символическое) на носителях или в бумажном виде тем, у кого интернета нет. И ещё там написано, что режут автоматические запросы, поэтому за NAT, скорее всего, пользоваться их сервисом, будет невозможно (когда у меня был NAT (4 IP-адреса на всю дерёвню), было невозможно открыть сохранённые копии веб-страниц, и на поисковые запросы часто заставлял вводить капчу).
И ещё лицезния запрещает удалять баннер гугла с каждой страницы. А если я, например, хочу страницу данной книги поместить в учебник по литературе или истории. Как там будет этот баннер смотреться?
Ну э-э... Деньги-то Гуглю нужны, и реКаптчистам - тоже. Кроме того, Google, по-моему, сам платит издателям и авторам за право сканить книги и делать по ним поиск.
И посмотрел я на этих гуглобуках, там скан журнала 1827 года издания запрещено использовать в коммерческих целях, хотя сам текст по-идее уже давно является общественным достоянием.
Не знаю, имеют ли они на это право. Впрочем, скан-то гугловский, сделан за ресурсы Гугла.
А если я, например, хочу распространить его за вознаграждение (пусть даже символическое) на носителях или в бумажном виде тем, у кого интернета нет.
Я точно не знаю, возможно, это попадет в рамки «некоммерческого использования» (типа, ты бумагу продавал или носители).
И ещё там написано, что режут автоматические запросы, поэтому за NAT, скорее всего, пользоваться их сервисом, будет невозможно
Это чисто технический вопрос, он к лицензии отношения не имеют. Не знаю, может, логин поможет? И потом, скачать сами книги (хотя и без поиска) в любом случае можно.
А если я, например, хочу страницу данной книги поместить в учебник по литературе или истории. Как там будет этот баннер смотреться?
Ну, если Гугл имеет право на свои ограничения, то ты не имеешь права без особого разрешения использовать сканы в таких целях. Можешь обратиться к Гуглу, наверное, они разрешат. Но так или иначе, тебе придется в этом учебнике написать, через какие третьи руки получен этот скан и где хранится оригинал.
Одним словом, я лично не наблюдаю сейчас, чтобы издатели книг получали большую пользу от распознанных текстов. Они либо вообще не выкладывают ничего официально в Интернет, либо выкладывают свои оригиналы текстов (ну или только изображения, без текста). А архив Гугла - так ведь до этого архива никакого другого похожего не было. Где ты вообще мог взять сканы западных журналов 1827-го года? На создание такого архива нужны деньги, люди, ресурсы. И вот, он есть. По мне, так это хорошо.
>Ну э-э... Деньги-то Гуглю нужны, и реКаптчистам - тоже.
Для удовлетворения этой потребности не обязательно в добровольно-принудительном порядке использовать людей, которые могут вообще не знать ни о гуглобуках, ни о NY Times, и которым эти распознавания нафиг нужны.
Это чисто технический вопрос, он к лицензии отношения не имеют.
Мне пофигу, почему они дискриминируют пользователей с серым IP, но ФАКт остаётся ФАКтом, они это делают специльно, т.к. технических трудностей для доступа к данному сервису через NAT нету.
Не знаю, может, логин поможет?
Для сохранённых копий веб-страниц не помогал.
Ну, если Гугл имеет право на свои ограничения, то ты не имеешь права без особого разрешения использовать сканы в таких целях.
Раз гугл имеет право ограничивать меня, то я имею право вводить в рекапчу неправильные слова. Я ни с кем никаких контрактов по этому поводу не заключал.