LINUX.ORG.RU

YaCy и QLua

 , , , ,


0

2

На скриншоте показано состояние поиска после нескольких нажатий на кнопку "Искать ещё".
В целом поисковик работает шустро, субъективно ищет даже чуть быстрее обычных поисковиков.
Характеристики компа следующие:

  • AMD Athlon(tm) II X2 260 Processor ** cpu MHz: 3199.947
  • MemTotal: 4032808 kB
  • Device: Radeon RX 560 Series (POLARIS11, DRM 3.36.0, 5.6.0-0.bpo.2-amd64, LLVM 7.0.1)

Я его только что запустил, поискал postgresql,nginx,порно всё ищется быстро, видимых недостатков пока не заметил.

По запросу quik qlua поначалу он работал долго и сильно нагрузил компьютер, но в конце концов нашёл немного правильных результатов, сейчас я поставил на индексирование https://k-pavel.ru/category/qlua-kvik/ , в данный момент сайт уже немного проиндексировался, количество выдаваемой информации увеличилось с одной до семи страниц поисковика и поисковик теперь на запрос отвечает быстро.

Думаю что и вам стоит поставить к себе этот поисковик и попробовать запустить поиск quik qlua и так как источником основной массы индекса сайта k-pavel.ru сейчас являюсь только я то это должно позволить оценить и общую работу сети, и её работу с нодами находящимися за NAT, так как мой кухонный компьютер сейчас находится именно за ним.
(Должен работать, потому что YaCy умеет в UPnP)
Ну и конечно же отпишитесь здесь о своих результатах, то есть как у вас отражается в выдаче сайт k-pavel.ru.
так же можете посмотреть и другие сайты которые я в той или иной мере сейчас индексирую:

Уточнение_1: На индексирование лучше всего ставить только доменное имя сайта, так как тогда он проиндексируется более полноценно.
Уточнение_2: Для более полной индексации надо увеличить глубину индексирования.
Уточнение_3: помимо установки задачи индексирования так же надо запускать индексирование в мониторе индексирования.

Ну и вообще настроек много и для хорошей работы их надо изучать.

Уточнение_4: чтобы проиндексировать быстрее имеет смысл поставить глубину индексирования на единицу, но в поле шаблона для неограниченной глубины индексирования указать используемый корневой адрес и ещё внизу страницы снять галку индексирования медиафайлов, если что то доиндексировать на большую глубину и медиафайлы можно и потом, путём удаления и повторной установки задания с другими опциями.
(к сожалению задания в очереди нельзя отредактировать)

КАРАУЛ !!! YaCy через UPnP занимает порт на роутере и даёт доступ всему интернету по http!
Как это отключить я пока не понял, но на вкладке "Учётные записи" можно запретить вход без указания имени и пароля.
И я нашёл какаю то галку которая вроде как включает htpps, но тогда YaCy пишет что порт закрыт.

>>> Просмотр (1920x1080, 938 Kb)

★★★★★

Проверено: Shaman007 ()

из недостатков вижу только отсутствие возможности указать язык разыскиваемого материала.

/language/<двухбуквенный код ISO 639-1>

Конечно, язык слов она будет не угадывать.

AVRS ()
Последнее исправление: AVRS (всего исправлений: 1)
Ответ на: комментарий от AVRS

Галка в интерфейсе появилась после индексирования русскоязычных страниц(ну или я её просто не заметил).
Сейчас я текст поправил.

torvn77 ★★★★★ ()
Последнее исправление: torvn77 (всего исправлений: 1)
Ответ на: комментарий от torvn77

До начала поиска на странице поиска под полем есть ссылка типа «more options», там перечислено.

AVRS ()

Уточнение: На индексирование лучше всего ставить только доменное имя сайта, так как тогда он проиндексируется более полноценно.

Это ты ещё /CrawlStartExpert.html не видел.

С ростом базы данных программа требует всё больше памяти, и в конце концов перестаёт работать или, по крайней мере, быть доступной. Тогда надо её прибить скриптом killYACY.sh (остановить stopYACY.sh уже не получится), и в DATA/SETTINGS/yacy.conf увеличить несколько лимитов. Как уменьшить базу, не удаляя просто что попало и не выбирая вручную, надо поискать на форуме (может, написали), так как «Autoregulate» для лимита дискового пространства не очень помогает (не знаю, что означает «cut away too large RWIs», я ничего не заметил, а кэш у меня не на SSD, так что его-то лучше бы удалять последним).

AVRS ()
Последнее исправление: AVRS (всего исправлений: 4)
Ответ на: комментарий от AVRS

Скажи пожалуйста, а почему YaCy в шаблоне запрещённых URL не принимает & или &&, хотя принимает | или ||?

То есть вот это у меня относительно URL https://www.linux.org.ru/tracker/?offset=50 проходит:

(((.*.jsp.*)||(.*?cid=.*)||(.*ru/tracker/.*)||(.*ru/forum/lenta/.*)||(.*/history.*))|(https://www.linux.org.ru/.*))

А вот это не проходит:

(((.*.jsp.*)||(.*?cid=.*)||(.*ru/tracker/.*)||(.*ru/forum/lenta/.*)||(.*/history.*))&(https://www.linux.org.ru/.*))

хотя по отдельности оба операнда И проходят, то есть являются истинными.

torvn77 ★★★★★ ()
Последнее исправление: torvn77 (всего исправлений: 3)
Ответ на: комментарий от torvn77

Я в этом не разбираюсь, про операнд «||» не знал. Раз столько скобок, то почему бы не поставить https://www.linux.org.ru/.* в начало?

А ты там имел в виду вопросительный знак, а не атом «.*?»? У меня в списке есть конструкция вроде «.*linux.org.ru/.*cid=.*», потому что, ЕМНИП, с «?» никак не получилось.

AVRS ()
Ответ на: комментарий от AVRS

почему бы не поставить https://www.linux.org.ru/.* в начало?

Первоначально я так делал, но потом поставил в конец в надежде что если первой будет вычисляться наиболее проверенная часть то глюка не произойдёт, но он всё равно получался.

А ты там имел в виду вопросительный знак, а не атом «.*?»?

По идее это раскладывается так:
.* ?cid= .*

Но ты прав, я тоже заметил что эта часть правила не срабатывала, но я думаю что это можно решить проще приведя запись к виду:
(.*\?cid=.*)

На досуге опробую.

Я в этом не разбираюсь, про операнд «||» не знал.

просто выучи логические операнды, это стоит сделать хотя бы потому что они видимо одинаковы везде, начиная с простого bash.
(Тут обратная ситуация, операнды из одиночных & и | я сейчас впервые увидел, до этого я встречал только двойные && и ||.

torvn77 ★★★★★ ()
Последнее исправление: torvn77 (всего исправлений: 2)
Ответ на: комментарий от AVRS

Нет дело именно в &
((.*.jsp.*)||(.*.jsp.*)) - работает.

((.*.jsp.*)&&(.*.jsp.*)) - сбоит.

А «https://»-то вообще работает?

проверил изменением буквы в образце, шаблон работает как надо.

torvn77 ★★★★★ ()
Последнее исправление: torvn77 (всего исправлений: 1)
Ответ на: комментарий от AVRS

Там про логические операции вообще ничего внятного не написано.
Я произвёл поиск информации по операции И в java,
первые две ссылки говорят что такая операция есть и
обозначается именно так & и && :
https://duckduckgo.com/?q=java+логическое+И

Видимо паттерн языка java не совсем паттерн языка java.

torvn77 ★★★★★ ()
Последнее исправление: torvn77 (всего исправлений: 5)
Ответ на: комментарий от AVRS

И похоже на то, что И в регулярных выражениях нет.

Хотя там выше есть поле "должно обязательно включать", но оно не может собой полностью заменить операцию И, потому что не будет увязывать операторы в строке отрицания непосредственно с собой.

torvn77 ★★★★★ ()
Последнее исправление: torvn77 (всего исправлений: 2)

@AVRS, как я полагаю ты и сам пользуешся YaCy, можешь проверить как в сети присутствует индекс ЛОРа, cnc-club.ru и k-pavel.ru ?
индексы конечно частичные, но их должно хватить на то чтобы понять, попали мои индексы в сеть или нет и насколько это всё работает.

Опеннет я пока очень уж не индексировал, так что его можно не проверять.

torvn77 ★★★★★ ()

quik qlua

Пишет 1-9 of 9, но показывает только 5. А до этого было больше.

Что-то качает, грузит ядра, но больше не находит. Странноватая штука.

xaizek ★★★★★ ()
Ответ на: комментарий от xaizek

Нажимать её повторно надо только после того как закончится поиск и она поменяется на "Search Again".

Ладно, попробуй мне сказать про какойнибудь заведомо редкий, но тем не менее имеющийся индекс.

torvn77 ★★★★★ ()
Последнее исправление: torvn77 (всего исправлений: 1)
Ответ на: комментарий от torvn77

А, это не очевидно, так как нету индикации процесса.

Ладно, попробуй мне сказать про какойнибудь заведомо редкий, но тем не менее имеющийся индекс.

Не понял.

xaizek ★★★★★ ()
Ответ на: комментарий от xaizek

Ну например результат поиска по словам quik qlua до того, как я их проиндексировал были именно таким, как ты его увидел, сейчас через некоторое время если всё хорошо до тебя должен дойти мой индекс и у тебя будет около семи страниц.

В общем скажи мне тоже какие нибудь слова на которые есть достаточно редкий индекс.

torvn77 ★★★★★ ()
Последнее исправление: torvn77 (всего исправлений: 1)

Классно. Из серии ‘скомпилируйте вирус чтоб он заразил ваш компьютер’. Чтоб найти результат в поиске нужно сначала его туда добавить. Эдакий поиск по закладкам, который жрет процессор

mrdeath ★★★★★ ()
Ответ на: комментарий от mrdeath

Классно. Из серии ‘скомпилируйте вирус чтоб он заразил ваш компьютер’.

Ну почему?
Ссылки на Postgresql он мне нашёл сам.
порно на Русском он мне нашёл сам.

Сейчас он нашёл 71 ссылку на редкий по мнению @xaizek vim-like.
может у вас обоих старая версия или с настройками что-то не то?

torvn77 ★★★★★ ()
Ответ на: комментарий от torvn77

Индексы такие огромные, что они, наверное, очень медленно распространяются. Если ты включишь приватный режим и отключишь всякие проверки и индексацию результатов поиска, то то, что разошлось по другим узлам, не найдётся.

К тому же, я при чтении твоего поста зашёл на этот сайт, да ещё мог сработать дополнительный поиск через searx.

AVRS ()
Последнее исправление: AVRS (всего исправлений: 1)
Ответ на: комментарий от AVRS

В данный момент мой режим "Групповой вебпоиск", ну шифрование я конечно поставил на Prefer, но ноды судя по круговой диаграмме ко мне коннекятся.

torvn77 ★★★★★ ()
Ответ на: комментарий от AVRS

Я его не выключал, как проверить его включение или отключение7

torvn77 ★★★★★ ()
Ответ на: комментарий от torvn77

Не по моему мнению, а по результатам. До этого он мне тоже больше давал. Сейчас для quik qlua:

1-10 of 25 ; (19 local, 6 remote from 11 YaCy peers).

Хоть он дальше первой страницы не идёт.

Эта хрень после 10 мин. пользования выжрала доступный 1 ГиБ и начала падать в фоне, по логам понял, что ему памяти мало. Добавил ещё 1 ГиБ, теперь немного ожило (кнопка опять начала меняться, результатов больше).

xaizek ★★★★★ ()
Ответ на: комментарий от xaizek

Ну лично у меня он при активном индексировании опеннета с cnc-club съел 25% от четырёх гигов, ещё 8% съедает браузер.
И ничего не падает стабильно гудя вентилятором.

torvn77 ★★★★★ ()
Последнее исправление: torvn77 (всего исправлений: 1)
Ответ на: комментарий от AVRS

ну не знаю, мне кажется что мой кухонный комп оптимален для функционирования YaCy, скорость обработки информации больше или сопоставима с вытягиванием её из сети.

torvn77 ★★★★★ ()
Ответ на: комментарий от torvn77

Похоже, что «Autoregulate» на /Performance_p.html удаляет только DHT words, а Documents не трогает. Количество требуемой памяти не уменьшается. Трудно сказать, сколько именно памяти надо, так как занимаемая часть изменяется циклически. Только что изменил с 10000 на 10500.

AVRS ()
Последнее исправление: AVRS (всего исправлений: 2)
Ответ на: комментарий от AVRS
  • Галка Autoregulate when absolute minimum limit has been reached. стоит.
  • Галка Autoregulate when absolute maximum limit has been reached. снята.
  • Minimum required 50 MiB свободного места. Disable DHT-in below.

При этом часть памяти у меня свободна.

torvn77 ★★★★★ ()
Последнее исправление: torvn77 (всего исправлений: 1)
Ответ на: комментарий от AVRS

У меня включен режим р2р, при этом я включил автоматическую передачу индекса во время сканирования и индексации, так же у меня разрешён удалённый поиск, единственное что я оставил запрещённым это посторонний поиск по словам из моего чёрного списка., которого правда у меня пока нет.

torvn77 ★★★★★ ()
Ответ на: комментарий от torvn77

Поставь [x] Обновлять диаграмму. YaCy показывает, сколько памяти она использует от той, которую ты разрешил ей в настройках.

AVRS ()
Ответ на: комментарий от AVRS

Поставил, колеблется между 500 и 600 МБ.
Я сейчас увеличил резервирование динамической памяти для java с 600 до 800 МБ.

torvn77 ★★★★★ ()
Последнее исправление: torvn77 (всего исправлений: 1)
Ответ на: комментарий от torvn77

Это это?

Приём индекса Приём удалённых передач индекса. (*) принимать ссылки, совпадающие с вашим чёрным списком.

Это совсем другое: должны ли к тебе приходить результаты индексации страниц, которые ты внёс в чёрный список. Может быть, ты их внёс туда только для того, чтобы не индексировать, например.

AVRS ()
Закрыто добавление комментариев для недавно зарегистрированных пользователей (со score < 50)