LINUX.ORG.RU

YaCy и QLua

 , , , ,


0

2

На скриншоте показано состояние поиска после нескольких нажатий на кнопку "Искать ещё".
В целом поисковик работает шустро, субъективно ищет даже чуть быстрее обычных поисковиков.
Характеристики компа следующие:

  • AMD Athlon(tm) II X2 260 Processor ** cpu MHz: 3199.947
  • MemTotal: 4032808 kB
  • Device: Radeon RX 560 Series (POLARIS11, DRM 3.36.0, 5.6.0-0.bpo.2-amd64, LLVM 7.0.1)

Я его только что запустил, поискал postgresql,nginx,порно всё ищется быстро, видимых недостатков пока не заметил.

По запросу quik qlua поначалу он работал долго и сильно нагрузил компьютер, но в конце концов нашёл немного правильных результатов, сейчас я поставил на индексирование https://k-pavel.ru/category/qlua-kvik/ , в данный момент сайт уже немного проиндексировался, количество выдаваемой информации увеличилось с одной до семи страниц поисковика и поисковик теперь на запрос отвечает быстро.

Думаю что и вам стоит поставить к себе этот поисковик и попробовать запустить поиск quik qlua и так как источником основной массы индекса сайта k-pavel.ru сейчас являюсь только я то это должно позволить оценить и общую работу сети, и её работу с нодами находящимися за NAT, так как мой кухонный компьютер сейчас находится именно за ним.
(Должен работать, потому что YaCy умеет в UPnP)
Ну и конечно же отпишитесь здесь о своих результатах, то есть как у вас отражается в выдаче сайт k-pavel.ru.
так же можете посмотреть и другие сайты которые я в той или иной мере сейчас индексирую:

Уточнение_1: На индексирование лучше всего ставить только доменное имя сайта, так как тогда он проиндексируется более полноценно.
Уточнение_2: Для более полной индексации надо увеличить глубину индексирования.
Уточнение_3: помимо установки задачи индексирования так же надо запускать индексирование в мониторе индексирования.

Ну и вообще настроек много и для хорошей работы их надо изучать.

Уточнение_4: чтобы проиндексировать быстрее имеет смысл поставить глубину индексирования на единицу, но в поле шаблона для неограниченной глубины индексирования указать используемый корневой адрес и ещё внизу страницы снять галку индексирования медиафайлов, если что то доиндексировать на большую глубину и медиафайлы можно и потом, путём удаления и повторной установки задания с другими опциями.
(к сожалению задания в очереди нельзя отредактировать)

КАРАУЛ !!! YaCy через UPnP занимает порт на роутере и даёт доступ всему интернету по http!
Как это отключить я пока не понял, но на вкладке "Учётные записи" можно запретить вход без указания имени и пароля.
И я нашёл какаю то галку которая вроде как включает htpps, но тогда YaCy пишет что порт закрыт.

>>> Просмотр (1920x1080, 938 Kb)

★★★★★

Проверено: Shaman007 ()

Ответ на: комментарий от mrdeath

Чтоб найти результат в поиске нужно сначала его туда добавить.

В этом и заключается возможность приватного поиска… (кнопка «Частный» на странице поиска; возможно, при этом не используется проверка)

AVRS ()
Последнее исправление: AVRS (всего исправлений: 1)
Ответ на: комментарий от torvn77

Linuxcnc: 1-10 из 210 ; (62 локально, 148 удалённо из 28 узлов YaCy). Searx отключил, если он вообще что-то искал (там были search error и traceback).

AVRS ()
Последнее исправление: AVRS (всего исправлений: 2)
Ответ на: комментарий от torvn77

linuxcnc.org (38) forum.linuxcnc.org (26) vk.com (24) sourceforge.net (24) debian.org (15) github.com (7) linux.org.ru (6) hackaday.com (4) m.vk.com (3) cnc-club.ru (3) wnpp.debian.net (3) freebsd.org (2) aur.archlinux.org (2) cnczone.com (2) raspberrypi.org (1) bugs.gentoo.org (1) launchpad.net (1) ja.wikipedia.org (1) tuxmachines.org (1) freebsd.cz (1) wiki.opensourceecology.org (1) goinglinux.com (1) techrights.org (1) wiki.linuxcnc.org (1) habr.com (1) askubuntu.com (1) hidcomp.sourceforge.net (1)

AVRS ()
Ответ на: комментарий от AVRS

linuxcnc.org forum.linuxcnc.org https://m.vk.com/linuxcnc_users cnc-club.ru

а всё остальное скорее всего попало как то, на что они ссылались.

№ Включить в поиск
https://www.linux.org.ru/tags/
https://www.linux.org.ru/gallery/
https://www.linux.org.ru/news/
https://www.linux.org.ru/polls/
https://www.linux.org.ru/forum/general/
https://www.linux.org.ru/forum/desktop/
https://www.linux.org.ru/forum/admin/
https://www.linux.org.ru/forum/linux-install/
https://www.linux.org.ru/forum/development/
https://www.linux.org.ru/forum/linux-org-ru/
https://www.linux.org.ru/forum/security/
https://www.linux.org.ru/forum/linux-hardware/
https://www.linux.org.ru/forum/talks/
https://www.linux.org.ru/forum/games/
https://www.linux.org.ru/forum/web-development/
https://www.linux.org.ru/forum/mobile/
https://www.linux.org.ru/forum/multimedia/
https://www.linux.org.ru/forum/science/
# Это в поиск не включать.
https://www.linux.org.ru/tracker/
https://www.linux.org.ru/forum/lenta/
https://www.linux.org.ru/tag/
https://www.linux.org.ru/people/
#
(https://www.linux.org.ru/.*)
# Запрещённые URL
https://www.linux.org.ru/login.jsp
https://www.linux.org.ru/search.jsp
https://www.linux.org.ru/register.jsp
https://www.linux.org.ru/add_comment.jsp?
https://www.linux.org.ru/section-rss.jsp?
https://www.linux.org.ru/comment-message.jsp?
((https:\/\/www.linux.org.ru/.*)&&((.*.jsp.*)||(.*\?cid=.*)||(.*ru/tracker/.*)||(.*ru/forum/lenta/.*)||(.*/history.*)))
((.*/history.*)||(.*ru/section-rss.jsp.*)||(.*/add_comment.jsp.*)||(.*/comment-message.jsp.*)||(.*/edit.jsp.*)||(.*/login.jsp.*)||(.*/register.jsp.*)||(.*/search.jsp.*)||(.*?cid=.*)||(.*ru/tracker/.*)||(.*ru/forum/lenta/.*))
#
https://wiki.opennet.ru
https://www.opennet.ru
https://www.opennet.ru/opennews/
https://www.opennet.ru/keywords/
https://www.opennet.ru/mp/
https://www.opennet.ru/tips/sml/
#
https://www.opennet.ru/forum/
https://www.opennet.ru/cgi-bin/openforum/
https://www.opennet.ru/opennews/opennews_sec.rss
(https://www.opennet.ru/.*)

(https://www.opennet.ru/forum.*)||(https://www.opennet.ru/cgi-bin/openforum.*)||(https://www.opennet.ru/opennews/opennews_sec.rss.*)
#
(https:\/\/www.cnc-club.ru\/.*)
(https:\/\/www.cnc-club.ru\/forum\/viewforum.php\/.*)
(.*\/forum\/index.php.*)||(.*\/forum\/viewforum.php.*)||(.*\/forum\/app.php.*)||(.*\/forum\/ucp.php.*)||(.*\/forum\/memberlist.php.*)||(.*\/forum\/posting.php.*)
https://www.cnc-club.ru/forum/viewforum.php?f=15
https://www.cnc-club.ru/forum/viewforum.php?f=41
https://www.cnc-club.ru/forum/viewforum.php?f=158

https://k-pavel.ru
https://vk.com/torvn77
https://vk.com/linuxcnc_users
https://github.com/vilemduha/blendercam
http://linuxcnc.org/docs/devel/html/
http://wiki.linuxcnc.org/
http://linuxcnc.org/

В общем мой индекс до тебя дошёл, когда будет 11000 результатов можно будет сказать что он дошёл полностью. Ну да я не знаю как там было с LinuxCNC до моего индексирования.

Поробуй ещё раз поискать QLua Qui, там точно до меня результатом менее чем на одну страницу было.

torvn77 ★★★★★ ()
Последнее исправление: torvn77 (всего исправлений: 3)
Ответ на: комментарий от AVRS

Не знаю что это.

А что он делает, почему там не упомянуто ни одного сайта?

Если что у меня не скрипт, а шпаргалка для заполнения расширенного поиска.

torvn77 ★★★★★ ()
Последнее исправление: torvn77 (всего исправлений: 1)
Ответ на: комментарий от torvn77

Только осторожнее с paramDepth > 0 и другими префетчингами и проверками, увеличивающими индекс.

Это userscript, который выполняется при входе на страницу. Он через API просит YaCy запустить её индексирование с указанными настройками. В отличие от прокси, при этом не приходится пропускать страницы с cookies, так как они всё равно не проиндексируются. Query по умолчанию тоже отключено; для страниц, которые надо индексировать с query, можно сделать отдельную версию скрипта, настроив её запуск на соответствующих страницах.

Я о том, что если я читал страницу про linuxcnc, то эта страница у меня могла быть проиндексирована локально.

AVRS ()
Последнее исправление: AVRS (всего исправлений: 2)
Ответ на: комментарий от AVRS

Только осторожнее с paramDepth > 0 и другими префетчингами и проверками, увеличивающими индекс.

Это «Максимальная глубина снимка»?
У меня она на некторых ресурсах 3 или 4.

Ну вся база (DATA) весит 3,3 ГБ, что в моих маштабах немного.
мало она так весит потому что я у части ресурсов выключил индексирование графики.

Или ты это про "глубину сканирования" написал?

Я делаю так, её по началу ставлю в 1 или два, но через поле "Неограниченная глубина индексирования" максимизирую сканирование сайта.

Ну ещё фильтрами лишнее подрезаю, а то при большом числе ошибок YAaCY останавливает индексирование.

ПС. Невиданное дело, мой процессор нагрелся до 43С и орёт.

torvn77 ★★★★★ ()
Последнее исправление: torvn77 (всего исправлений: 4)
Ответ на: комментарий от torvn77

Это глубина сканирования. Снимки — это скриншоты страниц в PDF. Они занимают только место на диске, не ОЗУ. И они, конечно, не распространяются, а на них может быть ссылка в результатах поиска.

AVRS ()
Последнее исправление: AVRS (всего исправлений: 1)
Ответ на: комментарий от AVRS

Снимки — это скриншоты страниц в PDF.

Понял, спасибо.

Ну о глубине сканирования можете особо не беспокоится, всё что попадёт в кеш всё наше.

torvn77 ★★★★★ ()

Так, а вот это как минимум интересно. Надо будет на праздниках вернуться и почитать подробнее.

kirill_rrr ★★★★★ ()

Пробовал эту штуку года 3 назад. Но у меня тогда был дохлый ноут, который совсем не тянул. Что сейчас? Сколько памяти и диска расходуется после суток эксплуатации?

ugoday ★★★★★ ()
Ответ на: комментарий от ugoday

Сколько памяти и диска расходуется после суток эксплуатации?

Размер базы 6.3ГБ. 6 часов аптайма, процесс занимает 0~2% ЦПУ и 36% от 4 ГБ ОЗУ, что за комп написано в ОП.
Правда если открыть админку в браузере то потребление ЦПУ заметно возрастёт, но постепенно.

torvn77 ★★★★★ ()
Последнее исправление: torvn77 (всего исправлений: 1)
Ответ на: комментарий от torvn77

Бывает, что и все ядра займёт надолго. Возможно, индексатор.

AVRS ()
Закрыто добавление комментариев для недавно зарегистрированных пользователей (со score < 50)