LINUX.ORG.RU

Поиск и индексация всего и вся

 , , , ,


0

2

А какие сейчас bleeding-edge связки для поддержания содержимого хомяка в искаемом состоянии? Интересует:

  • поиск по pdf

  • авто-тегирование какое-то

2026 год, ocr можно по всякому делать, саммари документов через llm, и всё такое. Помню, в KDE бы baloo и требовал отключения.

Есть ли у вас истории успеха?

Recoll: https://www.recoll.org/

В отличии от Baloo не требует работающего в фоне сервиса, который постоянно жрёт ресурсы.

Запустил, поискал, выключил.

Индекс обновляется быстро.

Ja-Ja-Hey-Ho ★★★★★
()

Можно навелосипедить, выложить исходники и разбогатеть.
А Groonga 14.1.3 в этом поможет.

авто-тегирование какое-то

В Debian наконец-то Groonga поставляется с поддержкой llama.cpp, что может быть полезным.
А может и не быть, и я просто фантазирую.

dataman ★★★★★
()

поиск по pdf

https://github.com/datalab-to/marker

А какие сейчас bleeding-edge связки для поддержания содержимого хомяка в искаемом состоянии?

рекомендую расширить «scope» вопроса и обратить внимание на khoj

https://github.com/khoj-ai/khoj

gagarin0
()
Последнее исправление: gagarin0 (всего исправлений: 1)
Ответ на: комментарий от BruteForce

Я что-то устал,

Ляжь в криокамеру

хочю перерыв в своём велосипедостроении.

Ну все и проиндексируется, пока криокамера протечет.

slackwarrior ★★★★★
()
Ответ на: комментарий от Bfgeshka

Энтропия системы не уменьшается. Но систему можно модифицировать!

Можно. Но брадак-то увеличится.

Kroz ★★★★★
()
Ответ на: комментарий от gagarin0

рекомендую расширить «scope» вопроса и обратить внимание на khoj

причем тут юрий

MaZy ★★★★★
()

Знаю DocFetcher https://docfetcher.sourceforge.io/ И шикарный Archivarious3000 под Винду. Раньше пользовался Beagle. Не знаю есть ли оно сейчас, но я уверен что в случае чего чудонейронки сделают так же только лучше. Потом связкой Synapse и Zeitgeist и каким–то там встроенным в GNOME полурабочим индексатором. Ещё был или есть какой–то Sezen A badass semantic File Browser thats powered by Zeitgeist and awesomeness.

wenxuan
()
  • Markdown
Пустая строка (два раза Enter) начинает новый абзац. Знак '>' в начале абзаца выделяет абзац курсивом цитирования.
Внимание: прочитайте описание разметки Markdown.
Используйте Ctrl-Enter для размещения комментария