LINUX.ORG.RU

Посоветуйте решение для поиска по большому объёму данных

 , ,


0

1

Доброго дня Стоит такая амбициозная (для меня по крайней мере) задача

Есть ~50M pdf документов, средний размер каждого ~1Mb, минимальный 10Kb, максимальный 50Mb. Суммарный объём выходит под 50Tb. 95% данных в документе это текст. Нужно обеспечить полнотекстовый поиск по всему объёму данных, тоесть есть фраза - надо показать документы где она встречается и (опционально) показать снипеты, тоесть текстовое окружение где в документе нашлась фраза.

Добавление даных в базу происходит редко и оно некритично, тоесть его можно выполнять долго и с низким приоритетом. Удаление/изменение данных не случается вообще.

Требования к системе в порядке приоритета.

1 Возможность запустить это всё на как можно более дешёвом и досутпном железе - это критично т.к. бюджет на инфраструктуту ограничен

2 Скорость поиска

3 Надёжность и отказоустойчивость

4 Лёгкость масштабирования

Если у кого-то есть опыт в схожих задачах поделитесь идеей при помощи каких технологий это можно было бы реализовать. Спасибо заранее всем откликнувшимся

Elasticsearch/solr

anonymous
()

эластик

anonymous
()
Ответ на: комментарий от apmucm

Sphinxsearch порвёт Elasticsearch по первым двум пунктам, но с масштабируемостью у него примерно никак.

Я бы тоже первым делом попробовал sphinx.

NeOlip ★★
()

Можно сделать для совсем «бедных» поиск: все pdf-ки присылать на какую-нибудь почту от яндекса или гугла. А там уже есть встроенный поиск :-)

dicos ★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.