LINUX.ORG.RU

Посоветуйте решение для поиска по большому объёму данных

 , ,


0

1

Доброго дня Стоит такая амбициозная (для меня по крайней мере) задача

Есть ~50M pdf документов, средний размер каждого ~1Mb, минимальный 10Kb, максимальный 50Mb. Суммарный объём выходит под 50Tb. 95% данных в документе это текст. Нужно обеспечить полнотекстовый поиск по всему объёму данных, тоесть есть фраза - надо показать документы где она встречается и (опционально) показать снипеты, тоесть текстовое окружение где в документе нашлась фраза.

Добавление даных в базу происходит редко и оно некритично, тоесть его можно выполнять долго и с низким приоритетом. Удаление/изменение данных не случается вообще.

Требования к системе в порядке приоритета.

1 Возможность запустить это всё на как можно более дешёвом и досутпном железе - это критично т.к. бюджет на инфраструктуту ограничен

2 Скорость поиска

3 Надёжность и отказоустойчивость

4 Лёгкость масштабирования

Если у кого-то есть опыт в схожих задачах поделитесь идеей при помощи каких технологий это можно было бы реализовать. Спасибо заранее всем откликнувшимся

Можно сделать для совсем «бедных» поиск: все pdf-ки присылать на какую-нибудь почту от яндекса или гугла. А там уже есть встроенный поиск :-)

dicos ()