Читал новость про Zim и вот у меня какие галлюцинации:
- можно разбивать сайт на страницы, для каждой страницы строить статическую таблицу хаффмана и сжимать.
- искать по сжатому таким образом можно не распаковывая, это снизит ввод-вывод и повысит скорость поиска.
То есть, надо взять поисковый запрос, пожать его по статической таблице Хаффмана в строку битов, и эту строку битов искать в сжатом бинарнике (блобе). В Intel много подходящих инструкций, можно многое распараллелить, так что процессор не должен стать узком местом, а скорость поиска должна возрасти (ценой энергозатрат, но кого это на десктопе волнует?)
Если что, китайцы такое уже придумали:
2008, Zhang Y & Pei Z. & Yang J. & Liang Y., Canonical Huffman code based full-text index, https://doi.org/10.1016/j.pnsc.2007.11.001
И евреи:
2005, Klein S.T. & Shapira D., Pattern matching in Huffman encoded texts, https://doi.org/10.1016/j.ipm.2003.08.008





