rapidfuzz-cpp - быстрая, SIMD-оптимизированная библиотека на языке C++, реализующая несколько алгоритмов нечёткого сравнения строк и вычисления метрик:
- Левенштейна и Дамероу - Левенштейна;
- Хэмминга;
- Indel;
- Джаро и Джаро - Винклера;
- и некоторых других.
RapidFuzz - основанная на rapidfuzz-cpp библиотека для языка Python.
Лицензия: MIT.
Изменения:
- расстояние Хэмминга может использоваться для строк с разной длиной;
- в
rapidfuzz.fuzzиrapidfuzz.processудалена поддержка булевских функций препроцессора; - удалён модуль
rapidfuzz.string_metric. Теперь все функции доступны в модулеrapidfuzz.distance; - добавлена поддержка произвольных хэшируемых последовательностей Python;
- в
process.cdistдобавлена поддержкаNoneиfloat("nan"); - другие изменения.
Исправления:
- исправлено деление на ноль в SIMD-реализации нормализованных метрик;
- исправлена обработка
score_cutoff > 1.0в алгоритмах Джаро и Джаро - Винклер.
>>> Подробности







