Собери официальную реализацию с максимальной оптмизацией и правильным -mcpu, она и так оптимизирована под множество архитектур.
На сайте автора есть следы коммерческой версии, мб она будеть чуть быстрее. Если надо что-то еще более быстрое, рассмотри возможность замены формата LZO на LZ4