Как-то кодил умножение матриц на SSE2, когда это ещё новой технологией было, работало дольше, чем тройной цикл на float-ах на сишечке. Огорчившись, решил не использовать расширения вручную больше.
А матрицы были 4х4, то есть те самые, от которых одна строчка в регистр чётко влезает (одинарной точности были числа). И несмотря на это раза в полтора дольше считало.