Есть программа, алгоритм которой является массивно-параллельной. Единственная проблема — данные, их много. Поэтому в программе несколько потоков обращаются к общим данным.
На одних машинах 100% всех ядер загружено и ускорение чуть меньше количества ядер — всё хорошо.
А на i5 750 при четырёх потоках ускорение всего 2, каждое ядро загружено на 50%.
Что делать? Какие инструменты посоветуете?