Насыщенная подстрока-AVX или SSE4.2
я улучшаю производительность программы (C), и я не могу получить лучшее время выполнения, улучшая самый "дорогой" цикл.
Я должен вычесть 1 из каждого элемента массива unsigned long int, если элемент больше нуля.
петля:
unsigned long int * WorkerDataTime;
...
for (WorkerID=0;WorkerID<WorkersON;++WorkerID){
if(WorkerDataTime[WorkerID] > 0) WorkerDataTime[WorkerID]-=1;
}
и я пробую это:
for (WorkerID=0;WorkerID<WorkersON;++WorkerID){
int rest = WorkerDataTime[WorkerID] > 0;
WorkerDataTime[WorkerID] = WorkerDataTime[WorkerID] - rest;
}
но время выполнения аналогично.
ВОПРОС: есть ли инструкция intrinsec (SSE4.2 с AVX...) делать это напрямую? (я использую gcc 4.8.2)
Я знаю, что это возможно с char или короткими элементами. (_mm_subs_epi8 и _mm_subs_epi16), и я не могу использовать AVX2.
спасибо.
2 ответов
С SSE4 можно использовать три инструкции. Вот код, который обрабатывает весь массив, уменьшая все целые числа без знака, которые не равны нулю:
void clampedDecrement_SSE (__m128i * data, size_t count)
{
// processes 2 elements each, no checks for alignment done.
// count must be multiple of 2.
size_t i;
count /= 2;
__m128i zero = _mm_set1_epi32(0);
__m128i ones = _mm_set1_epi32(~0);
for (i=0; i<count; i++)
{
__m128i values, mask;
// load 2 64 bit integers:
values = _mm_load_si128 (data);
// compare against zero. Gives either 0 or ~0 (on match)
mask = _mm_cmpeq_epi64 (values, zero);
// negate above mask. Yields -1 for all non zero elements, 0 otherwise:
mask = _mm_xor_si128(mask, ones);
// now just add the mask for saturated unsigned decrement operation:
values = _mm_add_epi64(values, mask);
// and store the result back to memory:
_mm_store_si128(data,values);
data++;
}
}
С AVX2 мы можем улучшить это и обработать 4 элемента одновременно:
void clampedDecrement (__m256i * data, size_t count)
{
// processes 4 elements each, no checks for alignment done.
// count must be multiple of 4.
size_t i;
count /= 4;
// we need some constants:
__m256i zero = _mm256_set1_epi32(0);
__m256i ones = _mm256_set1_epi32(~0);
for (i=0; i<count; i++)
{
__m256i values, mask;
// load 4 64 bit integers:
values = _mm256_load_si256 (data);
// compare against zero. Gives either 0 or ~0 (on match)
mask = _mm256_cmpeq_epi64 (values, zero);
// negate above mask. Yields -1 for all non zero elements, 0 otherwise:
mask = _mm256_xor_si256(mask, ones);
// now just add the mask for saturated unsigned decrement operation:
values = _mm256_add_epi64(values, mask);
// and store the result back to memory:
_mm256_store_si256(data,values);
data++;
}
}
EDIT: добавлена версия кода SSE.
если ваш процессор не имеет XOP, чем есть нет эффективного способа сравнения 64-разрядных целых чисел без знака.
я вырвал следующее из библиотека векторных классов Агнера Фога. Здесь показано, как сравнивать 64-разрядные целые числа без знака.
static inline Vec2qb operator > (Vec2uq const & a, Vec2uq const & b) {
#ifdef __XOP__ // AMD XOP instruction set
return Vec2q(_mm_comgt_epu64(a,b));
#else // SSE2 instruction set
__m128i sign32 = _mm_set1_epi32(0x80000000); // sign bit of each dword
__m128i aflip = _mm_xor_si128(a,sign32); // a with sign bits flipped
__m128i bflip = _mm_xor_si128(b,sign32); // b with sign bits flipped
__m128i equal = _mm_cmpeq_epi32(a,b); // a == b, dwords
__m128i bigger = _mm_cmpgt_epi32(aflip,bflip); // a > b, dwords
__m128i biggerl = _mm_shuffle_epi32(bigger,0xA0); // a > b, low dwords copied to high dwords
__m128i eqbig = _mm_and_si128(equal,biggerl); // high part equal and low part bigger
__m128i hibig = _mm_or_si128(bigger,eqbig); // high part bigger or high part equal and low part bigger
__m128i big = _mm_shuffle_epi32(hibig,0xF5); // result copied to low part
return Vec2qb(Vec2q(big));
#endif
}
поэтому, если вы CPU поддерживает XOP, чем вы должны попробовать компиляцию с -mxop
и посмотреть, если цикл векторизован.
Edit: если GCC не векторизирует это, как вы хотите, и ваш процессор имеет XOP вы может сделать
for (WorkerID=0; WorkerID<WorkersON-1; workerID+=2){
__m128i v = _mm_loadu_si128((__m128i*)&WorkerDataTime[workerID]);
__m128i cmp = _mm_comgt_epu64(v, _mm_setzero_si128());
v = _mm_add_epi64(v,cmp);
_mm_storeu_si128((__m128i*)&WorkerDataTime[workerID], v);
}
for (;WorkerID<WorkersON;++WorkerID){
if(WorkerDataTime[WorkerID] > 0) WorkerDataTime[WorkerID]-=1;
}
компилировать с -mxop
и включения #include <x86intrin.h>
.
Edit: как отметил Нильс Пайпенбринк, если у вас нет XOP, вы можете сделать это с помощью еще одной инструкции, используя _mm_xor_si128
:
for (WorkerID=0; WorkerID<WorkersON-1; WorkerID+=2){
__m128i v = _mm_loadu_si128((__m128i*)&WorkerDataTime[workerID]);
__m128i mask = _mm_cmpeq_epi64(v,_mm_setzero_si128());
mask = _mm_xor_si128(mask, _mm_set1_epi32(~0));
v= _mm_add_epi64(v,mask);
_mm_storeu_si128((__m128i*)&WorkerDataTime[workerID], v);
}
for (;WorkerID<WorkersON;++WorkerID){
if(WorkerDataTime[WorkerID] > 0) WorkerDataTime[WorkerID]-=1;
}
изменить:
Основываясь на комментарии Стивена канона, я узнал, что существует более эффективный способ сравнения общих 64-битных целых чисел без знака с помощью pcmpgtq
инструкция от SSE4.2:
__m128i a,b;
__m128i sign64 = _mm_set1_epi64x(0x8000000000000000L);
__m128i aflip = _mm_xor_si128(a, sign64);
__m128i bflip = _mm_xor_si128(b, sign64);
__m128i cmp = _mm_cmpgt_epi64(aflip,bflip);