Перестановка байтов внутри регистра SSE m128i
у меня следующая проблема:
на __m128i
Регистрация существует 16 8-битных значений в следующем порядке:
[ 1, 5, 9, 13 ] [ 2, 6, 10, 14] [3, 7, 11, 15] [4, 8, 12, 16]
чего я хотел бы достичь, это эффективно перетасовать байты, чтобы получить этот заказ:
[ 1, 2, 3, 4 ] [ 5, 6, 7, 8] [9, 10, 11, 12] [13, 14, 15, 16]
на самом деле это аналог транспозиции матрицы 4x4, но работает на 8-битном элементе внутри одного регистра.
вы, пожалуйста, можете указать мне, какие инструкции SSE (preferabbly
1 ответов
вы действительно захотите пойти SSSE3 для этого, это гораздо более чисто, чем пытаться пойти
ваш код будет выглядеть примерно так:
#include <tmmintrin.h> // _mm_shuffle_epi8
#include <tmmintrin.h> // _mm_set_epi8
...
// check if your hardware supports SSSE3
...
__m128i mask = _mm_set_epi8(15, 11, 7, 3,
14, 10, 6, 2,
13, 9, 5, 1,
12, 8, 4, 0);
__m128i mtrx = _mm_set_epi8(16, 12, 8, 4,
15, 11, 7, 3,
14, 10, 6, 2,
13, 9, 5, 1);
mtrx = _mm_shuffle_epi8(mtrx, mask);
Если вы действительно хотите SSE2 этого будет достаточно:
(предполагая, что я правильно интерпретирую ваш первоначальный заказ)
__m128i mask = _mm_set_epi8(0x00, 0xFF, 0x00, 0xFF,
0x00, 0xFF, 0x00, 0xFF,
0x00, 0xFF, 0x00, 0xFF,
0x00, 0xFF, 0x00, 0xFF);
__m128i mtrx = _mm_set_epi8(16, 12, 8, 4,
15, 11, 7, 3,
14, 10, 6, 2,
13, 9, 5, 1); // [1, 5, 9, 13] [2, 6, 10, 14] [3, 7, 11, 15] [ 4, 8, 12, 16]
mtrx = _mm_packus_epi16(_mm_and_si128(mtrx, mask), _mm_srli_epi16(mtrx, 8)); // [1, 9, 2, 10] [3, 11, 4, 12] [5, 13, 6, 14] [ 7, 15, 8, 16]
mtrx = _mm_packus_epi16(_mm_and_si128(mtrx, mask), _mm_srli_epi16(mtrx, 8)); // [1, 2, 3, 4] [5, 6, 7, 8] [9, 10, 11, 12] [13, 14, 15, 16]
или более легко отлаживаемым:
__m128i mtrx = _mm_set_epi8(16, 12, 8, 4,
15, 11, 7, 3,
14, 10, 6, 2,
13, 9, 5, 1); // [1, 5, 9, 13] [ 2, 6, 10, 14] [ 3, 7, 11, 15] [ 4, 8, 12, 16]
__m128i mask = _mm_set_epi8(0x00, 0xFF, 0x00, 0xFF,
0x00, 0xFF, 0x00, 0xFF,
0x00, 0xFF, 0x00, 0xFF,
0x00, 0xFF, 0x00, 0xFF);
__m128i temp = _mm_srli_epi16(mtrx, 8); // [5, 0, 13, 0] [ 6, 0, 14, 0] [ 7, 0, 15, 0] [ 8, 0, 16, 0]
mtrx = _mm_and_si128(mtrx, mask); // [1, 0, 9, 0] [ 2, 0, 10, 0] [ 3, 0, 11, 0] [ 4, 0, 12, 0]
mtrx = _mm_packus_epi16(mtrx, temp); // [1, 9, 2, 10] [ 3, 11, 4, 12] [ 5, 13, 6, 14] [ 7, 15, 8, 16]
temp = _mm_srli_epi16(mtrx, 8); // [9, 0, 10, 0] [11, 0, 12, 0] [13, 0, 14, 0] [15, 0, 16, 0]
mtrx = _mm_and_si128(mtrx, mask); // [1, 0, 2, 0] [ 3, 0, 4, 0] [ 5, 0, 6, 0] [ 7, 0, 8, 0]
mtrx = _mm_packus_epi16(mtrx, temp); // [1, 2, 3, 4] [ 5, 6, 7, 8] [ 9, 10, 11, 12] [13, 14, 15, 16]