Cogs.Core: Source/Utilities/TransformVertices

#ifndef EMSCRIPTEN
 
#ifndef __AVX__
static_assert(false, "This compile unit must be compiled with AVX");
#endif
 
#include <glm/glm.hpp>
#include <glm/gtc/type_ptr.hpp>
#include <immintrin.h>
 
namespace Cogs::Core
{
 
  void transformVertex3ToVertex4AVX(uint8_t* dst,
                                    const size_t dst_stride,
                                    const size_t /*dst_bytes*/,
                                    const glm::mat4& matrix,
                                    const uint8_t* src,
                                    const size_t src_stride,
                                    const size_t /*src_bytes*/,
                                    const size_t src_count)
  {
    if (src_count == 0) {
      return;
    }
    __m128 _col0 = _mm_loadu_ps(glm::value_ptr(matrix) + 0);
    __m128 _col1 = _mm_loadu_ps(glm::value_ptr(matrix) + 4);
    __m256 col0 = _mm256_insertf128_ps(_mm256_castps128_ps256(_col0), _col0, 1);
    __m128 _col2 = _mm_loadu_ps(glm::value_ptr(matrix) + 8);
    __m256 col1 = _mm256_insertf128_ps(_mm256_castps128_ps256(_col1), _col1, 1);
    __m128 _col3 = _mm_loadu_ps(glm::value_ptr(matrix) + 12);
    __m256 col2 = _mm256_insertf128_ps(_mm256_castps128_ps256(_col2), _col2, 1);
    __m256 col3 = _mm256_insertf128_ps(_mm256_castps128_ps256(_col3), _col3, 1);
 
    size_t i = 0;
    if (2 < src_count) {
      __m128 _p0 = _mm_loadu_ps((float*)src); src += src_stride;
      __m128 _p1 = _mm_loadu_ps((float*)src); src += src_stride;
      __m256 p = _mm256_insertf128_ps(_mm256_castps128_ps256(_p0), _p1, 1);
      for (; i + 4 < src_count; i += 2) {
        _p0 = _mm_loadu_ps((float*)src); src += src_stride;
        _p1 = _mm_loadu_ps((float*)src); src += src_stride;
        __m256 t0 = _mm256_mul_ps(col0, _mm256_shuffle_ps(p, p, _MM_SHUFFLE(0, 0, 0, 0)));
        __m256 t1 = _mm256_mul_ps(col1, _mm256_shuffle_ps(p, p, _MM_SHUFFLE(1, 1, 1, 1)));
        __m256 t2 = _mm256_add_ps(t0, t1);
        __m256 t3 = _mm256_mul_ps(col2, _mm256_shuffle_ps(p, p, _MM_SHUFFLE(2, 2, 2, 2)));
        p = _mm256_insertf128_ps(_mm256_castps128_ps256(_p0), _p1, 1);
 
        __m256 t4 = _mm256_add_ps(t3, col3);
        __m256 t5 = _mm256_add_ps(t2, t4);
 
        _mm_storeu_ps((float*)dst, _mm256_castps256_ps128(t5));  dst += dst_stride;
        _mm_storeu_ps((float*)dst, _mm256_extractf128_ps(t5, 1)); dst += dst_stride;
      }
 
      __m256 t0 = _mm256_mul_ps(col0, _mm256_shuffle_ps(p, p, _MM_SHUFFLE(0, 0, 0, 0)));
      __m256 t1 = _mm256_mul_ps(col1, _mm256_shuffle_ps(p, p, _MM_SHUFFLE(1, 1, 1, 1)));
      __m256 t2 = _mm256_add_ps(t0, t1);
      __m256 t3 = _mm256_mul_ps(col2, _mm256_shuffle_ps(p, p, _MM_SHUFFLE(2, 2, 2, 2)));
      __m256 t4 = _mm256_add_ps(t3, col3);
      __m256 t5 = _mm256_add_ps(t2, t4);
 
      _mm_storeu_ps((float*)dst, _mm256_castps256_ps128(t5));  dst += dst_stride;
      _mm_storeu_ps((float*)dst, _mm256_extractf128_ps(t5, 1)); dst += dst_stride;
      i += 2;
    }
 
    if ((src_count & 0x1) == 0) { // even number of elements (excluding 0, i.e., two to go)
      __m128 p0 = _mm_loadu_ps((float*)src);
      __m128 p1 = _mm_loadu_ps((float*)(src + src_stride) - 1);
      __m256 p = _mm256_insertf128_ps(_mm256_castps128_ps256(p0),
                                      _mm_shuffle_ps(p1, p1, _MM_SHUFFLE(3, 3, 2, 1)), 1);
      __m256 t0 = _mm256_mul_ps(col0, _mm256_shuffle_ps(p, p, _MM_SHUFFLE(0, 0, 0, 0)));
      __m256 t1 = _mm256_mul_ps(col1, _mm256_shuffle_ps(p, p, _MM_SHUFFLE(1, 1, 1, 1)));
      __m256 t2 = _mm256_add_ps(t0, t1);
      __m256 t3 = _mm256_mul_ps(col2, _mm256_shuffle_ps(p, p, _MM_SHUFFLE(2, 2, 2, 2)));
      __m256 t4 = _mm256_add_ps(t3, col3);
      __m256 t5 = _mm256_add_ps(t2, t4);
 
      _mm_storeu_ps((float*)dst, _mm256_castps256_ps128(t5));  dst += dst_stride;
      _mm_storeu_ps((float*)dst, _mm256_extractf128_ps(t5, 1)); dst += dst_stride;
    }
    else {  // odd number of elements, one to go
      __m128 e0 = _mm_load_ss((float*)src); src += sizeof(float);
      __m128 t0 = _mm_mul_ps(_mm256_castps256_ps128(col0), _mm_shuffle_ps(e0, e0, _MM_SHUFFLE(0, 0, 0, 0)));
 
      __m128 e1 = _mm_load_ss((float*)src); src += sizeof(float);
      __m128 t1 = _mm_mul_ps(_mm256_castps256_ps128(col1), _mm_shuffle_ps(e1, e1, _MM_SHUFFLE(0, 0, 0, 0)));
      __m128 t2 = _mm_add_ps(t0, t1);
 
      __m128 e2 = _mm_load_ss((float*)src); src += sizeof(float) - src_stride;
      __m128 t3 = _mm_mul_ps(_mm256_castps256_ps128(col2), _mm_shuffle_ps(e2, e2, _MM_SHUFFLE(0, 0, 0, 0)));
      __m128 t4 = _mm_add_ps(t2, _mm256_castps256_ps128(col3));
      __m128 t5 = _mm_add_ps(t3, t4);
 
      _mm_storeu_ps((float*)dst, t5);  dst += dst_stride;
    }
 
    _mm256_zeroupper();
  }
 
 
  void transformVertex3ToVertex4FastPathAVX(uint8_t* dst,
                                            const size_t dst_stride,
                                            const size_t /*dst_bytes*/,
                                            const glm::mat4& matrix,
                                            const uint8_t* src,
                                            const size_t src_stride,
                                            const size_t /*src_bytes*/,
                                            const size_t src_count)
  {
    if (src_count == 0) {
      return;
    }
    __m128 _col0 = _mm_loadu_ps(glm::value_ptr(matrix) + 0);
    __m128 _col1 = _mm_loadu_ps(glm::value_ptr(matrix) + 4);
    __m256 col0 = _mm256_insertf128_ps(_mm256_castps128_ps256(_col0), _col0, 1);
    __m128 _col2 = _mm_loadu_ps(glm::value_ptr(matrix) + 8);
    __m256 col1 = _mm256_insertf128_ps(_mm256_castps128_ps256(_col1), _col1, 1);
    __m128 _col3 = _mm_loadu_ps(glm::value_ptr(matrix) + 12);
    __m256 col2 = _mm256_insertf128_ps(_mm256_castps128_ps256(_col2), _col2, 1);
    __m256 col3 = _mm256_insertf128_ps(_mm256_castps128_ps256(_col3), _col3, 1);
 
    size_t i = 0;
    if (2 < src_count) {
      __m128 _p0 = _mm_load_ps((float*)src); src += src_stride;
      __m128 _p1 = _mm_load_ps((float*)src); src += src_stride;
      __m256 p = _mm256_insertf128_ps(_mm256_castps128_ps256(_p0), _p1, 1);
      for (; i + 4 < src_count; i += 2) {
        _p0 = _mm_load_ps((float*)src); src += src_stride;
        _p1 = _mm_load_ps((float*)src); src += src_stride;
        __m256 t0 = _mm256_mul_ps(col0, _mm256_shuffle_ps(p, p, _MM_SHUFFLE(0, 0, 0, 0)));
        __m256 t1 = _mm256_mul_ps(col1, _mm256_shuffle_ps(p, p, _MM_SHUFFLE(1, 1, 1, 1)));
        __m256 t2 = _mm256_add_ps(t0, t1);
        __m256 t3 = _mm256_mul_ps(col2, _mm256_shuffle_ps(p, p, _MM_SHUFFLE(2, 2, 2, 2)));
        p = _mm256_insertf128_ps(_mm256_castps128_ps256(_p0), _p1, 1);
 
        __m256 t4 = _mm256_add_ps(t3, col3);
        __m256 t5 = _mm256_add_ps(t2, t4);
 
        _mm256_stream_ps((float*)dst, t5); dst += 2 * dst_stride;
      }
 
      __m256 t0 = _mm256_mul_ps(col0, _mm256_shuffle_ps(p, p, _MM_SHUFFLE(0, 0, 0, 0)));
      __m256 t1 = _mm256_mul_ps(col1, _mm256_shuffle_ps(p, p, _MM_SHUFFLE(1, 1, 1, 1)));
      __m256 t2 = _mm256_add_ps(t0, t1);
      __m256 t3 = _mm256_mul_ps(col2, _mm256_shuffle_ps(p, p, _MM_SHUFFLE(2, 2, 2, 2)));
      __m256 t4 = _mm256_add_ps(t3, col3);
      __m256 t5 = _mm256_add_ps(t2, t4);
 
      _mm256_stream_ps((float*)dst, t5); dst += 2 * dst_stride;
      i += 2;
    }
 
    if ((src_count & 0x1) == 0) { // even number of elements (excluding 0, i.e., two to go)
      __m128 p0 = _mm_load_ps((float*)src);
      __m128 p1 = _mm_loadu_ps((float*)(src + src_stride) - 1);
      __m256 p = _mm256_insertf128_ps(_mm256_castps128_ps256(p0),
                                      _mm_shuffle_ps(p1, p1, _MM_SHUFFLE(3, 3, 2, 1)), 1);
      __m256 t0 = _mm256_mul_ps(col0, _mm256_shuffle_ps(p, p, _MM_SHUFFLE(0, 0, 0, 0)));
      __m256 t1 = _mm256_mul_ps(col1, _mm256_shuffle_ps(p, p, _MM_SHUFFLE(1, 1, 1, 1)));
      __m256 t2 = _mm256_add_ps(t0, t1);
      __m256 t3 = _mm256_mul_ps(col2, _mm256_shuffle_ps(p, p, _MM_SHUFFLE(2, 2, 2, 2)));
      __m256 t4 = _mm256_add_ps(t3, col3);
      __m256 t5 = _mm256_add_ps(t2, t4);
 
      _mm256_stream_ps((float*)dst, t5); dst += 2 * dst_stride;
    }
    else {  // odd number of elements, one to go
      __m128 e0 = _mm_load_ss((float*)src); src += sizeof(float);
      __m128 t0 = _mm_mul_ps(_mm256_castps256_ps128(col0), _mm_shuffle_ps(e0, e0, _MM_SHUFFLE(0, 0, 0, 0)));
 
      __m128 e1 = _mm_load_ss((float*)src); src += sizeof(float);
      __m128 t1 = _mm_mul_ps(_mm256_castps256_ps128(col1), _mm_shuffle_ps(e1, e1, _MM_SHUFFLE(0, 0, 0, 0)));
      __m128 t2 = _mm_add_ps(t0, t1);
 
      __m128 e2 = _mm_load_ss((float*)src); src += sizeof(float) - src_stride;
      __m128 t3 = _mm_mul_ps(_mm256_castps256_ps128(col2), _mm_shuffle_ps(e2, e2, _MM_SHUFFLE(0, 0, 0, 0)));
      __m128 t4 = _mm_add_ps(t2, _mm256_castps256_ps128(col3));
      __m128 t5 = _mm_add_ps(t3, t4);
 
      _mm_stream_ps((float*)dst, t5);  dst += dst_stride;
    }
 
    _mm256_zeroupper();
  }
 
}
 
#endif