Cogs.Core: Source/Utilities/TransformVertices

#ifndef EMSCRIPTEN
#include <glm/gtc/type_ptr.hpp>
#include <xmmintrin.h>
 
namespace Cogs::Core
{
 
  void transformVertex3ToVertex4SSE1(uint8_t* dst, const size_t dst_stride, const size_t /*dst_bytes*/,
                                      const glm::mat4& matrix,
                                      const uint8_t* src, const size_t src_stride, const size_t /*src_bytes*/, const size_t src_count)
  {
    if (src_count == 0) {
      return;
    }
    //  _mm_loadu_ps    SSE1
    //  _mm_load_ss     SSE1
    //  _mm_shuffle_ps  SSE1
    //  _mm_mul_ps      SSE1
    //  _mm_add_ps      SSE1
    //  _mm_storeu_ps   SSE1
 
    __m128 col0 = _mm_loadu_ps(glm::value_ptr(matrix) + 0);
    __m128 col1 = _mm_loadu_ps(glm::value_ptr(matrix) + 4);
    __m128 col2 = _mm_loadu_ps(glm::value_ptr(matrix) + 8);
    __m128 col3 = _mm_loadu_ps(glm::value_ptr(matrix) + 12);
 
    if (1 < src_count) {
      __m128 p0 = _mm_loadu_ps((float*)src); src += src_stride;
      for (size_t i = 0; i + 2 < src_count; i++) {
        // x_k = m_00 x_k + m_10 y_k + m_20 z_k + m_30
        // y_k = m_01 x_k + m_11 y_k + m_21 z_k + m_31
        // z_k = m_02 x_k + m_12 y_k + m_22 z_k + m_32
        // w_k = m_03 x_k + m_13 y_k + m_23 z_k + m_33
        __m128 t00 = _mm_mul_ps(col0, _mm_shuffle_ps(p0, p0, _MM_SHUFFLE(0, 0, 0, 0)));
        __m128 t01 = _mm_mul_ps(col1, _mm_shuffle_ps(p0, p0, _MM_SHUFFLE(1, 1, 1, 1)));
        __m128 t02 = _mm_add_ps(t00, t01);
        __m128 t03 = _mm_mul_ps(col2, _mm_shuffle_ps(p0, p0, _MM_SHUFFLE(2, 2, 2, 2)));
        p0 = _mm_loadu_ps((float*)src); src += src_stride;
        __m128 t04 = _mm_add_ps(t03, col3);
        __m128 t05 = _mm_add_ps(t02, t04);
        _mm_storeu_ps((float*)dst, t05); dst += dst_stride;
      }
      __m128 t00 = _mm_mul_ps(col0, _mm_shuffle_ps(p0, p0, _MM_SHUFFLE(0, 0, 0, 0)));
      __m128 t01 = _mm_mul_ps(col1, _mm_shuffle_ps(p0, p0, _MM_SHUFFLE(1, 1, 1, 1)));
      __m128 t02 = _mm_add_ps(t00, t01);
      __m128 t03 = _mm_mul_ps(col2, _mm_shuffle_ps(p0, p0, _MM_SHUFFLE(2, 2, 2, 2)));
      __m128 t04 = _mm_add_ps(t03, col3);
      __m128 t05 = _mm_add_ps(t02, t04);
      _mm_storeu_ps((float*)dst, t05); dst += dst_stride;
    }
 
    // Last element, we use three single-scalar loads to avoid reading
    // beyond the source buffer
    __m128 e0 = _mm_load_ss((float*)src); src += sizeof(float);
    __m128 t0 = _mm_mul_ps(col0, _mm_shuffle_ps(e0, e0, _MM_SHUFFLE(0, 0, 0, 0)));
 
    __m128 e1 = _mm_load_ss((float*)src); src += sizeof(float);
    __m128 t1 = _mm_mul_ps(col1, _mm_shuffle_ps(e1, e1, _MM_SHUFFLE(0, 0, 0, 0)));
    __m128 t2 = _mm_add_ps(t0, t1);
 
    __m128 e2 = _mm_load_ss((float*)src);
    __m128 t3 = _mm_mul_ps(col2, _mm_shuffle_ps(e2, e2, _MM_SHUFFLE(0, 0, 0, 0)));
    __m128 t4 = _mm_add_ps(t2, col3);
    __m128 t5 = _mm_add_ps(t3, t4);
 
    _mm_storeu_ps((float*)dst, t5); dst += dst_stride;
  }
 
  void transformVertex3ToVertex4FastPathSSE1(uint8_t* dst, const size_t dst_stride, const size_t /*dst_bytes*/,
                                               const glm::mat4& matrix,
                                               const uint8_t* src, const size_t src_stride, const size_t /*src_bytes*/, const size_t src_count)
  {
    // Assumes that dst is 16-byte aligned
    if (src_count == 0) {
      return;
    }
    //  _mm_loadu_ps    SSE1
    //  _mm_load_ss     SSE1
    //  _mm_shuffle_ps  SSE1
    //  _mm_mul_ps      SSE1
    //  _mm_add_ps      SSE1
    //  _mm_storeu_ps   SSE1
 
    __m128 col0 = _mm_loadu_ps(glm::value_ptr(matrix) + 0);
    __m128 col1 = _mm_loadu_ps(glm::value_ptr(matrix) + 4);
    __m128 col2 = _mm_loadu_ps(glm::value_ptr(matrix) + 8);
    __m128 col3 = _mm_loadu_ps(glm::value_ptr(matrix) + 12);
 
    if (1 < src_count) {
      __m128 p0 = _mm_load_ps((float*)src); src += src_stride;
      for (size_t i = 0; i + 2 < src_count; i++) {
        // x_k = m_00 x_k + m_10 y_k + m_20 z_k + m_30
        // y_k = m_01 x_k + m_11 y_k + m_21 z_k + m_31
        // z_k = m_02 x_k + m_12 y_k + m_22 z_k + m_32
        // w_k = m_03 x_k + m_13 y_k + m_23 z_k + m_33
        __m128 t00 = _mm_mul_ps(col0, _mm_shuffle_ps(p0, p0, _MM_SHUFFLE(0, 0, 0, 0)));
        __m128 t01 = _mm_mul_ps(col1, _mm_shuffle_ps(p0, p0, _MM_SHUFFLE(1, 1, 1, 1)));
        __m128 t02 = _mm_add_ps(t00, t01);
        __m128 t03 = _mm_mul_ps(col2, _mm_shuffle_ps(p0, p0, _MM_SHUFFLE(2, 2, 2, 2)));
        p0 = _mm_load_ps((float*)src); src += src_stride;
        __m128 t04 = _mm_add_ps(t03, col3);
        __m128 t05 = _mm_add_ps(t02, t04);
        _mm_stream_ps((float*)dst, t05); dst += dst_stride;
      }
      __m128 t00 = _mm_mul_ps(col0, _mm_shuffle_ps(p0, p0, _MM_SHUFFLE(0, 0, 0, 0)));
      __m128 t01 = _mm_mul_ps(col1, _mm_shuffle_ps(p0, p0, _MM_SHUFFLE(1, 1, 1, 1)));
      __m128 t02 = _mm_add_ps(t00, t01);
      __m128 t03 = _mm_mul_ps(col2, _mm_shuffle_ps(p0, p0, _MM_SHUFFLE(2, 2, 2, 2)));
      __m128 t04 = _mm_add_ps(t03, col3);
      __m128 t05 = _mm_add_ps(t02, t04);
      _mm_stream_ps((float*)dst, t05); dst += dst_stride;
    }
 
    // Last element, we use three single-scalar loads to avoid reading
    // beyond the source buffer
    __m128 e0 = _mm_load_ss((float*)src); src += sizeof(float);
    __m128 t0 = _mm_mul_ps(col0, _mm_shuffle_ps(e0, e0, _MM_SHUFFLE(0, 0, 0, 0)));
 
    __m128 e1 = _mm_load_ss((float*)src); src += sizeof(float);
    __m128 t1 = _mm_mul_ps(col1, _mm_shuffle_ps(e1, e1, _MM_SHUFFLE(0, 0, 0, 0)));
    __m128 t2 = _mm_add_ps(t0, t1);
 
    __m128 e2 = _mm_load_ss((float*)src);
    __m128 t3 = _mm_mul_ps(col2, _mm_shuffle_ps(e2, e2, _MM_SHUFFLE(0, 0, 0, 0)));
    __m128 t4 = _mm_add_ps(t2, col3);
    __m128 t5 = _mm_add_ps(t3, t4);
 
    _mm_stream_ps((float*)dst, t5); dst += dst_stride;
  }
 
}
#endif