Cogs.Core: Extensions/EchoSounder/Source/Systems/UniformGridSystem_sample_fma_gather

 
#include <glm/glm.hpp>
#include <glm/gtc/quaternion.hpp>
 
namespace {
 
  template<int lane> inline __m128 broadcast_ps(__m128 x) {
    return _mm_shuffle_ps(x, x, _MM_SHUFFLE(lane, lane, lane, lane));
  }
 
  __forceinline void quat_times_fma_vec3_ps(__m128& out_x, __m128& out_y, __m128& out_z,
                                            const __m128& q,
                                            const __m128& v_x, const __m128& v_y, const __m128& v_z)
  {
    __m128 q_x = _mm_shuffle_ps(q, q, _MM_SHUFFLE(0, 0, 0, 0));
    __m128 q_y = _mm_shuffle_ps(q, q, _MM_SHUFFLE(1, 1, 1, 1));
    __m128 q_z = _mm_shuffle_ps(q, q, _MM_SHUFFLE(2, 2, 2, 2));
    __m128 q_w = _mm_shuffle_ps(q, q, _MM_SHUFFLE(3, 3, 3, 3));
    __m128 uv_x = _mm_fmsub_ps(q_y, v_z, _mm_mul_ps(v_y, q_z));
    __m128 uv_y = _mm_fmsub_ps(q_z, v_x, _mm_mul_ps(v_z, q_x));
    __m128 uv_z = _mm_fmsub_ps(q_x, v_y, _mm_mul_ps(v_x, q_y));
    __m128 uuv_x = _mm_fmsub_ps(q_y, uv_z, _mm_mul_ps(uv_y, q_z));
    __m128 uuv_y = _mm_fmsub_ps(q_z, uv_x, _mm_mul_ps(uv_z, q_x));
    __m128 uuv_z = _mm_fmsub_ps(q_x, uv_y, _mm_mul_ps(uv_x, q_y));
    __m128 t_x = _mm_fmadd_ps(q_w, uv_x, uuv_x);
    __m128 t_y = _mm_fmadd_ps(q_w, uv_y, uuv_y);
    __m128 t_z = _mm_fmadd_ps(q_w, uv_z, uuv_z);
    out_x = _mm_add_ps(v_x, _mm_add_ps(t_x, t_x));
    out_y = _mm_add_ps(v_y, _mm_add_ps(t_y, t_y));
    out_z = _mm_add_ps(v_z, _mm_add_ps(t_z, t_z));
  }
 
  __forceinline __m128 atan_00155_fma_ps(__m128 x)
  {
    static const float signBit = -0.f;
    static const __m128 C = _mm_setr_ps(float(3.14159265358979323846264338327950288 / 4.0),
                                        0.2447f,
                                        0.0663f,
                                        1.f);
    const auto c0 = _mm_shuffle_ps(C, C, _MM_SHUFFLE(0, 0, 0, 0));
    const auto c1 = _mm_shuffle_ps(C, C, _MM_SHUFFLE(1, 1, 1, 1));
    const auto c2 = _mm_shuffle_ps(C, C, _MM_SHUFFLE(2, 2, 2, 2));
    const auto c3 = _mm_shuffle_ps(C, C, _MM_SHUFFLE(3, 3, 3, 3));
    __m128 sign = _mm_load1_ps(&signBit);
    __m128 abs_x = _mm_andnot_ps(sign, x);
    __m128 t1 = _mm_sub_ps(abs_x, c3);       // t1 = |x|-1
    __m128 t3 = _mm_fmadd_ps(abs_x, c2, c1); // t3 = abs_x*c2 + c1
    __m128 t2 = _mm_mul_ps(t1, t3);
    __m128 t4 = _mm_mul_ps(x, t2);           // r4 = x*t1*t3
    __m128 t5 = _mm_fmsub_ps(c0, x, t4);     // t5 = c0*x - t4
    return t5;
  }
 
  __forceinline /*__declspec(noinline)*/ __m128 asin_fma_ps(__m128 x)
  {
    const __m128 A = _mm_setr_ps(1.5707288f, -0.2121144f, 0.0742610f, -0.0187293f);
    __m128 C0_ps = _mm_shuffle_ps(A, A, _MM_SHUFFLE(0, 0, 0, 0));
    __m128 C1_ps = _mm_shuffle_ps(A, A, _MM_SHUFFLE(1, 1, 1, 1));
    __m128 C2_ps = _mm_shuffle_ps(A, A, _MM_SHUFFLE(2, 2, 2, 2));
    __m128 C3_ps = _mm_shuffle_ps(A, A, _MM_SHUFFLE(3, 3, 3, 3));
 
    const __m128 B = _mm_setr_ps(-0.f, 1.f, 1.5707963267948966f, 0.f);
    __m128 sign_ps = _mm_shuffle_ps(B, B, _MM_SHUFFLE(0, 0, 0, 0));
    __m128 one_ps = _mm_shuffle_ps(B, B, _MM_SHUFFLE(1, 1, 1, 1));
    __m128 halfpi_ps = _mm_shuffle_ps(B, B, _MM_SHUFFLE(2, 2, 2, 2));
 
    __m128 abs_x = _mm_andnot_ps(sign_ps, x);
 
    __m128 a = _mm_sub_ps(one_ps, abs_x);
    a = _mm_sqrt_ps(a);
 
    __m128 b = C3_ps;
    b = _mm_fmadd_ps(b, abs_x, C2_ps);
    b = _mm_fmadd_ps(b, abs_x, C1_ps);
    b = _mm_fmadd_ps(b, abs_x, C0_ps);
 
    __m128 rv = _mm_fmsub_ps(a, b, halfpi_ps);
    rv = _mm_andnot_ps(sign_ps, rv);
    rv = _mm_or_ps(rv, _mm_and_ps(x, sign_ps));
 
    return rv;
  }
 
#if 0 //static unittest is no good on systems which does not have avx2 support, but extensions does not have proper unittest support
#pragma optimize( "", off )
  static struct UnitTests
  {
    UnitTests()
    {
      const unsigned N = 1000;
 
      for (unsigned i = 0; i < N; i++) {
        __m128 x, y;
        x.m128_f32[0] = (2.f / (N - 1))*i - 1.f;
        y = atan_00155_fma_ps(x);
        auto e = std::abs(atan(x.m128_f32[0]) - y.m128_f32[0]);
        assert(e < 0.00155f);
      }
 
      for (unsigned i = 0; i < N; i++) {
        __m128 x, y;
        x.m128_f32[0] = (2.f / (N - 1))*i - 1.f;
        y = asin_fma_ps(x);
        auto e = std::abs(std::asin(x.m128_f32[0]) - y.m128_f32[0]);
        assert(e < 7e-4f);
      }
 
      int a = 2;
    }
  } unitTests;
#pragma optimize( "", on )
#endif
 
}
 
namespace Cogs::Core::EchoSounder {
 
  //#pragma optimize( "", off )
  void sampleTile_inner_fma_gather(float * data,
                                   const float *v,
                                   const glm::vec3 /*tileIndex*/,
                                   const glm::uvec3 /*tilePos*/,
                                   const glm::uvec3 dataSize,
                                   const glm::uvec3 maxIndices,
                                   const glm::vec3 tp,
                                   const glm::vec3 scale,
                                   const glm::vec3 arrayPositionGlobal,
                                   const glm::vec4* frustum,
                                   const float minDistanceSquared,
                                   const float maxDistanceSquared,
                                   const glm::quat inverseOrientation,
                                   const uint32_t coordSys,
                                   const uint32_t minorCount,
                                   const uint32_t sampleCount,
                                   const glm::vec3 polarScale,
                                   const glm::vec3 polarShift)
  {
    const __m128 rot_ = _mm_set_ps(inverseOrientation.w, inverseOrientation.z, inverseOrientation.y, inverseOrientation.x);
    assert((dataSize.x & 3) == 0);
    assert(coordSys == 1);
 
    static const __m128 c0123 = _mm_setr_ps(0, 1, 2, 3);
    static const __m128 one_ps = _mm_setr_ps(1.f, 1.f, 1.f, 1.f);
    glm::vec3 ban = arrayPositionGlobal - tp;
 
    glm::uvec3 maxIndicesLL = glm::max(maxIndices, glm::uvec3(1u)) - glm::uvec3(1);
 
    for (uint32_t z = 0; z < dataSize.z; z++) {
      __m128 pz = _mm_mul_ss(_mm_set1_ps(scale.z), _mm_set1_ps((float)z));
      __m128 qz = _mm_sub_ss(pz, _mm_set1_ps(ban.z));
      for (uint32_t y = 0; y < dataSize.y; y++) {
        __m128 py = _mm_mul_ss(_mm_set1_ps(scale.y), _mm_set1_ps((float)y));
        __m128 qy = _mm_sub_ss(py, _mm_set1_ps(ban.y));
        __m128 r2_yz = _mm_add_ss(_mm_mul_ss(qy, qy), _mm_mul_ss(qz, qz));
        __m128 in0_dot_yz = _mm_add_ps(_mm_mul_ps(_mm_set1_ps(frustum[0].y), qy), _mm_mul_ps(_mm_set1_ps(frustum[0].z), qz));
        __m128 in1_dot_yz = _mm_add_ps(_mm_mul_ps(_mm_set1_ps(frustum[1].y), qy), _mm_mul_ps(_mm_set1_ps(frustum[1].z), qz));
        __m128 in2_dot_yz = _mm_add_ps(_mm_mul_ps(_mm_set1_ps(frustum[2].y), qy), _mm_mul_ps(_mm_set1_ps(frustum[2].z), qz));
        __m128 in3_dot_yz = _mm_add_ps(_mm_mul_ps(_mm_set1_ps(frustum[3].y), qy), _mm_mul_ps(_mm_set1_ps(frustum[3].z), qz));
 
        in0_dot_yz = _mm_shuffle_ps(in0_dot_yz, in0_dot_yz, _MM_SHUFFLE(0, 0, 0, 0));
        in1_dot_yz = _mm_shuffle_ps(in1_dot_yz, in1_dot_yz, _MM_SHUFFLE(0, 0, 0, 0));
        in2_dot_yz = _mm_shuffle_ps(in2_dot_yz, in2_dot_yz, _MM_SHUFFLE(0, 0, 0, 0));
        in3_dot_yz = _mm_shuffle_ps(in3_dot_yz, in3_dot_yz, _MM_SHUFFLE(0, 0, 0, 0));
        r2_yz = _mm_shuffle_ps(r2_yz, r2_yz, _MM_SHUFFLE(0, 0, 0, 0));
 
        for (uint32_t x = 0; x < dataSize.x; x += 4) {
 
          // sample position relative to ping origin
          __m128 i = _mm_add_ps(_mm_set1_ps((float)x), c0123);
          __m128 qx = _mm_sub_ps(_mm_mul_ps(_mm_set1_ps(scale.x), i), _mm_set1_ps(ban.x));
 
          // squared radius
          __m128 r2 = _mm_add_ps(_mm_mul_ps(qx, qx), r2_yz);
 
          // compare q against frustum planes
 
 
          __m128 mask0 = _mm_cmple_ps(_mm_setzero_ps(), _mm_fmadd_ps(_mm_set1_ps(frustum[0].x), qx, in0_dot_yz));
          __m128 mask1 = _mm_cmple_ps(_mm_setzero_ps(), _mm_fmadd_ps(_mm_set1_ps(frustum[1].x), qx, in1_dot_yz));
          __m128 mask2 = _mm_cmple_ps(_mm_setzero_ps(), _mm_fmadd_ps(_mm_set1_ps(frustum[2].x), qx, in2_dot_yz));
          __m128 mask3 = _mm_cmple_ps(_mm_setzero_ps(), _mm_fmadd_ps(_mm_set1_ps(frustum[3].x), qx, in3_dot_yz));
 
          //__m128 mask0 = _mm_cmple_ps(_mm_setzero_ps(), _mm_add_ps(_mm_mul_ps(_mm_set1_ps(frustum[0].x), qx), in0_dot_yz));
          //__m128 mask1 = _mm_cmple_ps(_mm_setzero_ps(), _mm_add_ps(_mm_mul_ps(_mm_set1_ps(frustum[1].x), qx), in1_dot_yz));
          //__m128 mask2 = _mm_cmple_ps(_mm_setzero_ps(), _mm_add_ps(_mm_mul_ps(_mm_set1_ps(frustum[2].x), qx), in2_dot_yz));
          //__m128 mask3 = _mm_cmple_ps(_mm_setzero_ps(), _mm_add_ps(_mm_mul_ps(_mm_set1_ps(frustum[3].x), qx), in3_dot_yz));
          __m128 mask4 = _mm_cmple_ps(_mm_set1_ps(minDistanceSquared), r2);
          __m128 mask5 = _mm_cmple_ps(r2, _mm_set1_ps(maxDistanceSquared));
          __m128 mask = _mm_and_ps(_mm_and_ps(_mm_and_ps(mask0, mask1),
                                              _mm_and_ps(mask2, mask3)),
                                   _mm_and_ps(mask4, mask5));
          //int movemask = _mm_movemask_ps(mask);
          //if (movemask == 0) {
          //  assert(false);
          //  continue;
          //}
          // rotate into ping's orientation
          __m128 ax, ay, az;
          quat_times_fma_vec3_ps(ax, ay, az,
                                 rot_,
                                 qx, broadcast_ps<0>(qy), broadcast_ps<0>(qz));
 
          __m128 r_inv = _mm_rsqrt_ps(r2);
          __m128 r = _mm_rcp_ps(r_inv);
 
          // dirX = asin(a.x/r)
           // dirY = atan(y/z)
          __m128 dirx = asin_fma_ps(_mm_mul_ps(ax, r_inv));
          __m128 diry = atan_00155_fma_ps(_mm_mul_ps(ay, _mm_rcp_ps(az)));
 
          // Figure out interpolation parameters
          __m128 xi_i = _mm_max_ps(_mm_setzero_ps(), _mm_mul_ps(_mm_set1_ps(polarScale.x), _mm_sub_ps(diry, _mm_set1_ps(polarShift.x))));
          __m128 xi_j = _mm_max_ps(_mm_setzero_ps(), _mm_mul_ps(_mm_set1_ps(polarScale.y), _mm_sub_ps(dirx, _mm_set1_ps(polarShift.y))));
          __m128 xi_k = _mm_max_ps(_mm_setzero_ps(), _mm_mul_ps(_mm_set1_ps(polarScale.z), _mm_sub_ps(r, _mm_set1_ps(polarShift.z))));
          __m128 tau_i = _mm_floor_ps(xi_i);
          __m128 tau_j = _mm_floor_ps(xi_j);
          __m128 tau_k = _mm_floor_ps(xi_k);
          __m128 t_i = _mm_sub_ps(xi_i, tau_i);
          __m128 t_j = _mm_sub_ps(xi_j, tau_j);
          __m128 t_k = _mm_sub_ps(xi_k, tau_k);
 
          __m128 i_i = (_mm_min_ps(_mm_set1_ps((float)maxIndicesLL.x), tau_i));
          __m128 i_j = (_mm_min_ps(_mm_set1_ps((float)maxIndicesLL.y), tau_j));
          __m128 i_k = (_mm_min_ps(_mm_set1_ps((float)maxIndicesLL.z), tau_k));
 
#if 0
          __m128i i_i_ = _mm_cvtps_epi32(i_i);
          __m128i i_j_ = _mm_cvtps_epi32(i_j);
          __m128i i_k_ = _mm_cvtps_epi32(i_k);
          __m128i ix00 = _mm_add_epi32(_mm_mullo_epi32(_mm_set1_epi32(sampleCount), _mm_add_epi32(_mm_mullo_epi32(_mm_set1_epi32(minorCount), i_j_), i_i_)), i_k_);
#else
          // Use floating point mul instead of int mul, which is faster (and we the dataset is so small that float mantissa is sufficient).
          __m128 ix00_ = _mm_add_ps(_mm_mul_ps(_mm_set1_ps((float)sampleCount), _mm_add_ps(_mm_mul_ps(_mm_set1_ps((float)minorCount), i_j), i_i)), i_k);
          __m128i ix00 = _mm_cvtps_epi32(ix00_);
#endif
 
#if 1
          // Assume gather is slow
          __m128 val00 = _mm_setr_ps(v[ix00.m128i_u32[0]],
                                     v[ix00.m128i_u32[1]],
                                     v[ix00.m128i_u32[2]],
                                     v[ix00.m128i_u32[3]]);
 
          __m128 val01 = _mm_setr_ps(v[ix00.m128i_u32[0] + minorCount],
                                     v[ix00.m128i_u32[1] + minorCount],
                                     v[ix00.m128i_u32[2] + minorCount],
                                     v[ix00.m128i_u32[3] + minorCount]);
 
          __m128 val10 = _mm_setr_ps(v[ix00.m128i_u32[0] + sampleCount],
                                     v[ix00.m128i_u32[1] + sampleCount],
                                     v[ix00.m128i_u32[2] + sampleCount],
                                     v[ix00.m128i_u32[3] + sampleCount]);
 
          __m128 val11 = _mm_setr_ps(v[ix00.m128i_u32[0] + minorCount + sampleCount],
                                     v[ix00.m128i_u32[1] + minorCount + sampleCount],
                                     v[ix00.m128i_u32[2] + minorCount + sampleCount],
                                     v[ix00.m128i_u32[3] + minorCount + sampleCount]);
#elif 1
          // Assume gather is fast
          __m128i ix01 = _mm_add_epi32(ix00, _mm_set1_epi32(minorCount));
          __m128i ix10 = _mm_add_epi32(ix00, _mm_set1_epi32(sampleCount));
          __m128i ix11 = _mm_add_epi32(ix00, _mm_set1_epi32(minorCount + sampleCount));
 
          __m128 val00 = _mm_i32gather_ps(v, ix00, 4);
          __m128 val01 = _mm_i32gather_ps(v, ix01, 4);
          __m128 val10 = _mm_i32gather_ps(v, ix10, 4);
          __m128 val11 = _mm_i32gather_ps(v, ix11, 4);
#endif
 
          //__m128 val0 = _mm_add_ps(_mm_mul_ps(s_j, val00), _mm_mul_ps(t_j, val01));
          __m128 dif0 = _mm_sub_ps(val01, val00);
          __m128 val0 = _mm_fmadd_ps(t_j, dif0, val00);
 
          //__m128 val1 = _mm_add_ps(_mm_mul_ps(_mm_sub_ps(one_ps, t_j), val10), _mm_mul_ps(t_j, val11));
          __m128 dif1 = _mm_sub_ps(val11, val10);
          __m128 val1 = _mm_fmadd_ps(t_j, dif1, val10);
 
          //__m128 val_ = _mm_add_ps(_mm_mul_ps(_mm_sub_ps(one_ps, t_i), val0), _mm_mul_ps(t_i, val1));
          __m128 dif = _mm_sub_ps(val1, val0);
          __m128 val_ = _mm_fmadd_ps(t_i, dif, val0);
 
          uint32_t index = z * dataSize.y*dataSize.x + y * dataSize.x + x;
          _mm_store_ps(data + index, val_);
 
        }
      }
    }
  }
#pragma optimize( "", on )
 
}