Cogs.Core: Extensions/EchoSounder/Source/Systems/UniformGridSystem_sample

 
#include <glm/glm.hpp>
#include <glm/gtc/quaternion.hpp>
 
#include <immintrin.h>
 
//#include "C:\utils\iaca-win64\iacaMarks.h"
 
namespace {
 
  __forceinline void quat_times_vec3_ps(__m256& out_x, __m256& out_y, __m256& out_z,
                                        const glm::quat& q,
                                        const __m256& v_x, const __m256& v_y, const __m256& v_z)
  {
    __m256 q_x = _mm256_set1_ps(q.x);
    __m256 q_y = _mm256_set1_ps(q.y);
    __m256 q_z = _mm256_set1_ps(q.z);
    __m256 q_w = _mm256_set1_ps(q.w);
    __m256 uv_x = _mm256_fmsub_ps(q_y, v_z, _mm256_mul_ps(v_y, q_z));
    __m256 uv_y = _mm256_fmsub_ps(q_z, v_x, _mm256_mul_ps(v_z, q_x));
    __m256 uv_z = _mm256_fmsub_ps(q_x, v_y, _mm256_mul_ps(v_x, q_y));
    __m256 uuv_x = _mm256_fmsub_ps(q_y, uv_z, _mm256_mul_ps(uv_y, q_z));
    __m256 uuv_y = _mm256_fmsub_ps(q_z, uv_x, _mm256_mul_ps(uv_z, q_x));
    __m256 uuv_z = _mm256_fmsub_ps(q_x, uv_y, _mm256_mul_ps(uv_x, q_y));
    __m256 t_x = _mm256_fmadd_ps(q_w, uv_x, uuv_x);
    __m256 t_y = _mm256_fmadd_ps(q_w, uv_y, uuv_y);
    __m256 t_z = _mm256_fmadd_ps(q_w, uv_z, uuv_z);
    out_x = _mm256_add_ps(v_x, _mm256_add_ps(t_x, t_x));
    out_y = _mm256_add_ps(v_y, _mm256_add_ps(t_y, t_y));
    out_z = _mm256_add_ps(v_z, _mm256_add_ps(t_z, t_z));
  }
 
  __forceinline __m256 atan_00155_ps(__m256 x)
  {
    static const float signBit = -0.f;
    const auto c0 = _mm256_set1_ps(float(3.14159265358979323846264338327950288 / 4.0));
    const auto c1 = _mm256_set1_ps(0.2447f);
    const auto c2 = _mm256_set1_ps(0.0663f);
    const auto c3 = _mm256_set1_ps(1.f);
    __m256 sign = _mm256_set1_ps(-0.f);
    __m256 abs_x = _mm256_andnot_ps(sign, x);
    __m256 t1 = _mm256_sub_ps(abs_x, c3);       // t1 = |x|-1
    __m256 t3 = _mm256_fmadd_ps(abs_x, c2, c1); // t3 = abs_x*c2 + c1
    __m256 t2 = _mm256_mul_ps(t1, t3);
    __m256 t4 = _mm256_mul_ps(x, t2);           // r4 = x*t1*t3
    __m256 t5 = _mm256_fmsub_ps(c0, x, t4);     // t5 = c0*x - t4
    return t5;
  }
 
  __forceinline /*__declspec(noinline)*/ __m256 asin_ps(__m256 x)
  {
    const auto C0_ps = _mm256_set1_ps(1.5707288f);
    const auto C1_ps = _mm256_set1_ps(-0.2121144f);
    const auto C2_ps = _mm256_set1_ps(0.0742610f);
    const auto C3_ps = _mm256_set1_ps(-0.0187293f);
    const auto sign_ps = _mm256_set1_ps(-0.f);
    const auto one_ps = _mm256_set1_ps(1.f);
    const auto halfpi_ps = _mm256_set1_ps(1.5707963267948966f);
    const auto special = _mm256_set1_ps(std::numeric_limits<float>::infinity());  // = 7F800000 (mask for exponent field)
 
    __m256 abs_x = _mm256_andnot_ps(sign_ps, x);
 
    __m256 a_ = _mm256_sub_ps(one_ps, abs_x);
#if 0
    __m256 a = _mm256_sqrt_ps(a_);
#else
    __m256 t = _mm256_rsqrt_ps(a_);
    __m256 m = _mm256_cmp_ps(special, t, _CMP_NEQ_OQ);  // Mask for non-infinity
    __m256 a = _mm256_mul_ps(a_, _mm256_and_ps(m, t));
#endif
 
    __m256 b = C3_ps;
    b = _mm256_fmadd_ps(b, abs_x, C2_ps);
    b = _mm256_fmadd_ps(b, abs_x, C1_ps);
    b = _mm256_fmadd_ps(b, abs_x, C0_ps);
 
    __m256 rv = _mm256_fmsub_ps(a, b, halfpi_ps);
    rv = _mm256_andnot_ps(sign_ps, rv);
    rv = _mm256_or_ps(rv, _mm256_and_ps(x, sign_ps));
    return rv;
  }
 
#if 0 //static unittest is no good on systems which does not have avx2 support, but extensions does not have proper unittest support
#pragma optimize( "", off )
  static struct UnitTests
  {
    UnitTests()
    {
      const unsigned N = 1000;
 
      for (unsigned i = 0; i < N; i++) {
        __m256 x, y;
        x = _mm256_set1_ps((2.f / (N - 1))*i - 1.f);
        y = atan_00155_ps(x);
        auto e = std::abs(atan(x.m256_f32[7]) - y.m256_f32[7]);
        assert(e < 0.00155f);
      }
 
      for (unsigned i = 0; i < N; i++) {
        __m256 x, y;
        x = _mm256_set1_ps((2.f / (N - 1))*i - 1.f);
        y = asin_ps(x);
        auto e = std::abs(std::asin(x.m256_f32[7]) - y.m256_f32[7]);
        assert(e < 7e-4f);
      }
 
      int a = 2;
    }
  } unitTests;
#pragma optimize( "", on )
#endif
 
}
 
 
namespace Cogs::Core::EchoSounder {
 
  // defined in UniformGridSystem.cpp
  glm::vec3 getSamplePosRef(const glm::uvec3 dataSize,
                            const glm::vec3 tp,
                            const glm::vec3 scale,
                            const glm::vec3 arrayPositionGlobal,
                            const glm::vec4* frustum,
                            const float minDistanceSquared,
                            const float maxDistanceSquared,
                            const glm::quat inverseOrientation,
                            const uint32_t coordSys,
                            const glm::vec3 polarScale,
                            const glm::vec3 polarShift,
                            const uint32_t x,
                            const uint32_t y,
                            const uint32_t z);
 
//#pragma optimize("", off)
  void sampleTile3_border_avx2(float * data,
                               float& minVal,
                               float& maxVal,
                               const float *v,
                               const glm::vec3 /*tileIndex*/,
                               const glm::uvec3 /*tilePos*/,
                               const glm::uvec3 dataSize,
                               const glm::uvec3 maxIndices,
                               const glm::vec3 tp,
                               const glm::vec3 scale,
                               const glm::vec3 arrayPositionGlobal,
                               const glm::vec4* frustum,
                               const float minDistanceSquared,
                               const float maxDistanceSquared,
                               const glm::quat inverseOrientation,
                               const uint32_t coordSys,
                               const uint32_t minorCount,
                               const uint32_t sampleCount,
                               const glm::vec3 polarScale,
                               const glm::vec3 polarShift)
  {
    const __m128 rot_ = _mm_set_ps(inverseOrientation.w, inverseOrientation.z, inverseOrientation.y, inverseOrientation.x);
    assert((dataSize.x & 7) == 0);
    assert(coordSys == 1);
 
    static const __m256 c01234567 = _mm256_setr_ps(0, 1, 2, 3, 4, 5, 6, 7);
    static const __m128 one_ps = _mm_setr_ps(1.f, 1.f, 1.f, 1.f);
    glm::vec3 ban = arrayPositionGlobal - tp;
 
    glm::uvec3 maxIndicesLL = glm::max(maxIndices, glm::uvec3(1u)) - glm::uvec3(1);
 
    __m256 minValue = _mm256_set1_ps(std::numeric_limits<float>::max());
    __m256 maxValue = _mm256_set1_ps(-std::numeric_limits<float>::max());
    for (uint32_t z = 0; z < dataSize.z; z++) {
      __m128 pz = _mm_mul_ss(_mm_set1_ps(scale.z), _mm_set1_ps(static_cast<float>(z)));
      __m128 qz = _mm_sub_ss(pz, _mm_set1_ps(ban.z));
      for (uint32_t y = 0; y < dataSize.y; y++) {
        __m128 py = _mm_mul_ss(_mm_set1_ps(scale.y), _mm_set1_ps(static_cast<float>(y)));
        __m128 qy = _mm_sub_ss(py, _mm_set1_ps(ban.y));
        __m128 r2_yz_ = _mm_add_ss(_mm_mul_ss(qy, qy), _mm_mul_ss(qz, qz));
        __m128 in0_dot_yz_ = _mm_add_ps(_mm_mul_ps(_mm_set1_ps(frustum[0].y), qy), _mm_mul_ps(_mm_set1_ps(frustum[0].z), qz));
        __m128 in1_dot_yz_ = _mm_add_ps(_mm_mul_ps(_mm_set1_ps(frustum[1].y), qy), _mm_mul_ps(_mm_set1_ps(frustum[1].z), qz));
        __m128 in2_dot_yz_ = _mm_add_ps(_mm_mul_ps(_mm_set1_ps(frustum[2].y), qy), _mm_mul_ps(_mm_set1_ps(frustum[2].z), qz));
        __m128 in3_dot_yz_ = _mm_add_ps(_mm_mul_ps(_mm_set1_ps(frustum[3].y), qy), _mm_mul_ps(_mm_set1_ps(frustum[3].z), qz));
 
        __m256 in0_dot_yz = _mm256_broadcastss_ps(in0_dot_yz_);
        __m256 in1_dot_yz = _mm256_broadcastss_ps(in1_dot_yz_);
        __m256 in2_dot_yz = _mm256_broadcastss_ps(in2_dot_yz_);
        __m256 in3_dot_yz = _mm256_broadcastss_ps(in3_dot_yz_);
        __m256 r2_yz = _mm256_broadcastss_ps(r2_yz_);
 
        for (uint32_t x = 0; x < dataSize.x; x += 8) {
          //IACA_VC64_START;
 
          __m256 i = _mm256_add_ps(_mm256_set1_ps(static_cast<float>(x)), c01234567);
          __m256 qx = _mm256_fmsub_ps(_mm256_set1_ps(scale.x), i, _mm256_set1_ps(ban.x));
          __m256 r2 = _mm256_fmadd_ps(qx, qx, r2_yz);
 
          // compare q against frustum planes
          __m256 mask0 = _mm256_cmp_ps(_mm256_setzero_ps(), _mm256_fmadd_ps(_mm256_set1_ps(frustum[0].x), qx, in0_dot_yz), _CMP_LE_OQ);
          __m256 mask1 = _mm256_cmp_ps(_mm256_setzero_ps(), _mm256_fmadd_ps(_mm256_set1_ps(frustum[1].x), qx, in1_dot_yz), _CMP_LE_OQ);
          __m256 mask2 = _mm256_cmp_ps(_mm256_setzero_ps(), _mm256_fmadd_ps(_mm256_set1_ps(frustum[2].x), qx, in2_dot_yz), _CMP_LE_OQ);
          __m256 mask3 = _mm256_cmp_ps(_mm256_setzero_ps(), _mm256_fmadd_ps(_mm256_set1_ps(frustum[3].x), qx, in3_dot_yz), _CMP_LE_OQ);
          __m256 mask4 = _mm256_cmp_ps(_mm256_set1_ps(minDistanceSquared), r2, _CMP_LE_OQ);
          __m256 mask5 = _mm256_cmp_ps(r2, _mm256_set1_ps(maxDistanceSquared), _CMP_LE_OQ);
          __m256 mask = _mm256_and_ps(_mm256_and_ps(_mm256_and_ps(mask0, mask1),
                                                    _mm256_and_ps(mask2, mask3)),
                                      _mm256_and_ps(mask4, mask5));
          int movemask = _mm256_movemask_ps(mask);
          if (movemask == 0) {
#if 0
            for (unsigned lane = 0; lane < 8; lane++) {
              glm::vec3 ref = getSamplePosRef(dataSize, tp, scale, arrayPositionGlobal, frustum, minDistanceSquared, maxDistanceSquared,
                                              inverseOrientation, coordSys, polarScale, polarShift,
                                              x + lane, y, z);
              assert(ref.x == -1);
            }
#endif
            __m256 old = _mm256_load_ps(data);
            minValue = _mm256_min_ps(minValue, old);
            maxValue = _mm256_max_ps(maxValue, old);
            data += 8;
            continue;
          }
 
          __m256 ax, ay, az;
          quat_times_vec3_ps(ax, ay, az,
                             inverseOrientation,
                             qx, _mm256_broadcastss_ps(qy), _mm256_broadcastss_ps(qz));
 
          __m256 r_inv = _mm256_rsqrt_ps(r2);
          //__m256 r = _mm256_rcp_ps(r_inv);
          __m256 r = _mm256_mul_ps(r2, r_inv);
 
          __m256 dirx = asin_ps(_mm256_mul_ps(ax, r_inv));
          __m256 diry = atan_00155_ps(_mm256_mul_ps(ay, _mm256_rcp_ps(az)));
          __m256 xi_i = _mm256_max_ps(_mm256_setzero_ps(), _mm256_mul_ps(_mm256_set1_ps(polarScale.x), _mm256_sub_ps(diry, _mm256_set1_ps(polarShift.x))));
          __m256 xi_j = _mm256_max_ps(_mm256_setzero_ps(), _mm256_mul_ps(_mm256_set1_ps(polarScale.y), _mm256_sub_ps(dirx, _mm256_set1_ps(polarShift.y))));
          __m256 xi_k = _mm256_max_ps(_mm256_setzero_ps(), _mm256_mul_ps(_mm256_set1_ps(polarScale.z), _mm256_sub_ps(az, _mm256_set1_ps(polarShift.z))));
          //__m256 xi_k = _mm256_max_ps(_mm256_setzero_ps(), _mm256_mul_ps(_mm256_set1_ps(polarScale.z), _mm256_sub_ps(r, _mm256_set1_ps(polarShift.z))));
 
#if 0
          for (unsigned lane = 0; lane < 8; lane++) {
            if (mask.m256_f32[lane] == 0.0) continue;
            glm::vec3 ref = getSamplePosRef(dataSize, tp, scale, arrayPositionGlobal, frustum, minDistanceSquared, maxDistanceSquared,
                                            inverseOrientation, coordSys, polarScale, polarShift,
                                            x + lane, y, z);
            if (ref.x < 0) continue;
 
            auto ex = std::abs(ref.x - xi_i.m256_f32[lane]);
            auto ey = std::abs(ref.y - xi_j.m256_f32[lane]);
            auto ez = std::abs(ref.z - xi_k.m256_f32[lane]);
            assert(ex < 1e-2f);
            assert(ey < 1e-2f);
            assert(ez < 1e-0f);
          }
 
#endif
          __m256 tau_i = _mm256_floor_ps(xi_i);
          __m256 tau_j = _mm256_floor_ps(xi_j);
          __m256 tau_k = _mm256_floor_ps(xi_k);
          __m256 t_i = _mm256_sub_ps(xi_i, tau_i);
          __m256 t_j = _mm256_sub_ps(xi_j, tau_j);
          __m256 t_k = _mm256_sub_ps(xi_k, tau_k);
 
          __m256 i_i = _mm256_min_ps(_mm256_set1_ps(static_cast<float>(maxIndicesLL.x)), tau_i);
          __m256 i_j = _mm256_min_ps(_mm256_set1_ps(static_cast<float>(maxIndicesLL.y)), tau_j);
          __m256 i_k = _mm256_min_ps(_mm256_set1_ps(static_cast<float>(maxIndicesLL.z)), tau_k);
 
          __m256 ix00_ = _mm256_add_ps(_mm256_mul_ps(_mm256_set1_ps(static_cast<float>(sampleCount)),
                                                     _mm256_add_ps(_mm256_mul_ps(_mm256_set1_ps(static_cast<float>(minorCount)), i_j), i_i)), i_k);
          __m256i ix00 = _mm256_cvtps_epi32(ix00_);
 
          __m256i ix01 = _mm256_add_epi32(ix00, _mm256_set1_epi32(minorCount));
          __m256i ix10 = _mm256_add_epi32(ix00, _mm256_set1_epi32(sampleCount));
          __m256i ix11 = _mm256_add_epi32(ix00, _mm256_set1_epi32(minorCount + sampleCount));
 
          __m256 val00 = _mm256_mask_i32gather_ps(_mm256_setzero_ps(), v, ix00, mask, 4);
          __m256 val01 = _mm256_mask_i32gather_ps(_mm256_setzero_ps(), v, ix01, mask, 4);
          __m256 val10 = _mm256_mask_i32gather_ps(_mm256_setzero_ps(), v, ix10, mask, 4);
          __m256 val11 = _mm256_mask_i32gather_ps(_mm256_setzero_ps(), v, ix11, mask, 4);
 
          __m256 dif0 = _mm256_sub_ps(val01, val00);
          __m256 val0 = _mm256_fmadd_ps(t_j, dif0, val00);
 
          __m256 dif1 = _mm256_sub_ps(val11, val10);
          __m256 val1 = _mm256_fmadd_ps(t_j, dif1, val10);
 
          __m256 dif = _mm256_sub_ps(val1, val0);
          __m256 val_ = _mm256_fmadd_ps(t_i, dif, val0);
          
          // 50-50-mix of old and new
          __m256 old = _mm256_load_ps(data);
 
          // replace inactive lanes with old data
          val_ = _mm256_blendv_ps(old, val_, mask);
 
          val_ = _mm256_fmadd_ps(_mm256_set1_ps(0.5f), old, _mm256_mul_ps(_mm256_set1_ps(0.5f), val_));
 
          minValue = _mm256_min_ps(minValue, val_);
          maxValue = _mm256_max_ps(maxValue, val_);
 
          _mm256_store_ps(data, val_);
 
          //_mm256_maskstore_ps(data, _mm256_castps_si256(mask), val_);
          data += 8;
 
          //IACA_VC64_END;
        }
      }
    }
 
    minVal = glm::min(glm::min(glm::min(minValue.m256_f32[0],
                                        minValue.m256_f32[1]),
                               glm::min(minValue.m256_f32[2],
                                        minValue.m256_f32[3])),
                      glm::min(glm::min(minValue.m256_f32[4],
                                        minValue.m256_f32[5]),
                               glm::min(minValue.m256_f32[6],
                                        minValue.m256_f32[7])));
 
    maxVal = glm::max(glm::max(glm::max(maxValue.m256_f32[0],
                                        maxValue.m256_f32[1]),
                               glm::max(maxValue.m256_f32[2],
                                        maxValue.m256_f32[3])),
                      glm::max(glm::max(maxValue.m256_f32[4],
                                        maxValue.m256_f32[5]),
                               glm::max(maxValue.m256_f32[6],
                                        maxValue.m256_f32[7])));
  }
 
  //#pragma optimize( "", off )
  void sampleTile3_avx2(float * data,
                        float& minVal,
                        float& maxVal,
                        const float *v,
                        const glm::vec3 /*tileIndex*/,
                        const glm::uvec3 /*tilePos*/,
                        const glm::uvec3 dataSize,
                        const glm::uvec3 maxIndices,
                        const glm::vec3 tp,
                        const glm::vec3 scale,
                        const glm::vec3 arrayPositionGlobal,
                        const glm::vec4* frustum,
                        const float /*minDistanceSquared*/,
                        const float /*maxDistanceSquared*/,
                        const glm::quat inverseOrientation,
                        const uint32_t coordSys,
                        const uint32_t minorCount,
                        const uint32_t sampleCount,
                        const glm::vec3 polarScale,
                        const glm::vec3 polarShift)
  {
    const __m128 rot_ = _mm_set_ps(inverseOrientation.w, inverseOrientation.z, inverseOrientation.y, inverseOrientation.x);
    assert((dataSize.x & 7) == 0);
    assert(coordSys == 1);
 
    static const __m256 c01234567 = _mm256_setr_ps(0, 1, 2, 3, 4, 5, 6, 7);
    static const __m128 one_ps = _mm_setr_ps(1.f, 1.f, 1.f, 1.f);
    glm::vec3 ban = arrayPositionGlobal - tp;
 
    glm::uvec3 maxIndicesLL = glm::max(maxIndices, glm::uvec3(1u)) - glm::uvec3(1);
 
    __m256 minValue = _mm256_set1_ps(std::numeric_limits<float>::max());
    __m256 maxValue = _mm256_set1_ps(-std::numeric_limits<float>::max());
    for (uint32_t z = 0; z < dataSize.z; z++) {
      __m128 pz = _mm_mul_ss(_mm_set1_ps(scale.z), _mm_set1_ps(static_cast<float>(z)));
      __m128 qz = _mm_sub_ss(pz, _mm_set1_ps(ban.z));
      for (uint32_t y = 0; y < dataSize.y; y++) {
        __m128 py = _mm_mul_ss(_mm_set1_ps(scale.y), _mm_set1_ps(static_cast<float>(y)));
        __m128 qy = _mm_sub_ss(py, _mm_set1_ps(ban.y));
        __m128 r2_yz_ = _mm_add_ss(_mm_mul_ss(qy, qy), _mm_mul_ss(qz, qz));
        __m128 in0_dot_yz_ = _mm_add_ps(_mm_mul_ps(_mm_set1_ps(frustum[0].y), qy), _mm_mul_ps(_mm_set1_ps(frustum[0].z), qz));
        __m128 in1_dot_yz_ = _mm_add_ps(_mm_mul_ps(_mm_set1_ps(frustum[1].y), qy), _mm_mul_ps(_mm_set1_ps(frustum[1].z), qz));
        __m128 in2_dot_yz_ = _mm_add_ps(_mm_mul_ps(_mm_set1_ps(frustum[2].y), qy), _mm_mul_ps(_mm_set1_ps(frustum[2].z), qz));
        __m128 in3_dot_yz_ = _mm_add_ps(_mm_mul_ps(_mm_set1_ps(frustum[3].y), qy), _mm_mul_ps(_mm_set1_ps(frustum[3].z), qz));
 
        __m256 in0_dot_yz = _mm256_broadcastss_ps(in0_dot_yz_);
        __m256 in1_dot_yz = _mm256_broadcastss_ps(in1_dot_yz_);
        __m256 in2_dot_yz = _mm256_broadcastss_ps(in2_dot_yz_);
        __m256 in3_dot_yz = _mm256_broadcastss_ps(in3_dot_yz_);
        __m256 r2_yz = _mm256_broadcastss_ps(r2_yz_);
 
        for (uint32_t x = 0; x < dataSize.x; x += 8) {
          //IACA_VC64_START;
 
          __m256 i = _mm256_add_ps(_mm256_set1_ps(static_cast<float>(x)), c01234567);
          __m256 qx = _mm256_sub_ps(_mm256_mul_ps(_mm256_set1_ps(scale.x), i), _mm256_set1_ps(ban.x));
          __m256 r2 = _mm256_add_ps(_mm256_mul_ps(qx, qx), r2_yz);
 
          __m256 ax, ay, az;
          quat_times_vec3_ps(ax, ay, az,
                             inverseOrientation,
                             qx, _mm256_broadcastss_ps(qy), _mm256_broadcastss_ps(qz));
 
          __m256 r_inv = _mm256_rsqrt_ps(r2);
          __m256 r = _mm256_rcp_ps(r_inv);
 
          __m256 dirx = asin_ps(_mm256_mul_ps(ax, r_inv));
          __m256 diry = atan_00155_ps(_mm256_mul_ps(ay, _mm256_rcp_ps(az)));
          __m256 xi_i = _mm256_max_ps(_mm256_setzero_ps(), _mm256_mul_ps(_mm256_set1_ps(polarScale.x), _mm256_sub_ps(diry, _mm256_set1_ps(polarShift.x))));
          __m256 xi_j = _mm256_max_ps(_mm256_setzero_ps(), _mm256_mul_ps(_mm256_set1_ps(polarScale.y), _mm256_sub_ps(dirx, _mm256_set1_ps(polarShift.y))));
          //__m256 xi_k = _mm256_max_ps(_mm256_setzero_ps(), _mm256_mul_ps(_mm256_set1_ps(polarScale.z), _mm256_sub_ps(r, _mm256_set1_ps(polarShift.z))));
          __m256 xi_k = _mm256_max_ps(_mm256_setzero_ps(), _mm256_mul_ps(_mm256_set1_ps(polarScale.z), _mm256_sub_ps(az, _mm256_set1_ps(polarShift.z))));
 
#if 0
          for (unsigned lane = 0; lane < 8; lane++) {
            glm::vec3 ref = getSamplePosRef(dataSize, tp, scale, arrayPositionGlobal, frustum, minDistanceSquared, maxDistanceSquared,
                                            inverseOrientation, coordSys, polarScale, polarShift,
                                            x + lane, y, z);
            auto ex = std::abs(ref.x - xi_i.m256_f32[lane]);
            auto ey = std::abs(ref.y - xi_j.m256_f32[lane]);
            auto ez = std::abs(ref.z - xi_k.m256_f32[lane]);
            assert(ex < 1e-2f);
            assert(ey < 1e-2f);
            assert(ez < 1e-0f);
          }
 
#endif
          __m256 tau_i = _mm256_floor_ps(xi_i);
          __m256 tau_j = _mm256_floor_ps(xi_j);
          __m256 tau_k = _mm256_floor_ps(xi_k);
          __m256 t_i = _mm256_sub_ps(xi_i, tau_i);
          __m256 t_j = _mm256_sub_ps(xi_j, tau_j);
          __m256 t_k = _mm256_sub_ps(xi_k, tau_k);
 
          __m256 i_i = _mm256_min_ps(_mm256_set1_ps(static_cast<float>(maxIndicesLL.x)), tau_i);
          __m256 i_j = _mm256_min_ps(_mm256_set1_ps(static_cast<float>(maxIndicesLL.y)), tau_j);
          __m256 i_k = _mm256_min_ps(_mm256_set1_ps(static_cast<float>(maxIndicesLL.z)), tau_k);
 
          __m256 ix00_ = _mm256_add_ps(_mm256_mul_ps(_mm256_set1_ps(static_cast<float>(sampleCount)),
                                                     _mm256_add_ps(_mm256_mul_ps(_mm256_set1_ps(static_cast<float>(minorCount)), i_j), i_i)), i_k);
          __m256i ix00 = _mm256_cvtps_epi32(ix00_);
 
          __m256i ix01 = _mm256_add_epi32(ix00, _mm256_set1_epi32(minorCount));
          __m256i ix10 = _mm256_add_epi32(ix00, _mm256_set1_epi32(sampleCount));
          __m256i ix11 = _mm256_add_epi32(ix00, _mm256_set1_epi32(minorCount + sampleCount));
 
          __m256 val00 = _mm256_i32gather_ps(v, ix00, 4);
          __m256 val01 = _mm256_i32gather_ps(v, ix01, 4);
          __m256 val10 = _mm256_i32gather_ps(v, ix10, 4);
          __m256 val11 = _mm256_i32gather_ps(v, ix11, 4);
 
          __m256 dif0 = _mm256_sub_ps(val01, val00);
          __m256 val0 = _mm256_fmadd_ps(t_j, dif0, val00);
 
          __m256 dif1 = _mm256_sub_ps(val11, val10);
          __m256 val1 = _mm256_fmadd_ps(t_j, dif1, val10);
 
          __m256 dif = _mm256_sub_ps(val1, val0);
          __m256 val_ = _mm256_fmadd_ps(t_i, dif, val0);
 
          // 50-50-mix of old and new
          __m256 old = _mm256_loadu_ps(data);
          val_ = _mm256_fmadd_ps(_mm256_set1_ps(0.5f), old, _mm256_mul_ps(_mm256_set1_ps(0.5f), val_));
 
          minValue = _mm256_min_ps(minValue, old);
          maxValue = _mm256_max_ps(maxValue, old);
 
          _mm256_store_ps(data, val_);
          data += 8;
 
          //IACA_VC64_END;
        }
      }
    }
 
    minVal = glm::min(glm::min(glm::min(minValue.m256_f32[0],
                                        minValue.m256_f32[1]),
                               glm::min(minValue.m256_f32[2],
                                        minValue.m256_f32[3])),
                      glm::min(glm::min(minValue.m256_f32[4],
                                        minValue.m256_f32[5]),
                               glm::min(minValue.m256_f32[6],
                                        minValue.m256_f32[7])));
 
    maxVal = glm::max(glm::max(glm::max(maxValue.m256_f32[0],
                                        maxValue.m256_f32[1]),
                               glm::max(maxValue.m256_f32[2],
                                        maxValue.m256_f32[3])),
                      glm::max(glm::max(maxValue.m256_f32[4],
                                        maxValue.m256_f32[5]),
                               glm::max(maxValue.m256_f32[6],
                                        maxValue.m256_f32[7])));
    _mm256_zeroupper();
  }
  //#pragma optimize( "", on )
 
}