Cogs.Core: Extensions/IsoSurfaces/Analyze

#if !defined(EMSCRIPTEN) && !defined(__APPLE__)
#include "Context.h"
#include "Services/Features.h"
#include "IsoSurfaces_internal.h"
#include "Platform/Instrumentation.h"
 
#include "Foundation/Platform/Timer.h"
 
#include <algorithm>
#ifdef __linux__
  #include <x86intrin.h>
#else
  #include <intrin.h>
#endif
 
using std::min;
using std::max;
using glm::uvec3;
using glm::ivec3;
 
using namespace Cogs::Core;
using Cogs::Memory::TypedBuffer;
 
namespace {
 
 
  void determineRunlengths(uint32_t& pad_start,   // Amount of out-of-domain padding at start of line.
                           uint32_t& in_skip,     // Source pointer adjustment.
                           uint32_t& process,     // Number of samples to process.
                           uint32_t& pad_stop,
                           const int32_t in_shift,
                           const uint32_t out_runlength,
                           const uint32_t in_runlength)
  {
    if (in_shift < 0) {
      pad_start = min(out_runlength, static_cast<uint32_t>(-in_shift));
      in_skip = 0;
      process = static_cast<uint32_t>(min(out_runlength - pad_start,  // cannot be negative
                                          in_runlength));
    }
    else {
      pad_start = 0;
      in_skip = static_cast<uint32_t>(in_shift);
      process = static_cast<uint32_t>(min(max(0u, in_runlength - in_shift),  // x_in_runlength < x_in_shift
                                          out_runlength));
    }
    assert(pad_start <= out_runlength);
    assert(process <= out_runlength);
 
    pad_stop = out_runlength - pad_start - process;
  }
 
 
  inline uint32_t* writePadding(uint32_t* dst, uint32_t count, const __m128i out)
  {
    uint32_t i = 0;
    while (i + 4 <= count)
    {
      _mm_storeu_si128(reinterpret_cast<__m128i*>(dst + i), out); i += 4;
    }
    if (i + 2 <= count) {
      _mm_storel_epi64(reinterpret_cast<__m128i*>(dst + i), out); i += 2;
    }
    if (i != count) {
      dst[i] = out.m128i_u32[0]; i++;
    }
    return dst + i;
  }
 
  template<typename Type>
  inline __m128 fetch2(const Type * mem);
 
  template<>
  inline __m128 fetch2<float>(const float * mem)
  {
    // Fetch two floats
    return _mm_castpd_ps(_mm_load_sd(reinterpret_cast<const double*>(mem)));
  }
 
  template<>
  inline __m128 fetch2<uint16_t>(const uint16_t * mem)
  {
    __m128i t = _mm_setzero_si128();
    t.m128i_u32[0] = *reinterpret_cast<const uint32_t*>(mem);
    t = _mm_unpacklo_epi16(t, _mm_setzero_si128());
    return _mm_cvtepi32_ps(t);
  }
 
  template<typename Type>
  inline __m128 fetch4(const Type * mem);
 
  template<>
  inline __m128 fetch4<float>(const float * mem)
  {
    return _mm_loadu_ps(mem);
  }
 
  template<>
  inline __m128 fetch4<uint16_t>(const uint16_t * mem)
  {
    __m128i t = _mm_loadl_epi64(reinterpret_cast<const __m128i*>(mem));
    t = _mm_unpacklo_epi16(t, _mm_setzero_si128());
    return _mm_cvtepi32_ps(t);
  }
 
  template<typename Type>
  void setInitialBit8(uint64_t* s,
                      const uvec3& fieldDim,
                      const uvec3& tileSize,
                      const uvec3& rA,
                      const ivec3& gridA,  // Might be negative
                      const Type* T,
                      const Type* field,
                      const bool exteriorIsLess)
  {
    const uvec3 scratchSize = tileSize + uvec3(1);
 
    uint32_t x_pad_start, x_in_skip, x_process, x_pad_stop;
    determineRunlengths(x_pad_start, x_in_skip, x_process, x_pad_stop,
                        rA.x + gridA.x, scratchSize.x, fieldDim.x);
 
    uint32_t y_pad_start, y_in_skip, y_process, y_pad_stop;
    determineRunlengths(y_pad_start, y_in_skip, y_process, y_pad_stop,
                        rA.y + gridA.y, scratchSize.y, fieldDim.y);
 
    uint32_t z_pad_start, z_in_skip, z_process, z_pad_stop;
    determineRunlengths(z_pad_start, z_in_skip, z_process, z_pad_stop,
                        rA.z + gridA.z, scratchSize.z, fieldDim.z);
 
    uint32_t * dst = reinterpret_cast<uint32_t*>(s);
 
    const __m128i ones = _mm_set1_epi8(1);
    const __m128i ext = _mm_set1_epi32(exteriorIsLess ? ~0 : 0);
    const __m128i out = _mm_and_si128(ext, ones);
 
    const __m128 t0 = _mm_set_ps(T[3], T[2], T[1], T[0]);
    const __m128 t1 = _mm_set_ps(T[7], T[6], T[5], T[4]);
 
    dst = writePadding(dst, 2 * scratchSize.y * scratchSize.x * z_pad_start, out);
    for (uint32_t k = 0; k < z_process; k++) {
      dst = writePadding(dst, 2 * scratchSize.x*y_pad_start, out);
      for (uint32_t j = 0; j < y_process; j++) {
        dst = writePadding(dst, 2 * x_pad_start, out);
 
        const auto * src = field + static_cast<int32_t>(((k + z_in_skip)*fieldDim.y + j + y_in_skip)*fieldDim.x) + x_in_skip;
        for (uint32_t i = 0; i < (x_process >> 1); i++) {
          __m128 v = fetch2(src); src += 2;
 
          __m128 v0 = _mm_shuffle_ps(v, v, _MM_SHUFFLE(0, 0, 0, 0));
          __m128i m0 = _mm_castps_si128(_mm_cmplt_ps(v0, t0));
          __m128i m1 = _mm_castps_si128(_mm_cmplt_ps(v0, t1));
          __m128i mm0 = _mm_packs_epi32(m0, m1);
 
          __m128 v1 = _mm_shuffle_ps(v, v, _MM_SHUFFLE(1, 1, 1, 1));
          __m128i m2 = _mm_castps_si128(_mm_cmplt_ps(v1, t0));
          __m128i m3 = _mm_castps_si128(_mm_cmplt_ps(v1, t1));
          __m128i mm1 = _mm_packs_epi32(m2, m3);
 
          __m128i m = _mm_packs_epi16(mm0, mm1);
          __m128i b = _mm_and_si128(m, ones);
          _mm_storeu_si128(reinterpret_cast<__m128i*>(dst), b);
          dst += 4;
        }
        if (x_process & 1) {
          __m128 v = _mm_set1_ps(*src++);
          __m128i m0 = _mm_castps_si128(_mm_cmplt_ps(v, t0));
          __m128i m1 = _mm_castps_si128(_mm_cmplt_ps(v, t1));
          __m128i mm0 = _mm_packs_epi32(m0, m1);
 
          __m128i m = _mm_packs_epi16(mm0, _mm_setzero_si128());
          __m128i b = _mm_and_si128(m, ones);
 
          _mm_storel_epi64(reinterpret_cast<__m128i*>(dst), b);
          dst += 2;
        }
        dst = writePadding(dst, 2 * x_pad_stop, out);
      }
      dst = writePadding(dst, 2 * scratchSize.x*y_pad_stop, out);
    }
    dst = writePadding(dst, 2 * scratchSize.y * scratchSize.x * z_pad_stop, out);
  }
 
  template<typename Type>
  void setInitialBit4(uint32_t* s,
                      const uvec3& fieldDim,
                      const uvec3& tileSize,
                      const uvec3& rA,
                      const ivec3& gridA,  // Might be negative
                      const Type* T,
                      const Type* field,
                      const bool exteriorIsLess)
  {
 
    const uvec3 scratchSize = tileSize + uvec3(1);
 
    uint32_t x_pad_start, x_in_skip, x_process, x_pad_stop;
    determineRunlengths(x_pad_start, x_in_skip, x_process, x_pad_stop,
                        rA.x + gridA.x, scratchSize.x, fieldDim.x);
 
    uint32_t y_pad_start, y_in_skip, y_process, y_pad_stop;
    determineRunlengths(y_pad_start, y_in_skip, y_process, y_pad_stop,
                        rA.y + gridA.y, scratchSize.y, fieldDim.y);
 
    uint32_t z_pad_start, z_in_skip, z_process, z_pad_stop;
    determineRunlengths(z_pad_start, z_in_skip, z_process, z_pad_stop,
                        rA.z + gridA.z, scratchSize.z, fieldDim.z);
 
    uint32_t * dst = s;
 
    const __m128i ones = _mm_set1_epi8(1);
    const __m128i ext = _mm_set1_epi32(exteriorIsLess ? ~0 : 0);
    const __m128i out = _mm_and_si128(ext, ones);
 
    const __m128 t0 = _mm_set_ps(T[3], T[2], T[1], T[0]);
 
    dst = writePadding(dst, scratchSize.y * scratchSize.x * z_pad_start, out);
    for (uint32_t k = 0; k < z_process; k++) {
      dst = writePadding(dst, scratchSize.x*y_pad_start, out);
      for (uint32_t j = 0; j < y_process; j++) {
        dst = writePadding(dst, x_pad_start, out);
 
        const auto * src = field + static_cast<int32_t>(((k + z_in_skip)*fieldDim.y + j + y_in_skip)*fieldDim.x) + x_in_skip;
        for (uint32_t i = 0; i < (x_process >> 2); i++) {
          __m128 v = fetch4(src); src += 4;
 
          __m128i m0 = _mm_castps_si128(_mm_cmplt_ps(_mm_shuffle_ps(v, v, _MM_SHUFFLE(0, 0, 0, 0)), t0));
          __m128i m1 = _mm_castps_si128(_mm_cmplt_ps(_mm_shuffle_ps(v, v, _MM_SHUFFLE(1, 1, 1, 1)), t0));
          __m128i mm0 = _mm_packs_epi32(m0, m1);
 
          __m128i m2 = _mm_castps_si128(_mm_cmplt_ps(_mm_shuffle_ps(v, v, _MM_SHUFFLE(2, 2, 2, 2)), t0));
          __m128i m3 = _mm_castps_si128(_mm_cmplt_ps(_mm_shuffle_ps(v, v, _MM_SHUFFLE(3, 3, 3, 3)), t0));
          __m128i mm1 = _mm_packs_epi32(m2, m3);
 
          __m128i m = _mm_packs_epi16(mm0, mm1);
          __m128i b = _mm_and_si128(m, ones);
          _mm_storeu_si128(reinterpret_cast<__m128i*>(dst), b);
          dst += 4;
        }
        for (uint32_t i = 0; i < (x_process & 3); i++) {
          __m128 v = _mm_set1_ps(*src++);
          __m128i m0 = _mm_castps_si128(_mm_cmplt_ps(v, t0));
          __m128i mm0 = _mm_packs_epi32(m0, _mm_setzero_si128());
          __m128i m = _mm_packs_epi16(mm0, _mm_setzero_si128());
          __m128i b = _mm_and_si128(m, ones);
          *dst++ = b.m128i_u32[0];
        }
        dst = writePadding(dst, x_pad_stop, out);
      }
      dst = writePadding(dst, scratchSize.x*y_pad_stop, out);
    }
    dst = writePadding(dst, scratchSize.y * scratchSize.x * z_pad_stop, out);
  }
 
  void xMerge(uint32_t*s, const uint32_t uint32sInElement, const uint32_t elements, const uint32_t inOutShift)
  {
    const uint32_t* q = s + uint32sInElement;
    uint32_t i = 0;
    for (; i + 4 < uint32sInElement*elements; i += 4) {
      __m128i a = _mm_loadu_si128(reinterpret_cast<const __m128i*>(s + i + inOutShift));
      __m128i b = _mm_loadu_si128(reinterpret_cast<const __m128i*>(q + i + inOutShift));
      __m128i c = _mm_or_si128(a, _mm_slli_epi32(b, 1));
      _mm_storeu_si128(reinterpret_cast<__m128i*>(s + i), c);
    }
    for (; i < uint32sInElement*elements; i++) {
      s[i] = s[i + inOutShift] | (q[i + inOutShift] << 1);
    }
  }
 
  void yMerge(uint32_t* s, const uint32_t uint32sInARow, const uint32_t rows)
  {
    const uint32_t* q = s + uint32sInARow;
    uint32_t i = 0;
    for (; i + 4 < uint32sInARow*rows; i += 4) {
      __m128i a = _mm_loadu_si128(reinterpret_cast<const __m128i*>(s + i));
      __m128i b = _mm_loadu_si128(reinterpret_cast<const __m128i*>(q + i));
      __m128i c = _mm_or_si128(a, _mm_slli_epi32(b, 2));
      _mm_storeu_si128(reinterpret_cast<__m128i*>(s + i), c);
    }
    for (; i < uint32sInARow*rows; i++) {
      s[i] = s[i] | (q[i] << 2);
    }
 
  }
 
  void zMerge(uint32_t* s, const uint32_t uint32sInASlice, const uint32_t slices)
  {
    __m128i zero = _mm_setzero_si128();
    __m128i ones = _mm_cmpeq_epi32(zero, zero);
    const uint32_t* q = s + uint32sInASlice;
    uint32_t i = 0;
    for (; i + 4 < uint32sInASlice*slices; i += 4) {
      __m128i a = _mm_loadu_si128(reinterpret_cast<const __m128i*>(s + i));
      __m128i b = _mm_loadu_si128(reinterpret_cast<const __m128i*>(q + i));
      __m128i c = _mm_or_si128(a, _mm_slli_epi32(b, 4));
      __m128i m = _mm_cmpeq_epi8(c, ones);
      c = _mm_andnot_si128(m, c);
      _mm_storeu_si128(reinterpret_cast<__m128i*>(s + i), c);
    }
    for (; i < uint32sInASlice*slices; i++) {
      __m128i a = _mm_setzero_si128(); a.m128i_u32[0] = s[i];
      __m128i b = _mm_setzero_si128(); b.m128i_u32[0] = q[i];
      __m128i c = _mm_or_si128(a, _mm_slli_epi32(b, 4));
      __m128i m = _mm_cmpeq_epi8(c, ones);
      c = _mm_andnot_si128(m, c);
      s[i] = c.m128i_u32[0];
    }
  }
 
  void countActiveCells16(uint32_t* Nc,
                          const uint32_t* s,
                          const uvec3& tileSizeClamped,
                          const uvec3& tileSize)
  {
    const uvec3 scratchSize = tileSize + uvec3(1);
    __m128i Nc_[4] = {
      _mm_setzero_si128(),
      _mm_setzero_si128(),
      _mm_setzero_si128(),
      _mm_setzero_si128()
    };
    __m128i ones4 = _mm_set1_epi32(1);
    __m128i zero = _mm_setzero_si128();
    for (uint32_t k = 0; k < tileSizeClamped.z; k++) {
      for (uint32_t j = 0; j < tileSizeClamped.y; j++) {
        const auto * src = s + 4 * (k*scratchSize.y + j)*scratchSize.x;
        for (uint32_t i = 0; i < tileSizeClamped.x; i++) {
          __m128i code16_0 = _mm_loadu_si128(reinterpret_cast<const __m128i*>(src) + i);
          __m128i code8_0 = _mm_unpacklo_epi8(code16_0, zero);
          __m128i code8_1 = _mm_unpackhi_epi8(code16_0, zero);
          __m128i code4_0 = _mm_unpacklo_epi16(code8_0, zero);
          __m128i code4_1 = _mm_unpackhi_epi16(code8_0, zero);
          __m128i code4_2 = _mm_unpacklo_epi16(code8_1, zero);
          __m128i code4_3 = _mm_unpackhi_epi16(code8_1, zero);
          Nc_[0] = _mm_add_epi32(Nc_[0], _mm_andnot_si128(_mm_cmpeq_epi32(code4_0, zero), ones4));
          Nc_[1] = _mm_add_epi32(Nc_[1], _mm_andnot_si128(_mm_cmpeq_epi32(code4_1, zero), ones4));
          Nc_[2] = _mm_add_epi32(Nc_[2], _mm_andnot_si128(_mm_cmpeq_epi32(code4_2, zero), ones4));
          Nc_[3] = _mm_add_epi32(Nc_[3], _mm_andnot_si128(_mm_cmpeq_epi32(code4_3, zero), ones4));
        }
      }
    }
    for (uint32_t l = 0; l < 16; l++) {
      Nc[l] = Nc_[l / 4].m128i_i32[l % 4];
    }
  }
 
  void countActiveCells8(uint32_t* Nc,
                         const uint32_t* s,
                         const uvec3& tileSizeClamped,
                         const uvec3& tileSize)
  {
    const uvec3 scratchSize = tileSize + uvec3(1);
    __m128i Nc_[2] = {
      _mm_setzero_si128(),
      _mm_setzero_si128()
    };
    __m128i ones4 = _mm_set1_epi32(1);
    __m128i zero = _mm_setzero_si128();
    for (uint32_t k = 0; k < tileSizeClamped.z; k++) {
      for (uint32_t j = 0; j < tileSizeClamped.y; j++) {
        const auto * src = s + 2 * (k*scratchSize.y + j)*scratchSize.x;
 
        uint32_t i = 0;
        for (; i + 1 < tileSizeClamped.x; i += 2) {
          __m128i code16_0 = _mm_loadu_si128(reinterpret_cast<const __m128i*>(src + 2 * i));
          __m128i code8_0 = _mm_unpacklo_epi8(code16_0, zero);
          __m128i code8_1 = _mm_unpackhi_epi8(code16_0, zero);
 
          __m128i code4_0 = _mm_unpacklo_epi16(code8_0, zero);
          __m128i code4_2 = _mm_unpacklo_epi16(code8_1, zero);
          __m128i sum03 = _mm_add_epi32(_mm_andnot_si128(_mm_cmpeq_epi32(code4_0, zero), ones4),
                                        _mm_andnot_si128(_mm_cmpeq_epi32(code4_2, zero), ones4));
          Nc_[0] = _mm_add_epi32(Nc_[0], sum03);
 
          __m128i code4_1 = _mm_unpackhi_epi16(code8_0, zero);
          __m128i code4_3 = _mm_unpackhi_epi16(code8_1, zero);
          __m128i sum47 = _mm_add_epi32(_mm_andnot_si128(_mm_cmpeq_epi32(code4_1, zero), ones4),
                                        _mm_andnot_si128(_mm_cmpeq_epi32(code4_3, zero), ones4));
          Nc_[1] = _mm_add_epi32(Nc_[1], sum47);
        }
        for (; i < tileSizeClamped.x; i++) {
          __m128i code16_0 = _mm_loadl_epi64(reinterpret_cast<const __m128i*>(src + 2 * i));
          __m128i code8_0 = _mm_unpacklo_epi8(code16_0, zero);
          __m128i code4_0 = _mm_unpacklo_epi16(code8_0, zero);
          __m128i code4_1 = _mm_unpackhi_epi16(code8_0, zero);
          Nc_[0] = _mm_add_epi32(Nc_[0], _mm_andnot_si128(_mm_cmpeq_epi32(code4_0, zero), ones4));
          Nc_[1] = _mm_add_epi32(Nc_[1], _mm_andnot_si128(_mm_cmpeq_epi32(code4_1, zero), ones4));
        }
      }
    }
    for (uint32_t l = 0; l < 8; l++) {
      Nc[l] = Nc_[l / 4].m128i_i32[l % 4];
    }
  }
 
  void countActiveCells4(uint32_t* Nc,
                         const uint32_t* s,
                         const uvec3& tileSizeClamped,
                         const uvec3& tileSize)
  {
    const uvec3 scratchSize = tileSize + uvec3(1);
    __m128i Nc_ = _mm_setzero_si128();
 
    __m128i ones4 = _mm_set1_epi32(1);
    __m128i zero = _mm_setzero_si128();
 
    for (uint32_t k = 0; k < tileSizeClamped.z; k++) {
      for (uint32_t j = 0; j < tileSizeClamped.y; j++) {
        const auto * src = s + (k*scratchSize.y + j)*scratchSize.x;
 
        uint32_t i = 0;
        for (; i + 4 < tileSizeClamped.x; i += 4) {
          __m128i code16_0 = _mm_loadu_si128(reinterpret_cast<const __m128i*>(src + i));
          __m128i code8_0 = _mm_unpacklo_epi8(code16_0, zero);
          __m128i code4_0 = _mm_unpacklo_epi16(code8_0, zero);
          __m128i code4_1 = _mm_unpackhi_epi16(code8_0, zero);
          __m128i sum0 = _mm_add_epi32(_mm_andnot_si128(_mm_cmpeq_epi32(code4_0, zero), ones4),
                                       _mm_andnot_si128(_mm_cmpeq_epi32(code4_1, zero), ones4));
 
          __m128i code8_1 = _mm_unpackhi_epi8(code16_0, zero);
          __m128i code4_2 = _mm_unpacklo_epi16(code8_1, zero);
          __m128i code4_3 = _mm_unpackhi_epi16(code8_1, zero);
          __m128i sum1 = _mm_add_epi32(_mm_andnot_si128(_mm_cmpeq_epi32(code4_2, zero), ones4),
                                       _mm_andnot_si128(_mm_cmpeq_epi32(code4_3, zero), ones4));
 
          Nc_ = _mm_add_epi32(Nc_, _mm_add_epi32(sum0, sum1));
        }
        for (; i < tileSizeClamped.x; i++) {
          __m128i code16_0 = zero;
          code16_0.m128i_u32[0] = src[i];
          __m128i code8_0 = _mm_unpacklo_epi8(code16_0, zero);
          __m128i code4_0 = _mm_unpacklo_epi16(code8_0, zero);
          Nc_ = _mm_add_epi32(Nc_, _mm_andnot_si128(_mm_cmpeq_epi32(code4_0, zero), ones4));
        }
      }
    }
    for (uint32_t l = 0; l < 4; l++) {
      Nc[l] = Nc_.m128i_i32[l];
    }
  }
 
  void calculateOffsets16(int32_t* cellMap,
                          uint8_t* activeCellCases,
                          int32_t* activeCellIndices,
                          const __m128i* s,
                          const uvec3& tileSizeClamped,
                          const uvec3& tileSize,
                          const uvec3& rA,
                          const uvec3& M,
                          const uint32_t* Oc,
                          const size_t layerStride,
                          const uint32_t tOff,
                          const uint32_t lanes)
  {
    uint32_t Ni[16];
    for (uint32_t l = 0; l < lanes; l++) {
      Ni[l] = 0;
    }
 
    const uvec3 scratchSize = tileSize + uvec3(1);
    for (uint32_t k = 0; k < tileSizeClamped.z; k++) {
      for (uint32_t j = 0; j < tileSizeClamped.y; j++) {
        const auto * src = s + (k*scratchSize.y + j)*scratchSize.x;
        const auto lineOffset = ((k + rA.z)*M.y + (j + rA.y))*M.x;
 
        for (uint32_t i = 0; i < tileSizeClamped.x; i++) {
          __m128i codes = _mm_loadu_si128(src + i);
 
          for (uint32_t l = 0; l < lanes; l++) {
            const auto code = codes.m128i_u8[l];
            if (code == 0) continue;
 
            const auto t = tOff + l;
            const auto uncompactedCellIndex = lineOffset + i + rA.x;
            const auto c = Oc[l] + (Ni[l]++);
            cellMap[layerStride*t + uncompactedCellIndex] = c;
            activeCellCases[layerStride*t + c] = code;
            activeCellIndices[layerStride*t + c] = uncompactedCellIndex;
          }
        }
      }
    }
  }
 
  void calculateOffsets8(int32_t* cellMap,
                         uint8_t* activeCellCases,
                         int32_t* activeCellIndices,
                         const uint64_t* s,
                         const uvec3& tileSizeClamped,
                         const uvec3& tileSize,
                         const uvec3& rA,
                         const uvec3& M,
                         const uint32_t* Oc,
                         const size_t layerStride,
                         const uint32_t tOff,
                         const uint32_t lanes)
  {
    uint32_t Ni[8];
    for (uint32_t l = 0; l < lanes; l++) {
      Ni[l] = 0;
    }
 
    const uvec3 scratchSize = tileSize + uvec3(1);
    for (uint32_t k = 0; k < tileSizeClamped.z; k++) {
      for (uint32_t j = 0; j < tileSizeClamped.y; j++) {
        const auto * src = s + (k*scratchSize.y + j)*scratchSize.x;
        const auto lineOffset = ((k + rA.z)*M.y + (j + rA.y))*M.x;
 
        for (uint32_t i = 0; i < tileSizeClamped.x; i++) {
          union
          {
            uint64_t u64;
            uint8_t u8[8];
          } codes;
          codes.u64 = src[i];
 
          for (uint32_t l = 0; l < lanes; l++) {
            const auto code = codes.u8[l];
            if (code == 0) continue;
 
            const auto t = tOff + l;
            const auto uncompactedCellIndex = lineOffset + i + rA.x;
            const auto c = Oc[l] + (Ni[l]++);
            cellMap[layerStride*t + uncompactedCellIndex] = c;
            activeCellCases[layerStride*t + c] = code;
            activeCellIndices[layerStride*t + c] = uncompactedCellIndex;
          }
        }
      }
    }
  }
 
  void calculateOffsets4(int32_t* cellMap,
                         uint8_t* activeCellCases,
                         int32_t* activeCellIndices,
                         const uint32_t* s,
                         const uvec3& tileSizeClamped,
                         const uvec3& tileSize,
                         const uvec3& rA,
                         const uvec3& M,
                         const uint32_t* Oc,
                         const size_t layerStride,
                         const uint32_t tOff,
                         const uint32_t lanes)
  {
    assert(lanes <= 4);
    uint32_t Ni[4];
    for (uint32_t l = 0; l < lanes; l++) {
      Ni[l] = 0;
    }
 
    const uvec3 scratchSize = tileSize + uvec3(1);
    for (uint32_t k = 0; k < tileSizeClamped.z; k++) {
      for (uint32_t j = 0; j < tileSizeClamped.y; j++) {
        const auto * src = s + (k*scratchSize.y + j)*scratchSize.x;
        const auto lineOffset = ((k + rA.z)*M.y + (j + rA.y))*M.x;
 
        for (uint32_t i = 0; i < tileSizeClamped.x; i++) {
          union
          {
            uint32_t u32;
            uint8_t u8[4];
          } codes;
          codes.u32 = src[i];
 
          for (uint32_t l = 0; l < lanes; l++) {
            const auto code = codes.u8[l];
            if (code == 0) continue;
 
            const auto t = tOff + l;
            const auto uncompactedCellIndex = lineOffset + i + rA.x;
            const auto c = Oc[l] + (Ni[l]++);
            cellMap[layerStride*t + uncompactedCellIndex] = c;
            activeCellCases[layerStride*t + c] = code;
            activeCellIndices[layerStride*t + c] = uncompactedCellIndex;
          }
        }
      }
    }
  }
 
  void merge(uint32_t* s,
             const uint32_t uint32XShift,
             const uint32_t uint32sPerElement,
             const uint32_t tileX,
             const uint32_t tileY,
             const uint32_t tileZ)
  {
    xMerge(s, uint32sPerElement, (tileX + 1)*(tileY + 1)*(tileZ + 1) - 1, uint32XShift);
    yMerge(s, uint32sPerElement * (tileX + 1), (tileY + 1)*(tileZ + 1) - 1);
    zMerge(s, uint32sPerElement * (tileX + 1)*(tileY + 1), tileZ);
  }
 
}
 
 
void Cogs::Core::IsoSurfaces::analyzeTile_f32_SSE(AnalyzeGlobalState* g, const glm::ivec3 id)
{
  CpuInstrumentationScope(SCOPE_ISOSURFACES, "analyzeTile_f32_SSE");
  auto timer = Timer::startNew();
 
  const float* field = (const float*)g->field;
  const float* thresholds = (const float*)g->thresholds;
 
  const uvec3 fieldDim = uvec3(g->fieldDim);
  const uvec3 tileSize = uvec3(g->tileSize);
  const uvec3 scratchSize = tileSize + uvec3(1);
  const uvec3 M = uvec3(g->M);
  const auto exteriorIsLess = g->exteriorIsLess;
  uvec3 rA = tileSize * uvec3(id);
  uvec3 rB = glm::min(M, rA + tileSize);
  const auto tileSizeClamped = glm::min(tileSize, rB - rA);
  const size_t layerStride = g->M.x * g->M.y * g->M.z;
  const auto Nt = static_cast<uint32_t>(g->Nt);
 
  float T[16];
  uint32_t Nc[16];
  uint32_t Oc[16];
  auto * scratch = g->scratchAcquire(4 * sizeof(int) * (scratchSize.x * scratchSize.y * scratchSize.z + 1 + 4));
  auto * s = reinterpret_cast<uint32_t*>(scratch->data());
 
  uint32_t tOff = 0;
 
  // While there are 5 or more surfaces, do 8 at a time.
  for (; tOff + 4 < Nt; tOff += 8) {
    auto lanes = min(8u, Nt - tOff);
    for (uint32_t i = 0; i < 8; i++) {
      T[i] = thresholds[tOff + min(i, lanes - 1)];
    }
    setInitialBit8(reinterpret_cast<uint64_t*>(s) + 8, fieldDim, tileSize, rA, g->gridA, T, field, exteriorIsLess);
    merge(s, 16, 2, tileSize.x, tileSize.y, tileSize.z);
    countActiveCells8(Nc, s, tileSizeClamped, tileSize);
    for (uint32_t l = 0; l < lanes; l++) {
      Oc[l] = g->cellOffsets[l].fetch_add(Nc[l]);
    }
    calculateOffsets8(g->cellMap, g->activeCellCases, g->activeCellIndices,
                      reinterpret_cast<uint64_t*>(s),
                      tileSizeClamped, tileSize, rA, M,
                      Oc, layerStride, tOff, lanes);
  }
 
  // And do the rest 4 at a time.
  for (; tOff < Nt; tOff += 4) {
    auto lanes = min(4u, Nt - tOff);
    for (uint32_t i = 0; i < 4; i++) {
      T[i] = thresholds[tOff + min(i, lanes - 1)];
    }
    setInitialBit4(s + 16, fieldDim, tileSize, rA, g->gridA, T, field, exteriorIsLess);
    merge(reinterpret_cast<uint32_t*>(s), 16, 1, tileSize.x, tileSize.y, tileSize.z);
    countActiveCells4(Nc, s, tileSizeClamped, tileSize);
    for (uint32_t l = 0; l < lanes; l++) {
      Oc[l] = g->cellOffsets[l].fetch_add(Nc[l]);
    }
    calculateOffsets4(g->cellMap, g->activeCellCases, g->activeCellIndices,
                      s,
                      tileSizeClamped, tileSize, rA, M,
                      Oc, layerStride, tOff, lanes);
  }
 
  g->scratchRelease(scratch);
 
  if (g->elapsed_us != nullptr) {
    g->elapsed_us->fetch_add(timer.elapsedMicroseconds());
  }
}
 
void Cogs::Core::IsoSurfaces::analyzeTile_u16_SSE(AnalyzeGlobalState* g, const glm::ivec3 id)
{
  CpuInstrumentationScope(SCOPE_ISOSURFACES, "analyzeTile_u16_SSE");
  auto timer = Timer::startNew();
 
  const uint16_t* field = (const uint16_t*)g->field;
  const uint16_t* thresholds = (const uint16_t*)g->thresholds;
 
  const uvec3 fieldDim = uvec3(g->fieldDim);
  const uvec3 tileSize = uvec3(g->tileSize);
  const uvec3 scratchSize = tileSize + uvec3(1);
  const uvec3 M = uvec3(g->M);
  const auto exteriorIsLess = g->exteriorIsLess;
  uvec3 rA = tileSize * uvec3(id);
  uvec3 rB = glm::min(M, rA + tileSize);
  const auto tileSizeClamped = glm::min(tileSize, rB - rA);
  const size_t layerStride = g->M.x * g->M.y * g->M.z;
  const auto Nt = static_cast<uint32_t>(g->Nt);
 
  uint16_t T[16];
  uint32_t Nc[16];
  uint32_t Oc[16];
  auto * scratch = g->scratchAcquire(4 * sizeof(int) * (scratchSize.x * scratchSize.y * scratchSize.z + 1 + 4));
  auto * s = reinterpret_cast<uint32_t*>(scratch->data());
 
  uint32_t tOff = 0;
 
 
  // While there are 5 or more surfaces, do 8 at a time.
  for (; tOff + 4 < Nt; tOff += 8) {
    auto lanes = min(8u, Nt - tOff);
    for (uint32_t i = 0; i < 8; i++) {
      T[i] = thresholds[tOff + min(i, lanes - 1)];
    }
    setInitialBit8(reinterpret_cast<uint64_t*>(s) + 8, fieldDim, tileSize, rA, g->gridA, T, field, exteriorIsLess);
    merge(s, 16, 2, tileSize.x, tileSize.y, tileSize.z);
    countActiveCells8(Nc, s, tileSizeClamped, tileSize);
    for (uint32_t l = 0; l < lanes; l++) {
      Oc[l] = g->cellOffsets[l].fetch_add(Nc[l]);
    }
    calculateOffsets8(g->cellMap, g->activeCellCases, g->activeCellIndices,
                      reinterpret_cast<uint64_t*>(s),
                      tileSizeClamped, tileSize, rA, M,
                      Oc, layerStride, tOff, lanes);
  }
 
  // And do the rest 4 at a time.
  for (; tOff < Nt; tOff += 4) {
    auto lanes = min(4u, Nt - tOff);
    for (uint32_t i = 0; i < 4; i++) {
      T[i] = thresholds[tOff + min(i, lanes - 1)];
    }
    setInitialBit4(s + 16, fieldDim, tileSize, rA, g->gridA, T, field, exteriorIsLess);
    merge(reinterpret_cast<uint32_t*>(s), 16, 1, tileSize.x, tileSize.y, tileSize.z);
    countActiveCells4(Nc, s, tileSizeClamped, tileSize);
    for (uint32_t l = 0; l < lanes; l++) {
      Oc[l] = g->cellOffsets[l].fetch_add(Nc[l]);
    }
    calculateOffsets4(g->cellMap, g->activeCellCases, g->activeCellIndices,
                      s,
                      tileSizeClamped, tileSize, rA, M,
                      Oc, layerStride, tOff, lanes);
  }
 
  g->scratchRelease(scratch);
 
  if (g->elapsed_us != nullptr) {
    g->elapsed_us->fetch_add(timer.elapsedMicroseconds());
  }
}
#endif