Implement processing with latency

jatinchowdhury18 · jatinchowdhury18 · commit 21be874dcb8c · 2025-04-07T14:48:35.000-07:00
diff --git a/README.md b/README.md
@@ -8,7 +8,6 @@ convolution using [`chowdsp_fft`](https://github.com/Chowdhury-DSP/chowdsp_fft).
 
 ## TODO
 - Renaming state to specify uniform partitioning
-- Implement process w/ latency
 
 ## License
 `chowdsp_convolution` is licensed under the BSD 3-clause license. Enjoy!
diff --git a/chowdsp_convolution.cpp b/chowdsp_convolution.cpp
@@ -136,6 +136,7 @@ void process_samples (const Config* config,
     const auto segment_num_samples = config->fft_size;
     int num_samples_processed = 0;
     auto index_step = state->num_segments / ir->num_segments;
+    const auto fft_inv_scale = 1.0f / static_cast<float> (config->fft_size);
 
     while (num_samples_processed < num_samples)
     {
@@ -157,7 +158,6 @@ void process_samples (const Config* config,
                                       fft::FFT_FORWARD);
 
         // Complex multiplication
-        const auto fft_inv_scale = 1.0f / static_cast<float> (config->fft_size);
         if (input_data_was_empty)
         {
             memset (state->output_temp_data, 0, config->fft_size * sizeof (float));
@@ -243,4 +243,110 @@ void process_samples (const Config* config,
         num_samples_processed += samples_to_process;
     }
 }
+
+void process_samples_with_latency (const Config* config,
+                                   const IR_State* ir,
+                                   Process_State* state,
+                                   const float* input,
+                                   float* output,
+                                   int num_samples,
+                                   float* fft_scratch)
+{
+    const auto segment_num_samples = config->fft_size;
+    int num_samples_processed = 0;
+    auto index_step = state->num_segments / ir->num_segments;
+    const auto fft_inv_scale = 1.0f / static_cast<float> (config->fft_size);
+
+    while (num_samples_processed < num_samples)
+    {
+        const auto samples_to_process = std::min (num_samples - num_samples_processed,
+                                                  config->block_size - state->input_data_pos);
+
+        memcpy (state->input_data + state->input_data_pos,
+                input + num_samples_processed,
+                samples_to_process * sizeof (float));
+
+        memcpy (output + num_samples_processed,
+                state->output_data + state->input_data_pos,
+                samples_to_process * sizeof (float));
+
+        num_samples_processed += samples_to_process;
+        state->input_data_pos += samples_to_process;
+
+        if (state->input_data_pos == config->block_size)
+        {
+            // Copy input data in input segment
+            auto* input_segment_data = state->segments + segment_num_samples * state->current_segment;
+            memcpy (input_segment_data, state->input_data, config->fft_size * sizeof (float));
+
+            fft::fft_transform_unordered (config->fft,
+                                          input_segment_data,
+                                          input_segment_data,
+                                          fft_scratch,
+                                          fft::FFT_FORWARD);
+
+            // Complex multiplication
+            memset (state->output_temp_data, 0, config->fft_size * sizeof (float));
+
+            auto index = state->current_segment;
+            for (int seg_idx = 1; seg_idx < ir->num_segments; ++seg_idx)
+            {
+                index += index_step;
+                if (index >= state->num_segments)
+                    index -= state->num_segments;
+
+                const auto* input_segment = state->segments + segment_num_samples * index;
+                const auto* ir_segment = ir->segments + segment_num_samples * seg_idx;
+                fft::fft_convolve_unordered (config->fft,
+                                             input_segment,
+                                             ir_segment,
+                                             state->output_temp_data,
+                                             fft_inv_scale);
+            }
+
+            memcpy (state->output_data, state->output_temp_data, config->fft_size * sizeof (float));
+
+            fft::fft_convolve_unordered (config->fft,
+                                         input_segment_data,
+                                         ir->segments,
+                                         state->output_data,
+                                         fft_inv_scale);
+            fft::fft_transform_unordered (config->fft,
+                                          state->output_data,
+                                          state->output_data,
+                                          fft_scratch,
+                                          fft::FFT_BACKWARD);
+
+            // Add overlap
+            fft::fft_accumulate (config->fft,
+                                 state->overlap_data,
+                                 state->output_data,
+                                 state->output_data,
+                                 config->block_size);
+
+            // Input buffer is empty again now
+            memset (state->input_data, 0, config->fft_size * sizeof (float));
+
+            // Extra step for segSize > blockSize
+            const auto extra_block_samples = config->fft_size - 2 * config->block_size;
+            if (extra_block_samples > 0)
+            {
+                fft::fft_accumulate (config->fft,
+                                     state->overlap_data + config->block_size,
+                                     state->output_data + config->block_size,
+                                     state->output_data + config->block_size,
+                                     extra_block_samples);
+            }
+
+            // Save the overlap
+            memcpy (state->overlap_data,
+                    state->output_data + config->block_size,
+                    (config->fft_size - config->block_size) * sizeof (float));
+
+            state->current_segment = (state->current_segment > 0) ? (state->current_segment - 1) : (state->num_segments - 1);
+
+            state->input_data_pos = 0;
+        }
+    }
+}
 } // namespace chowdsp::convolution
diff --git a/chowdsp_convolution.h b/chowdsp_convolution.h
@@ -64,5 +64,20 @@ void process_samples (const Config*,
                       int N,
                       float* fft_scratch);
 
+/**
+ * Similar to process_samples(), but with an added
+ * config->block_size samples of latency. In exchange,
+ * the convolution processing will be a little bit
+ * faster, especially when processing with odd block
+ * sizes.
+ */
+void process_samples_with_latency (const Config*,
+                                   const IR_State*,
+                                   Process_State*,
+                                   const float* in,
+                                   float* out,
+                                   int N,
+                                   float* fft_scratch);
+
 // @TODO: process_samples_with_latency
 } // namespace chowdsp::convolution
diff --git a/test/chowdsp_convolution_test.cpp b/test/chowdsp_convolution_test.cpp
@@ -323,10 +323,11 @@ std::vector<float> generate (size_t N, std::mt19937& rng)
     return data;
 }
 
-static bool test_convolution (int ir_length_samples, int block_size, int num_blocks)
+static bool test_convolution (int ir_length_samples, int block_size, int num_blocks, bool latency)
 {
     std::cout << "Running test with IR length: " << ir_length_samples
-              << " and block size: " << block_size << '\n';
+              << ", block size: " << block_size
+              << ", latency: " << (latency ? "ON" : "OFF") << '\n';
 
     std::mt19937 rng { 0x12345 };
     auto ir = generate (ir_length_samples, rng);
@@ -339,7 +340,10 @@ static bool test_convolution (int ir_length_samples, int block_size, int num_blo
     {
         const auto* block_in = input.data() + (i * block_size);
         auto* block_out_ref = ref_output.data() + (i * block_size);
-        reference_engine.processSamples (block_in, block_out_ref, block_size);
+        if (latency)
+            reference_engine.processSamplesWithAddedLatency (block_in, block_out_ref, block_size);
+        else
+            reference_engine.processSamples (block_in, block_out_ref, block_size);
     }
     auto duration = std::chrono::high_resolution_clock::now() - start;
     auto ref_duration_seconds = std::chrono::duration<float> (duration).count();
@@ -365,13 +369,27 @@ static bool test_convolution (int ir_length_samples, int block_size, int num_blo
     {
         const auto* block_in = input.data() + (i * block_size);
         auto* block_out_test = test_output.data() + (i * block_size);
-        chowdsp::convolution::process_samples (&conv_config,
-                                               &ir_state,
-                                               &conv_state,
-                                               block_in,
-                                               block_out_test,
-                                               block_size,
-                                               fft_scratch);
+        if (latency)
+        {
+            chowdsp::convolution::process_samples_with_latency (
+                &conv_config,
+                &ir_state,
+                &conv_state,
+                block_in,
+                block_out_test,
+                block_size,
+                fft_scratch);
+        }
+        else
+        {
+            chowdsp::convolution::process_samples (&conv_config,
+                                                   &ir_state,
+                                                   &conv_state,
+                                                   block_in,
+                                                   block_out_test,
+                                                   block_size,
+                                                   fft_scratch);
+        }
     }
     duration = std::chrono::high_resolution_clock::now() - start;
     auto test_duration_seconds = std::chrono::duration<float> (duration).count();
@@ -403,17 +421,22 @@ static bool test_convolution (int ir_length_samples, int block_size, int num_blo
 int main()
 {
     auto success = true;
-    success &= test_convolution (6000, 2048, 4);
-    success &= test_convolution (6000, 512, 20);
-    success &= test_convolution (6000, 511, 20);
-    success &= test_convolution (6000, 32, 400);
-    success &= test_convolution (100, 2048, 2);
-    success &= test_convolution (100, 512, 4);
-    success &= test_convolution (100, 511, 4);
-    success &= test_convolution (100, 32, 10);
+    for (bool latency : { false, true })
+    {
+        success &= test_convolution (6000, 2048, 4, latency);
+        success &= test_convolution (6000, 512, 20, latency);
+        success &= test_convolution (6000, 511, 20, latency);
+        success &= test_convolution (6000, 32, 400, latency);
+        success &= test_convolution (100, 2048, 2, latency);
+        success &= test_convolution (100, 512, 4, latency);
+        success &= test_convolution (100, 511, 4, latency);
+        success &= test_convolution (100, 32, 10, latency);
+    }
 
 #if BUILD_RELEASE
-    success &= test_convolution (48'000, 512, 10'000);
+    std::cout << "Speed comparisons:\n";
+    success &= test_convolution (48'000, 512, 10'000, false);
+    success &= test_convolution (48'000, 512, 10'000, true);
 #endif
 
     return success ? 0 : 1;