◆ wave8_transpose_16x4_bf1_pipe4()

FASTLED_FORCE_INLINE FL_IRAM FL_OPTIMIZE_FUNCTION void fl::detail::wave8_transpose_16x4_bf1_pipe4	(	const u8	lanes_a[16],
		const u8	lanes_b[16],
		const u8	lanes_c[16],
		const u8	lanes_d[16],
		u8	W0,
		u8	W1,
		u8	output_a[16 *sizeof(Wave8Byte)],
		u8	output_b[16 *sizeof(Wave8Byte)],
		u8	output_c[16 *sizeof(Wave8Byte)],
		u8	output_d[16 *sizeof(Wave8Byte)] )

BF1 + pipe4: 4-position software-pipelined BF1 (#2548 deep-dive).

Combines BF1's algorithmic reduction (1 transpose per byte-position instead of 8) with pipe4's cross-position ILP. Empirical peak of all prototypes: 1 757 µs/frame vs 9 651 baseline (5.49×).

Definition at line 464 of file wave8.hpp.

                                                                         {
    u8 d_mask[8];
    u8 m0_mask[8];
    const u8 D_byte = W0 ^ W1;
    for (int p = 0; p < 8; ++p) {
        const int shift = 7 - p;
        d_mask[p] = ((D_byte >> shift) & 1) ? 0xFFu : 0x00u;
        m0_mask[p] = ((W0 >> shift) & 1) ? 0xFFu : 0x00u;
    }
    u8 cols_a[16], cols_b[16], cols_c[16], cols_d[16];
    spread_transpose16_symbol(lanes_a, cols_a);
    spread_transpose16_symbol(lanes_b, cols_b);
    spread_transpose16_symbol(lanes_c, cols_c);
    spread_transpose16_symbol(lanes_d, cols_d);
    for (int s = 0; s < 8; ++s) {
        const u8 al = cols_a[2*s + 0], ah = cols_a[2*s + 1];
        const u8 bl = cols_b[2*s + 0], bh = cols_b[2*s + 1];
        const u8 cl = cols_c[2*s + 0], ch = cols_c[2*s + 1];
        const u8 dl = cols_d[2*s + 0], dh = cols_d[2*s + 1];
        for (int p = 0; p < 8; ++p) {
            const u8 dm = d_mask[p], mm = m0_mask[p];
            output_a[s*16 + p*2 + 0] = mm ^ (al & dm);
            output_a[s*16 + p*2 + 1] = mm ^ (ah & dm);
            output_b[s*16 + p*2 + 0] = mm ^ (bl & dm);
            output_b[s*16 + p*2 + 1] = mm ^ (bh & dm);
            output_c[s*16 + p*2 + 0] = mm ^ (cl & dm);
            output_c[s*16 + p*2 + 1] = mm ^ (ch & dm);
            output_d[s*16 + p*2 + 0] = mm ^ (dl & dm);
            output_d[s*16 + p*2 + 1] = mm ^ (dh & dm);
        }
    }
}

References spread_transpose16_symbol(), fl::W0, and fl::W1.

Referenced by fl::wave8Transpose_16x4_bf1_pipe4().

Here is the call graph for this function:

Here is the caller graph for this function: