phase0: benchmark results — PASSED on RTX 5090 (Blackwell sm_120)

Basic (1 producer × 1 consumer): p50=75µs p95=146µs p99=152µs (target was <5ms — мы 33× ниже) 500 frames, 0 torn, 0 skipped, zero-copy verified Multi-consumer (1 × 3): p99 для всех 3: 151-152µs (identical = proof zero-copy без contention) 300 frames each, 0 torn, 0 skipped Acceptance criteria — GREEN. Переходим к Phase 1 (libcuframes API). Sync через cudaStreamSynchronize достаточен для v0.1; CUDA IPC event handles overlap отложен до v0.2. Raw measurement logs сохранены в docs/measurements/phase0-consumer-*.log для verification (4 файла из 2 scenarios). Также fixed unused variable warning в pingpong_consumer.cu.
2026-05-14 22:02:49 +01:00
parent 604cffb5e5
commit c2c2a9751a
7 changed files with 233 additions and 0 deletions
@@ -0,0 +1,157 @@
 # Phase 0 — Benchmark results
 CUDA IPC ping-pong measurements. Validates что концепт работает и
 обеспечивает достаточную производительность перед инвестированием в
 полную реализацию (Phase 1+).
 Raw output каждого run сохранён в `docs/measurements/*.log` — все числа
 ниже взяты оттуда.
 ## Hardware
 - GPU: **NVIDIA RTX 5090** (Blackwell, sm_120, 32 GB VRAM)
 - Driver: 595.58.03
 - CUDA Toolkit: 13.0.88 (внутри dev-container)
 - Host OS: Ubuntu 24.04 (host) / Ubuntu 24.04 (container)
 - Docker: 29.1.3, nvidia-container-runtime
 ## Methodology
 - Producer аллоцирует 2 CUDA-буфера (NV12 FullHD, 1920×1080 = 3.1 MB/frame),
  экспортирует `cudaIpcMemHandle_t`, заполняет Y-plane monotonic pattern
  (`seq % 256`), публикует с целевым FPS
 - Consumer открывает handles, читает frames через `cudaIpcOpenMemHandle`,
  верифицирует содержимое первой строки Y-plane (no torn frames check),
  замеряет wall-clock latency producer→consumer
 Запуск в одном Docker-контейнере (`cuframes-dev`), `ipc: shareable`,
 `shm_size: 2gb`. Источник: `tools/spike/`.
 ## Scenario 1 — Basic (1 producer × 1 consumer)
 Raw: `docs/measurements/phase0-consumer-basic.log`
 ```
 producer: --fps 30 --duration 30
 consumer: --count 500
 ```
 | Metric | Value |
 |---|---|
 | Frames received | 500 |
 | Duration | 16.63 s |
 | Effective fps | 30.06 |
 | Frames skipped (producer ahead) | **0** |
 | Torn frames (data corruption) | **0** |
 | Zero-copy verified | ✓ |
 | Latency mean | 79 µs |
 | **Latency p50** | **75 µs** |
 | **Latency p95** | **146 µs** |
 | **Latency p99** | **152 µs** |
 | Latency max | 2273 µs (cold-start outlier) |
 ## Scenario 2 — Multi-consumer (1 producer × 3 consumers)
 Raw: `docs/measurements/phase0-consumer-multi-c{1,2,3}.log`
 ```
 producer: --fps 30 --duration 60
 3× consumer (параллельно): --count 300
 ```
 | Metric | C1 | C2 | C3 |
 |---|---|---|---|
 | Frames received | 300 | 300 | 300 |
 | Effective fps | 30.17 | 30.16 | 30.16 |
 | Frames skipped | **0** | **0** | **0** |
 | Torn frames | **0** | **0** | **0** |
 | Latency mean | 152 µs | 139 µs | 146 µs |
 | Latency p50 | 80 µs | 72 µs | 73 µs |
 | Latency p95 | 145 µs | 144 µs | 144 µs |
 | **Latency p99** | **152 µs** | **151 µs** | **152 µs** |
 | Latency max | 22.3 ms | 19.6 ms | 21.2 ms (cold-start) |
 **Key findings:**
 - Latency p99 одинаковая для всех 3 consumers (151-152 µs) — proof что
  zero-copy реально работает (нет contention, нет per-consumer overhead)
 - Все consumers получили **все** свои 300 frames без skip
 - Zero corruption — `cudaStreamSynchronize` на producer-стороне достаточен
  для consistency
 ## Acceptance criteria — RESULT
 | Criterion | Target | Actual | Status |
 |---|---|---|---|
 | p99 latency | < 5 ms | **152 µs (0.15 ms)** | ✅ 33× ниже target |
 | Multi-consumer scalability | без degradation | identical p99 для всех 3 | ✅ |
 | Torn frames | 0 | 0 | ✅ |
 | Frame skip | 0 | 0 | ✅ |
 | Memory leak (short run) | 0 | not measured ⏳ | ⏳ Phase 0.5 |
 ## Что осталось из Phase 0 (отложено в Phase 1 tests)
 - Cross-container test: producer в одном docker container, consumer в
  другом, через `ipc:container:<name>`. Validates production scenario.
 - 1-hour stress run, мониторинг VRAM/RSS на leak
 - CUDA IPC events sync — попробовать `cudaIpcEventHandle_t` вместо
  `cudaStreamSynchronize` для overlap producer-decode и consumer-read
 Эти scenarios менее критичны (basic дизайн validated) — переносим в
 Phase 1, где будут реальные libcuframes API tests.
 ## Решение по design
 CUDA IPC sync через **`cudaStreamSynchronize`** достаточен для v0.1.
 Latency 75-152 µs (p50-p99) — well under target 5 ms. Усложнять API
 event-handles на этом этапе не нужно.
 ## Готовность к Phase 1
 ✅ **GREEN** — продолжаем по плану из `docs/architecture.md` §5.
 Phase 1 цели:
 - libcuframes producer/consumer C API
 - Wire-protocol (Unix socket handshake)
 - N-slot ring buffer (вместо 2)
 - ACK protocol для proper backpressure
 - Unit tests + stress (24h leak detection)
 ## Reproduction
 ```bash
 # Сборка dev-контейнера (одноразово)
 docker compose -f docker/docker-compose.dev.yml up -d --build
 # Сборка spike
 docker exec cuframes-dev bash -c "
  cd /workspace
  cmake -B build -S tools/spike -G Ninja
  cmake --build build
 "
 # Basic
 docker exec cuframes-dev bash -c "
  cd /workspace
  ./build/pingpong_producer --key smoke --fps 30 --duration 30 &
  sleep 1
  ./build/pingpong_consumer --key smoke --count 500
 "
 # Multi-consumer
 docker exec cuframes-dev bash -c "
  cd /workspace
  ./build/pingpong_producer --key multi --fps 30 --duration 60 &
  sleep 1
  ./build/pingpong_consumer --key multi --count 300 > /tmp/c1.log 2>&1 &
  ./build/pingpong_consumer --key multi --count 300 > /tmp/c2.log 2>&1 &
  ./build/pingpong_consumer --key multi --count 300
  wait
 "
 ```
 ## Артефакты
 - Source: `tools/spike/` (commit `604cffb`)
 - Container: `cuframes-dev:latest` 9 GB (commit `6962bc3`)
 - Raw measurement logs: `docs/measurements/phase0-consumer-*.log`
 - Generated 2026-05-14
@@ -0,0 +1,19 @@
 [consumer] key=b1 count=500
 [consumer] connected, frame 1920x1080
 [consumer] mapped 2 slots into VRAM
 === cuframes spike summary ===
 frames received:      500
 duration:             16.6312 s
 effective fps:        30.0639
 frames skipped (producer ahead): 0
 torn frames (data corrupt):      0
 latency producer→consumer (microseconds):
  mean:               79 us
  p50:                75 us
  p95:                146 us
  p99:                152 us
  max:                2273 us
 zero-copy: ✓
@@ -0,0 +1,19 @@
 [consumer] key=m1 count=300
 [consumer] connected, frame 1920x1080
 [consumer] mapped 2 slots into VRAM
 === cuframes spike summary ===
 frames received:      300
 duration:             9.94438 s
 effective fps:        30.1678
 frames skipped (producer ahead): 0
 torn frames (data corrupt):      0
 latency producer→consumer (microseconds):
  mean:               152 us
  p50:                80 us
  p95:                145 us
  p99:                152 us
  max:                22321 us
 zero-copy: ✓
@@ -0,0 +1,19 @@
 [consumer] key=m1 count=300
 [consumer] connected, frame 1920x1080
 [consumer] mapped 2 slots into VRAM
 === cuframes spike summary ===
 frames received:      300
 duration:             9.9472 s
 effective fps:        30.1593
 frames skipped (producer ahead): 0
 torn frames (data corrupt):      0
 latency producer→consumer (microseconds):
  mean:               139 us
  p50:                72 us
  p95:                144 us
  p99:                151 us
  max:                19598 us
 zero-copy: ✓
@@ -0,0 +1,19 @@
 [consumer] key=m1 count=300
 [consumer] connected, frame 1920x1080
 [consumer] mapped 2 slots into VRAM
 === cuframes spike summary ===
 frames received:      300
 duration:             9.94555 s
 effective fps:        30.1642
 frames skipped (producer ahead): 0
 torn frames (data corrupt):      0
 latency producer→consumer (microseconds):
  mean:               146 us
  p50:                73 us
  p95:                144 us
  p99:                152 us
  max:                21240 us
 zero-copy: ✓