cuframes/spike/vmm_fd_pingpong/README.md

# vmm_fd_pingpong — spike для cuframes v0.4

Проверка: можно ли заменить CUDA IPC mem handles на VMM (cuMemCreate)
+ POSIX FD export, чтобы убрать требование shared pid/ipc namespaces
между producer и consumer контейнерами.

## Результат: ✅ работает

Запуск 2 контейнеров без shared pid/ipc, только volume mount для
unix-сокета:

```
producer: granularity=2097152
producer: alloc size=16777216
producer: exported fd=37 for handle
producer: listening on /run/spike/pingpong.sock, awaiting consumer...

consumer: connected to producer
consumer: recv fd=38 size=16777216 magic=0xa7
consumer: imported handle OK
consumer: mapped + access OK
consumer: verify mismatch=0/1048576  → ACK=O
consumer: done (OK)
```

## Ключевые наблюдения

- **Granularity на 5090 = 2 MB**. 1920×1080 NV12 (~3.1 MB) округлится до 4 MB.
  16 slots × 4 камеры × +1 MB = +64 MB VRAM поверх текущих cuda IPC аллокаций.
- **FD передаётся через `sendmsg(SCM_RIGHTS)`** — kernel прокидывает реальный FD
  в receiver namespace, переименовывая в свободный номер. Volume mount unix
  socket'а — единственное требование (`/run/cuframes` уже монтируется как shared).
- **`cuMemImportFromShareableHandle`** принимает FD как `(void *)(uintptr_t)fd`.
- **Доступ на consumer side требует `cuMemSetAccess` с правильным `CUmemLocation`** —
  device id из своего `cuDeviceGet`, не наследуется от producer.

## Замена events (упрощение этапа C)

CUDA events для IPC не имеют POSIX FD path. Внедрять external semaphores
(OPAQUE_FD) — отдельный API, другая sigal/wait семантика. **Вместо этого:**
producer вызывает `cuStreamSynchronize(stream)` ПЕРЕД `atomic_store(seq)` в
`do_publish`. Consumer тогда просто читает seq и копирует DtoD — без event wait.

Overhead: ~1 ms на publish × 25 fps = 2.5% CPU time producer'а. Memory
coherence гарантирована (один GPU, hardware ensures writes visible после
stream sync).

## Сборка

```bash
docker run --rm -v $PWD:/work -w /work nvidia/cuda:12.4.1-devel-ubuntu22.04 \
    bash -c "apt-get install -y build-essential && make"
```

## Запуск теста

```bash
sudo mkdir -p /var/run/spike-pingpong && sudo chmod 777 /var/run/spike-pingpong

docker run -d --name spike-prod --runtime=nvidia --gpus all \
    -v $PWD:/work -v /var/run/spike-pingpong:/run/spike \
    nvidia/cuda:12.4.1-base-ubuntu22.04 /work/producer

docker run --rm --name spike-cons --runtime=nvidia --gpus all \
    -v $PWD:/work -v /var/run/spike-pingpong:/run/spike \
    nvidia/cuda:12.4.1-base-ubuntu22.04 /work/consumer

docker logs spike-prod && docker rm -f spike-prod
```