cuframes

Author	SHA1	Message	Date
Claude Opus	78824c4ed1	docker: +mosquitto-clients в runtime image build / cmake build (CUDA 12.4, Ubuntu 22.04) (push) Successful in 1m42s Details build / ffmpeg filter patch (out-of-tree) (push) Failing after 1m22s Details Нужен для loop-publisher.sh wrapper в cctv stack — heartbeat и alert MQTT publish. 4.5 MB добавил, runtime image теперь ~590 MB. Без него wrapper silent fail на mqtt_alert/mqtt_state (но retry-loop работает). Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>	2026-06-02 17:59:56 +01:00
gx	4862247fe2	v0.4: VMM + POSIX FD — namespace decoupling (no pid share required) build / cmake build (CUDA 12.4, Ubuntu 22.04) (push) Successful in 1m46s Details build / ffmpeg filter patch (out-of-tree) (push) Failing after 1m30s Details Заменяет cudaMalloc + cudaIpcGetMemHandle на cuMemCreate (VMM) + cuMemExportToShareableHandle(POSIX_FILE_DESCRIPTOR). FDs передаются consumer'у через sendmsg(SCM_RIGHTS) в handshake. Frigate (s6-overlay не даёт share PID) и любой другой consumer работают БЕЗ pid namespace share — только volume mount unix socket'a /run/cuframes и IPC share для /dev/shm header. Sync: cudaEventRecord+IPC events → cuStreamSynchronize в do_publish. Producer ждёт ~1 ms что stream flush'нулся, потом atomic_store(seq). Consumer читает seq через memory_order_acquire и копирует DtoD без event wait — HW coherence гарантирована на одном GPU. ABI break (согласован с user'ом): - magic 0xCC7C1DCC → 0xCC7C1DCE (старые consumers fail cleanly) - protocol V3 → V4 - libcuframes.so.0 SOVERSION остаётся, но .so.0.3.0 → .so.0.4.0 - EXTERNAL ownership убран (VMM требует cuMemCreate-allocated memory, нельзя export'нуть произвольный cudaMalloc-pointer как POSIX FD) - cuframes-rtsp-source переведён на LIBRARY mode + один D2D memcpy в acquire'нутый slot (overhead малый — публишер всё равно делал такой D2D из FFmpeg hwframe pool в EXTERNAL pool раньше) Размер: granularity 2 MB на 5090 → NV12 1920×1080 (~3.1 MB) округляется до 4 MB, +1 MB на slot × 16 × 4 камеры = +64 MB VRAM. Терпимо. Packet ring (cuframes_packets://) НЕ затронут — отдельный SHM с своим magic, работает как раньше. PoC + smoke в spike/: - vmm_fd_pingpong/ — minimal cuMemCreate+FD round-trip - smoke_v04/ — full publisher+subscriber, 100/100 frames без pid share Base image: Dockerfile.runtime → CUDA 12.4 (был 13.0). Matching prod pipeline + Frigate base, иначе libcudart conflict при load. Compose stack (localhost-infra repo) — параллельный commit: - убран pid: container:cuframes-pub-parking из subscribers - image теги: gx/cuframes:0.4, gx/cuda-grid-pipeline:phase8, gx/frigate:cuframes-v0.4 Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>	2026-05-25 20:13:31 +01:00
gx	44dab75e08	docs+docker: integration guide и runtime image для Frigate/cctv stack docs/integration.md — детальный guide для интеграции в существующий CCTV docker-compose: критичные требования (ipc=shareable/container, общий shared volume для socket), пример CuframesSource для cctv-processor, verification checklist, troubleshooting (timeout, ipc namespace mismatch, high latency). Зафиксировано: v0.1 frigate-decode не убирается без patch'а FFmpeg — это v0.2 scope. docker/Dockerfile.runtime — multi-stage build (devel → runtime), копирует libcuframes.so + cuframes-rtsp-source + sub_count в /usr/local. Образ ~700 MB (vs ~7 GB у dev'а). Smoke-test: бинарки запускаются, ldd видит все нужные libs. docker-compose.example.yml — reference docker-compose с правильным ipc mode и volume mounts для копирования в свои проекты. .dockerignore — исключает build/ и build-*/ из COPY context. README обновлён: статус v0.1 done, quickstart с реальным docker run, ссылка на integration guide.	2026-05-14 23:47:56 +01:00
gx	ad543054fc	spike-v2: validate sync semantics (R1/R2 architectural review) Architectural review (2026-05-15) указал что cudaStreamSynchronize-only на producer-side не достаточен для cross-process visibility — NVIDIA Programming Guide §3.2.8 требует cudaIpcEventHandle_t. Phase 0 PoC v1 не проверял этот случай из-за cudaMemcpy который имеет implicit barriers. spike-v2 воспроизводит правильный сценарий: consumer запускает verify_kernel на ОТДЕЛЬНОМ stream'е (real-world use case — PyTorch / OpenCV CUDA), pattern включает row-based component для отлова partial-frame torn. Запуск 4 scenarios × 1500/600 frames: A-fhd60 (stream sync, FHD@60): 0 torn, p99=267µs, max=14.7ms B-fhd60 (event sync, FHD@60): 0 torn, p99=344µs, max=5.2ms A-4k30 (stream sync, 4K@30): 0 torn, p99=606µs, max=4.4ms B-4k30 (event sync, 4K@30): 0 torn, p99=437µs, max=3.7ms Все 4 показали 0 torn frames. R1 на single-host single-GPU фактически не воспроизводится — но NVIDIA contractually не гарантирует это. Decision: events as default (R1/R2 resolved). Architecture.md §6.6 закрыт. Tradeoff: mean latency +20µs, max latency в 3× ниже (predictable tail) + future-proof для multi-GPU. Также Dockerfile.dev — апдейт CUDA до 13.0.3 (12.4 не существует с devel-ubuntu24.04). Связано с PR review: R1, R2, R3 (R3, R4 — в следующих коммитах).	2026-05-14 23:00:13 +01:00
gx	6962bc3c7e	docker: dev environment с CUDA 12.4 + build tools Dockerfile.dev + docker-compose.dev.yml + docker/README.md. Base: nvidia/cuda:12.4.1-cudnn-devel-ubuntu24.04. В контейнер включены: - CUDA toolkit (nvcc, headers, libs) - GCC 12, Clang + clang-format + clang-tidy - CMake + Ninja - FFmpeg dev headers (6.x системные) — для linking при разработке filter - Python 3.12 + dev (для Phase 3 bindings) - Profiling/debug tools: valgrind, gdb, strace, ltrace docker-compose.dev.yml настройки: - runtime: nvidia + --gpus all - ipc: shareable — для cross-container CUDA IPC (Phase 1+) - shm_size: 2gb — стандартный 64 MB не хватит для frame buffers - SYS_PTRACE + seccomp:unconfined — для gdb/strace внутри (dev-only) - bind-mount корня репо → /workspace - /run/cuframes для Unix sockets Использование документировано в docker/README.md. Production-images (FFmpeg-with-plugin, Frigate drop-in) — отдельная работа в Phase 4.	2026-05-14 21:18:32 +01:00

5 Commits