Kubernetes 컨테이너에서 MIG 활성화된 GPU 메모리 정보를 안전하게 조회하기
멀티 테넌트 클러스터에서 NVIDIA H100 같은 MIG를 지원하는 GPU를 MIG(Multi‑Instance GPU) 모드로 분할해 사용하면, 컨테이너 내부에서 nvidia-smi 또는 PyNVML 로 전체 GPU(Parent GPU) 메모리 정보를 조회할 때 Insufiicient Permissions오류가 발생할 수 있습니다. 이 글에서는 오류가 발생하는 구조적 이유 컨테이너에 MIG 모니터 권한을 부여해 문제를 해결하는 방법 보안 관점의 모범 사례 를 단계별로 설명합니다. 1. 증상 재현 1‑1. nvidia-smi 오류 $ nvidia-smi --query-gpu=gpu_name,memory.total --format=csv,noheader NVIDIA A100-PCIE-80GB, [Insufficient Permissions] NVIDIA A100-PCIE-80GB, 81920 MiB ... 1‑2. PyNVML 오류 handle = pynvml.nvmlDeviceGetHandleByIndex(0) pynvml.nvmlDeviceGetMemoryInfo(handle) # → pynvml.nvml.NVMLError_NoPermission: Insufficient Permissions Parent GPU를 호출하면 NVML 이 NVML_ERROR_NO_PERMISSION 을 반환하기 때문입니다. ...