Hướng dẫn sử dụng GPU Telemetry
Hướng dẫn sử dụng GPU Telemetry
Updated on 23 Feb 2024

FPT Cloud sử dụng Nvidia GPU Telemetry tích hợp với kube-prometheus-stack là bộ công cụ theo dõi và giám sát cho hệ thống sử dụng GPU trên Kubernetes. Bộ công cụ giám sát bao gồm collector, time-series database lưu trữ chỉ số (metrics) và visualization (giao diện trực quan hóa). Bộ công cụ sử dụng các ứng dụng mã nguồn mở phổ biến là Prometheus và Grafana. Prometheus cũng bao gồm Alertmanager để tạo và quản lý các cảnh báo. Prometheus được triển khai cùng với kube-state-metrics và node_exporter để hiển thị các chỉ số (metrics) mức cluster cho các đối tượng API Kubernetes và các chỉ số mức node, ví dụ như mức sử dụng GPU.

  • Kiểm tra custom metrics của GPU sử dụng câu lệnh sau:

  • Truy cập Prometheus kiểm tra metrics của GPU DCGM

  • Trên giao diện Prometheus thao tác như hình dưới đây để kiểm tra metrics GPU DCGM

  • Truy cập Grafana Dashboard

Default user và mật khẩu để đăng nhập vào Grafana là:

User: admin

Password: prom-operator

  • Import Grafana Dashboard cho GPU

Để import Dashboard, truy cập giao diện Grafana, mục Dashboards à Manage à Import. Nếu sử dụng Dashboard của FPT Cloud, nhập nội dung FPT Cloud GPU Dashboard json à Load.

Dashboard GPU của Nvidia FPT Cloud: