Hướng dẫn sử dụng Autoscaler với GPU
Hướng dẫn sử dụng Autoscaler với GPU
Updated on 23 Feb 2024

· Autoscale mức container:

Horizontal Pod Autoscaler (viết tắt là HPA) tự động cập nhật tài nguyên workload resource (chẳng hạn như Deployment hoặc StatefulSet), với mục đích tự động thay đổi quy mô workload resource để phù hợp với nhu cầu ứng dụng. Về cơ bản, khi workload của ứng dụng trên Kubernetes tăng lên thì HPA sẽ triển khai nhiều Pod hơn để đáp ứng tài nguyên. Nếu tải giảm và số lượng Pod cao hơn mức tối thiểu đã cấu hình, thì HPA sẽ giảm workload resource (Deployment, StatefulSet hoặc tài nguyên tương tự khác), tức là giảm số lượng Pod lại. HPA cho GPU sử dụng custom metrics của DCGM để theo dõi và tăng/giảm Pod theo workload của ứng dụng sử dụng GPU.

  • Để cấu hình HPA cho ứng dụng sử dụng GPU, tham khảo cấu hình sau:

Tham khảo thêm: tài liệu Nvidia về DCGM metrics.

  • Kiểm tra HPA đã khởi tạo ứng dụng sử dụng GPU, bằng lệnh sau:

· Autoscale mức Node:

Giống như Cluster Autoscale thông thường, cụm Kubernetes sẽ tự động tăng/giảm worker node trong worker group dựa theo yêu cầu sử dụng GPU: tự động scale thêm các worker mới trong một worker group nếu như ứng dụng chạy trên worker group đó không được đáp ứng đủ tài nguyên (GPU) bởi các worker nodes của pool đó. Khi đó, những pod bị pending do node không đủ tài nguyên sẽ được phục vụ bởi các worker nodes mới sau khi scale lên. Tính năng Cluster Autoscale cũng tự động xóa các nodes không sử dụng đủ lượng utilization (mặc định là 50%) của node đó.

Thao tác cấu hình số lượng nodes worker group được định nghĩa trên FPTCloud Portal như hình sau:

Tham khảo thêm: FPT Cloud Managed Kubernetes Autoscaler