Tất cả tài liệu

Managed – FPT Kubernetes Engine

    Hướng dẫn sử dụng GPU Kubernetes
    Hướng dẫn sử dụng GPU Kubernetes
    Updated on 08 Jul 2024

    1. Tổng quan dịch vụ GPU trên Kubernetes FPT Cloud

    FPT Cloud cung cấp Kubernetes sử dụng GPU NVIDIA có các tính năng chính sau: 

    – Cấu hình GPU linh hoạt với nhiều loại GPU, bộ nhớ GPU tùy chọn, áp dụng theo từng Worker Group. 

    – Quản lý và cấp phát tài nguyên GPU trong Kubernetes tự động với NVIDIA Operator 

    – Trực quan hóa và giám sát GPU bằng NVIDIA DCGM. 

    – Tự động tăng/giảm Container/Node với Autoscaler khi ứng dụng yêu cầu sử dụng tài nguyên GPU tăng lên/giảm đi. 

    – Hỗ trợ GPU sharing với cơ chế Multi-Instance, giúp tối ưu hóa tài nguyên và chi phí sử dụng GPU. 

    FPT Cloud sử dụng NVIDIA GPU Operator cung cấp công cụ tự động quản lý tất cả các thành phần phần mềm cần thiết để sử dụng GPU trên Kubernetes. GPU Operator cho phép người dùng sử dụng tài nguyên GPU giống như sử dụng CPU trong cụm Kubernetes. 

    Các thành phần của Operator bao gồm: 

    – NVIDIA Drivers (CUDA, MIG,…) 

    – NVIDIA Device Plugin 

    – NVIDIA Container Toolkit 

    – NVIDIA GPU Feature Discovery 

    – NVIDIA Data Center GPU Manager (Monitoring) 

    FPT Cloud hiện tại đang hỗ trợ Kubernetes sử dụng đa dạng các loại GPU hiện đại nhất đến từ Nvidia, cụ thể là các loại A100, A30 với các MIG profile sau:

    No.  GPU A100 Profile  Strategy  Number instance  Instance resource 
    all-1g.10gb  single  1g.10gb 
    all-1g.20gb  single  4g.20gb 
    all-2g.20gb  single 2g.20gb 
    all-3g.40gb  single 3g.40gb 
    all-4g.40gb  single 4g.40gb  
    all-balanced mixed 1g.10gb 
    all-balanced mixed 1 2g.20gb
    all-balanced mixed 1 3g.40gb
    none with operator none  0 (Entire GPU)
    10  none none  0
    No.  GPU A30 Profile  Strategy  Number instance  Instance resource 
    all-1g.6gb  single  1g.6gb 
    all-2g.12gb  single  2g.12gb 
    all-4g.24gb  single  4g.24gb 
    all-balanced  mixed  1g.6gb 
    5 all-balanced  mixed  2g.12gb 
    none with Operator  none  0 (Entire GPU) 
    none none  0

    Ví dụ:

    Nếu chọn cấu hình strategy single: all-1g.6gb, card GPU A30 trên worker được chia nhỏ thành 4 mig-devices có tài nguyên gpu logic (bằng ¼ GPU vật lý) và 6GB GPU RAM.  

    Chú ý:

    MIG config áp dụng cho tất cả các card gắn trên worker. 

    MIG strategy trên các worker group của cùng cluster phải cùng 1 loại (single/mixed/none). 

    Đối với stragegy “none with Operator”, pod có thể sử dụng 1 GPU devices chứa tài nguyên của toàn bộ GPU.

    Đối với stragegy “none”, GPU đã được kết nối sẵn vào máy, người dùng có thể tự deploy GPU Operator hoặc GPU device plugin theo cấu hình mong muốn. Khuyến nghị người dùng cần nắm chắc các kiến thức cơ bản về GPU-Sharing trước khi thực hiện strategy này!