FPT Cloud ra mắt tính năng Managed GPU Cluster giúp quản trị linh hoạt và hiệu quả

FPT Cloud ra mắt tính năng Managed GPU Cluster giúp quản trị linh hoạt và hiệu quả

Tác giả: [email protected]
11:31 10/03/2025

Nằm trong lộ trình phát triển sản phẩm nhằm tối ưu trải nghiệm người dùng, FPT Cloud ra mắt tính năng Managed GPU Cluster, giúp người dùng tạo Kubernetes cluster dễ dàng, quản trị cụm cluster linh hoạt.

1. Giới thiệu chung về Managed GPU Cluster

Với Managed GPU Cluster, người sử dụng thể tạo Kubernetes cluster sử dụng GPU trong VPC của mình một cách dễ dàng, nhanh chóng. Người sử dụng có quyền quản trị cụm cluster với các Worker Nodes. Master Nodes (Control Planes) được tạo trên ORG của FPT cloud và được quản trị bởi FPT Cloud, được tạo theo các quy chuẩn của FPT Cloud giúp đảm bảo tính sẵn sàng và bảo mật cho Managed GPU Cluster. Người sử dụng không có quyền quản trị Control Planes.

Managed FPT Kubernetes cung cấp khả năng quản trị toàn bộ vòng đời cho kubernetes cluster với các tính năng sau:

  • Quản lý IAM
  • Kiểm tra Activity Log
  • Control Plane quản lý bởi FPT Cloud
  • Tạo/ cập nhật/ xoá cluster (BM worker)
  • Danh sách & chi tiết nhóm cluster/worker
  • Quản lý nhóm worker (thêm/xóa pool worker BM)
  • Tăng/Giảm số lượng node một cách thủ công trong nhóm worker
  • Gán nhãn/Taint cho nhóm worker
  • Xoay vòng kubeconfig
  • Tích hợp Load Balancer v2

Managed GPU Cluster hỗ trợ các phiên bản kubernetes sau:

  • 1.29.8 (mặc định)
  • 1.28.13
  • 1.27.16
  • 1.26.15

Các version sau có hỗ trợ nhưng sẽ deprecate theo kubernetes: 1.25.10 - 1.24.14 - 1.23.17 - 1.22.17.

2. Các tính năng mới

a. Managed GPU Cluster

  • Khởi tạo cluster: Tạo cluster theo cấu hình mong muốn (tên cluster; network sử dụng, phiên bản cluster; loại Load Balancer sử dụng cho Svc Type LB).

Picture1

  • Danh sách cluster: Xem tất cả các cluster đã tạo trên tenant.

Picture2

  • Xoá cluster: Xóa cluster và thu hồi tài nguyên.

Picture3 1

  • Chi tiết cluster: Cho phép quản lý các thông tin của 1 cụm cluster: Kubeconfig files, quản lý workers, thông tin advances, tích hợp monitoring,...

Picture4

b. Quản lý worker

  • Cho phép cấu hình số lượng các nhóm worker và cấu hình đi kèm như kích cỡ BM server, container runtime, cấu hình của worker (CPU – RAM – storage – GPU).

Picture5

  • Cho phép thay đổi, xóa và thêm mới các worker trong các cụm cluster GPU đã được khởi tạo thành công.

Picture6png

c. Thao tác với Worker

  • Tăng/Giảm số lượng worker thủ công: Cho phép người dùng thay đổi số lượng worker theo cách thủ công (thêm/bớt máy chủ BM trong mỗi node worker)
  • Gán nhãn/Taint: Gán nhãn cho các worker để quản lý tài nguyên trong các worker – thêm taint cho các worker (trừ worker cơ bản) để hỗ trợ lên lịch.

Picture7

d. Control Plane: Được quản lý bởi FPT Cloud

Phần Control Plane của cụm GPU Cluster được tạo trên ORG của FPT Cloud và được quản trị bởi FPT Cloud, được tạo theo các quy chuẩn của FPT Cloud giúp đảm bảo tính sẵn sàng và bảo mật cho Managed GPU Cluster. Người sử dụng không có quyền quản trị Control Planes.

e. IAM

Managed GPU Cluster được tích hợp cùng IAM của FPT Cloud để tăng tính bảo mật. Cho phép người dùng sử dụng trên Unify Portal, được phép thao tác tương ứng với các thành phần trong cluster (thêm, sửa, xóa, view các object như cluster, worker,...)

f. Activity Log

Managed GPU Cluster được tích hợp cùng Activity Log để theo dõi người dùng nào đã có thao tác gì với cụm cluster chỉ định trong khoảng thời gian xác định.

3. Chi tiết thông số kỹ thuật

a. Loại Worker Machine 

Metal Could GPU H100 với RDMA và Infinity Band (8x NVIDIA H100 SXM5, Dual 4th Gen Intel Xeon Scalable Processor 8462Y+, 2TB via 4800MHz DDR5, 30TB (8 x 3.84TB NVMe SSD), 400Gbps* 8 ports InfiniBand, 200Gbps* 2 ports BF3 DPU)

b. Managed GPU Cluster support các phiên bản Kubernetes

  • 1.29.8 (mặc định)
  • 1.28.13
  • 1.27.16
  • 1.26.15
  • Các phiên bản sau có hỗ trợ nhưng sẽ deprecate theo Kubernetes: 1.25.10 - 1.24.14 - 1.23.17 - 1.22.17

c. Load Balancer

  • Hỗ trợ người dùng tạo service dạng Load Balancer, sử dụng Load Balancer được cung cấp trên hạ tầng FPT Cloud với nhiều cấu hình khác nhau, phục vụ cho mục đích cân bằng tải ứng dụng. Có thể cho phép truy cập qua địa chỉ IP public hoặc domain đi kèm địa chỉ IP public đó.
  • Hỗ trợ Load Balancer V2.

d. NVIDIA Cloud Platform

  • Cụm Managed GPU Cluster được khởi tạo và vận hành trên Bare Metal Server của NVIDIA Cloud Platform và thừa hưởng những tiện ích đi kèm từ GPU của NVIDIA.
  • Các worker GPU Cluster được chạy trên Bare Metal để đảm bảo hiệu năng cao cho các tác vụ xử lý data, AI,...

4. Các tính năng sẽ được nâng cấp trong thời gian tới

Integration thêm các tiện ích/sản phẩm khác:

  • Firewall Integration
  • Monitoring Integration
  • High perfromance storage Integration (CSI)
  • Logging Integration
  • Billing Integration

Các tính năng sắp ra mắt:

  • Auto Upgrade Version
  • GPU Software Operator for Bare Metal
  • GPU Software Device Plugin
  • GPU Software Driver
  • GPU Sharing: MIG/None

Hỗ trợ GPU mới:

  • HGX H100 on HAN2 site
  • HGX H200 on Japan site
  • NVLink/Infinity Band

Liên hệ với chúng tôi để được tư vấn chi tiết về các giải pháp, dịch vụ của FPT Cloud