Giới thiệu
Nổi bật FPT Cloud Server FPT Cloud Backup & DR FPT Storage FPT Network FPT Security FPT Container FPT Database FPT Cloud Monitoring FPT Devsecops FPT Security Platform FPT Data Platform FPT Data Suite FPT AI Factory FPT.AI

Xem tất cả

FPT Object Storage

Lưu trữ dữ liệu đối tượng không giới hạn và truy xuất dữ liệu liên tục

FPT GPU Server

Tích hợp với máy chủ ảo dành cho 3D Rendering, AI hay ML

FPT Data Suite

Nền tảng phân tích dữ liệu đáng tin cậy cho doanh nghiệp và chuyên gia, giúp tối ưu chi phí vận hành lên đến 40% so với giải pháp BI khác.

FPT Cloud WAF

Sản phẩm hợp tác giữa FPT Cloud và CyRadar, cung cấp dịch vụ tường lửa với khả năng bảo vệ mạnh mẽ cho các ứng dụng web

FPT Cloud VA

Sản phẩm hợp tác giữa FPT Cloud và CyRadar, dịch vụ cung cấp khả năng rà quét toàn diện, phân tích chi tiết và đánh giá lỗ hổng bảo mật để tăng cường an ninh thông tin cho hệ thống ứng dụng doanh nghiệp

FPT Backup

Sao lưu và khôi phục dữ liệu tức thời, an toàn và toàn vẹn dữ liệu

FPT AI Factory

Trở thành doanh nghiệp đầu tiên trải nghiệm bộ giải pháp phát triển AI toàn diện, được phát triển trên công nghệ mạnh mẽ bậc nhất từ NVIDIA!

FPT Cloud Desktop

Giải pháp làm việc từ xa hiệu quả và an toàn cho doanh nghiệp

FPT Cloud Server

Dịch vụ máy chủ ảo tiên tiến với khả năng mở rộng nhanh chóng

FPT Dedicated Server

Hiệu năng mạnh mẽ với hạ tầng riêng biệt

FPT GPU Server

Tích hợp với máy chủ ảo dành cho 3D Rendering, AI hay ML

FPT Spot Instances

Dịch vụ máy chủ ảo tiết kiệm đến 90% chi phí cho doanh nghiệp

FPT Backup

Sao lưu và khôi phục dữ liệu tức thời, an toàn và toàn vẹn dữ liệu

FPT Disaster Recovery

Dịch vụ dự phòng & khôi phục hệ thống nhanh chóng

FPT Block Storage

Lưu trữ khối đa dạng thông lượng và dung lượng cho mọi nhu cầu

FPT Object Storage

Lưu trữ dữ liệu đối tượng không giới hạn và truy xuất dữ liệu liên tục

FPT Load Balancing

Nâng cao năng lực, tính sẵn sàng của ứng dụng

FPT Cloud VA

Sản phẩm hợp tác giữa FPT Cloud và CyRadar, dịch vụ cung cấp khả năng rà quét toàn diện, phân tích chi tiết và đánh giá lỗ hổng bảo mật để tăng cường an ninh thông tin cho hệ thống ứng dụng doanh nghiệp

FPT Cloud WAF

Sản phẩm hợp tác giữa FPT Cloud và CyRadar, cung cấp dịch vụ tường lửa với khả năng bảo vệ mạnh mẽ cho các ứng dụng web

FPT Cloud WAPPLES

Dịch vụ tường lửa thông minh cho các ứng dụng web - Giải pháp bảo mật đột phá với sự hợp tác giữa FPT Cloud và Penta Security.

FPT Next-Gen Firewall

Dịch vụ bảo mật tường lửa thế hệ mới

FPT Container Registry

Lưu trữ, quản lý, và bảo mật các Docker Images

FPT Kubernetes Engine

Nền tảng Kubernetes an toàn, bảo mật, ổn định, hiệu năng cao

FPT Kubernetes Engine with GPU

Tăng tốc phát triển ứng dụng yêu cầu hiệu năng cao bằng dịch vụ Kubernetes tích hợp với vi xử lý cao cấp GPU

FPT Data Streaming Engine

Giám sát và triển khai cơ sở dữ liệu như Kafka,..

FPT Non-Relational Database Engine

Giám sát và triển khai cơ sở dữ liệu Redis, Cassandra, ...

FPT OLAP Database Engine

Giám sát và triển khai cơ sở dữ liệu xử lý phân tích trực tuyến

FPT Relational Database engine

Giám sát và triển khai cơ sở dữ liệu MySQL, Postgres, SQLserver, MariaDB,...

FPT Search Engine Databases

Giám sát và triển khai cơ sở dữ liệu truy vấn thông tin

FPT Timeseries Database Engine

Giám sát và triển khai cơ sở dữ liệu chuỗi thời gian

FPT Cloud Monitoring

Giám sát hệ thống và tài nguyên toàn diện trên mọi nền tảng

FPT Incident Management

Giải pháp quản lý sự cố thông minh

FPT ArgoCD

Dịch vụ cung cấp giải pháp khởi tạo và quản lý FPT ArgoCD được tạo ra từ dự án mã nguồn mở Argo

FPT AppSec

Nền tảng tự động hoá bảo mật trong quy trình phát triển phần mềm

FPT Data Governance & Security

Tăng cường khả năng quản lý tài sản dữ liệu doanh nghiệp

FPT Ingestion

Quản lý dữ liệu liền mạch & toàn diện

FPT Lakehouse Analytics

Truy vấn, quản lý, trực quan hóa dữ liệu hiệu quả

FPT Processing

Tăng tốc độ xử lý, đảm bảo tính nhất quán cho ứng dụng

FPT Data Suite

Nền tảng phân tích dữ liệu đáng tin cậy cho doanh nghiệp và chuyên gia, giúp tối ưu chi phí vận hành lên đến 40% so với giải pháp BI khác.

FPT AI Factory

Trở thành doanh nghiệp đầu tiên trải nghiệm bộ giải pháp phát triển AI toàn diện, được phát triển trên công nghệ mạnh mẽ bậc nhất từ NVIDIA!

FPT AI Chat

Nền tảng hội thoại thông minh gắn kết khách hàng trên mọi nền tảng

FPT AI eKYC

Xác thực nhanh chóng, dễ dàng, tối ưu chi phí

FPT AI Engage

Nâng tầm trải nghiệm khách hàng

FPT AI Read

Trích xuất dữ liệu vượt mọi giới hạn

FPT AI Text to Speech

Chuyển văn bản thành giọng nói tiếng Việt với ngữ điệu tự nhiên.
Bảng giá
- Đối tác FPT Cloud
- Startup Program
Sự kiện

Dịch vụ

FPT Load Balancing

FPT ArgoCD

FPT AppSec

FPT Data Suite

FPT AI Factory

Đối tác

Thông tin

VIE

Tiếng Việt English 中文 (中国) 日本語

Tất cả tài liệu

Managed – FPT Kubernetes Engine

FPT Integration

FPT API Management

FPT Data Platform

FPT Data Platform

FPT AppSec

FPT AppSec

AI Infrastructure

Managed GPU Cluster (Kubernetes)

FPT AI Factory

Billing

Support

Multi Cloud

FPT Database Engine

Managed - FPT Database Engines

FPT Cloud Server

FPT DevSecOps Services

FPT Next-Gen Firewall

FPT Cloud Backup & DR

FPT Monitoring

FPT Security

FPT Container

FPT Network

FPT Storage

Dịch vụ GPU trên K8s FPT Cloud

Updated on 11 Aug 2025

Print: Export: PDF

FPT Cloud cung cấp Kubernetes sử dụng GPU NVIDIA có các tính năng chính sau:

Cấu hình GPU linh hoạt với loại GPU, bộ nhớ GPU tùy chọn cho từng Worker Group.
Quản lý và cấp phát tài nguyên GPU trong Kubernetes tự động với NVIDIA Operator
Cho phép trực quan hóa và giám sát GPU bằng NVIDIA DCGM.
Tự động tăng/giảm Container/Node với Autoscaler khi ứng dụng yêu cầu sử dụng tài nguyên GPU tăng lên/giảm đi.
Hỗ trợ GPU sharing với cơ chế Multi-Instance, giúp tối ưu hóa tài nguyên và chi phí sử dụng GPU.

FPT Cloud sử dụng NVIDIA GPU Operator cung cấp công cụ tự động quản lý tất cả các thành phần phần mềm cần thiết để sử dụng GPU trên K8s. GPU Operator cho phép người dùng sử dụng tài nguyên GPU giống như sử dụng CPU trong cụm K8s.

Các thành phần phần mềm bao gồm:

NVIDIA Drivers (CUDA, MIG,…)
NVIDIA Device Plugin
NVIDIA Container Toolkit
NVIDIA GPU Feature Discovery
NVIDIA Data Center GPU Manager (Monitoring)

K8s Operator tự động cấu hình MIG cho worker, để thực hiện config MIG cần label worker theo các profile được hỗ trợ bởi Nvidia. Các cấu hình MIG được liệt kê trong Configmap default-mig-parted-config trên k8s, namespace: gpu-operator.

Diagram
Description automatically generated

MIG trên Kubernetes được thiết kế như một controller. Nó theo dõi các thay đổi đối với label nvidia.com/mig.config trên worker, sau đó áp dụng cấu hình MIG do người dùng yêu cầu. Khi label thay đổi, MIG trước tiên sẽ stop tất cả các pod GPU (bao gồm device plugin, gfd và dcgm-exporter). Sau đó, nó stop tất cả systemd-services trên các worker GPU nếu driver đã được cài đặt sẵn, các service này liệt kê trong configmap có tên là default-gpu-clients. Cuối cùng, nó áp dụng lại cấu hình MIG và khởi động lại pod GPU (có thể cả gpu systemd-services trên worker GPU nếu cần thiết). Enable MIG mode yêu cầu khởi động lại worker.

FPT Cloud hiện tại đang hỗ trợ card GPU Nvidia A30, đang hỗ trợ các MIG profile – label sau:


No.	GPU A30 Profile – Label	Strategy	Number instance	Instance resource
1	all-1g.6gb	single	4	1g.6gb
2	all-2g.12gb	single	2	2g.12gb
3	all-4g.24gb	single	1	4g.24gb
4	all-balanced	mixed	2	1g.6gb
			1	2g.12gb
5	none (no label)	none	0	0 (Entire A30-24GB)

Ví dụ:

Với card GPU A30, bạn có thể cấu hình strategy single với label: all-1g.6gb. Label này có nghĩa là Operator sẽ chia nhỏ GPU A30 trên worker thành 4x mig-devices có tài nguyên 1gpu logic (bằng ¼ GPU vật lý) và 6GB GPU RAM. MIG config này áp dụng cho tất cả các card gắn trên worker được đánh label.

FPT Cloud sử dụng Nvidia GPU Telemetry tích hợp với kube–prometheus-stack thành bộ công cụ theo dõi và giám sát cho hệ thống sử dụng GPU trên k8s. Bộ công cụ giám sát bao gồm collector, time-series database lưu trữ chỉ số (metrics) và visualization (giao diện trực quan hóa). Bộ công cụ sử dụng các ứng dụng mã nguồn mở phổ biến là Prometheus và Grafana. Prometheus cũng bao gồm Alertmanager để tạo và quản lý các cảnh báo. Prometheus được triển khai cùng với kube-state-metrics và node_exporter để hiển thị các chỉ số (metrics) mức cluster cho các đối tượng API Kubernetes và các chỉ số mức node, ví dụ như mức sử dụng GPU.

Mô hình kiến trúc GPU Telemetry sử dụng:

Graphical user interface
Description automatically generated

Để thu thập telemetry GPU trong Kubernetes, Nvidia khuyến nghị sử dụng dcgm-exporter. Dcgm-exporter hiển thị GPU metrics cho Prometheus và có thể hiển thị trực quan qua Grafana. Dcgm-exporter được thiết kế để tận dụng KubeletPodResources API và hiển thị GPU metrics ở định dạng để Prometheus có thể thu thập được. Công cụ bao gồm cả ServiceMonitor để expose ra Endpoints.

Dashboard GPU của Nvidia DCGM:

Graphical user interface
Description automatically generated

Conclusion:

Vì vậy, GPU trên Kubernetes có phải là một giải pháp tốt cho AI workload không? Chắc chắn rồi, ngày càng có nhiều tiện ích mở rộng mã nguồn mở cho Kubernetes như KNative, Istio, Kubeflow và KFSServing giúp chạy workload trên Kubernetes, giúp tăng tốc và đơn giản hóa việc triển khai AI nói chung và machine learning nói riêng trên Kubernetes, loại bỏ sự phức tạp, dễ dàng triển khai hơn và quản lý các ứng trên quy mô lớn.

Kubernetes đang trở thành công nghệ trọng tâm trong việc triển khai AI ngày nay. Từ dữ liệu và model đến prototype và cuối cùng là production đã được sắp xếp hợp lý và đơn giản hóa rất nhiều bởi các thư viện như PyTorch, TensorFlow và Keras. Đồng thời, các frameworks này cũng có thể được áp dụng rất chi tiết, nếu cần, để phát triển các thành phần tùy chỉnh hoặc để tích hợp và điều chỉnh các mô hình hiện có bằng cách sử dụng transfer learning. Công nghệ Container cho phép kết quả được đóng gói thành image với tất cả requirements và dependencies của ứng dụng, đồng thời được thực thi ở hầu hết mọi nơi mà không gặp hạn chế về tốc độ. Ở bước cuối cùng, việc triển khai, bảo trì và mở rộng quy mô của chúng cũng trở nên vô cùng đơn giản và mạnh mẽ với Kubernetes.

Sự kết hợp giữa GPU trên k8s là cần thiết để cải thiện hiệu suất và tốc độ xử lý phục vụ cho các ứng dụng AI. Dịch vụ GPU trên Kubenetes FPT Cloud đem lại hiệu quả về chất lượng, tiết kiệm thời gian, đặc biệt là đối với các doanh nghiệp tài chính, ngân hàng cần xử lý khối lượng lớn về data.

Tài liệu tham khảo:

Tính năng GPU Sharing

Điều chỉnh cấu hình CoreDNS trong Kubernetes Service

Cookie	Thời gian	Mô tả
cookielawinfo-checbox-analytics	11 Tháng
cookielawinfo-checbox-functional	11 Tháng
cookielawinfo-checbox-others	11 Tháng
cookielawinfo-checkbox-necessary	11 Tháng
cookielawinfo-checkbox-performance	11 Tháng
viewed_cookie_policy	11 Tháng