Giới thiệu
Nổi bật FPT Cloud Server FPT Cloud Backup & DR FPT Storage FPT Network FPT Security FPT Container FPT Database FPT Cloud Monitoring FPT Devsecops FPT Security Platform FPT Data Platform FPT Data Suite FPT AI Factory FPT.AI

Xem tất cả

FPT Object Storage

Lưu trữ dữ liệu đối tượng không giới hạn và truy xuất dữ liệu liên tục

FPT GPU Server

Tích hợp với máy chủ ảo dành cho 3D Rendering, AI hay ML

FPT Data Suite

Nền tảng phân tích dữ liệu đáng tin cậy cho doanh nghiệp và chuyên gia, giúp tối ưu chi phí vận hành lên đến 40% so với giải pháp BI khác.

FPT Cloud WAF

Sản phẩm hợp tác giữa FPT Cloud và CyRadar, cung cấp dịch vụ tường lửa với khả năng bảo vệ mạnh mẽ cho các ứng dụng web

FPT Cloud VA

Sản phẩm hợp tác giữa FPT Cloud và CyRadar, dịch vụ cung cấp khả năng rà quét toàn diện, phân tích chi tiết và đánh giá lỗ hổng bảo mật để tăng cường an ninh thông tin cho hệ thống ứng dụng doanh nghiệp

FPT Backup

Sao lưu và khôi phục dữ liệu tức thời, an toàn và toàn vẹn dữ liệu

FPT AI Factory

Trở thành doanh nghiệp đầu tiên trải nghiệm bộ giải pháp phát triển AI toàn diện, được phát triển trên công nghệ mạnh mẽ bậc nhất từ NVIDIA!

FPT Cloud Desktop

Giải pháp làm việc từ xa hiệu quả và an toàn cho doanh nghiệp

FPT Cloud Server

Dịch vụ máy chủ ảo tiên tiến với khả năng mở rộng nhanh chóng

FPT Dedicated Server

Hiệu năng mạnh mẽ với hạ tầng riêng biệt

FPT GPU Server

Tích hợp với máy chủ ảo dành cho 3D Rendering, AI hay ML

FPT Spot Instances

Dịch vụ máy chủ ảo tiết kiệm đến 90% chi phí cho doanh nghiệp

FPT Backup

Sao lưu và khôi phục dữ liệu tức thời, an toàn và toàn vẹn dữ liệu

FPT Disaster Recovery

Dịch vụ dự phòng & khôi phục hệ thống nhanh chóng

FPT Block Storage

Lưu trữ khối đa dạng thông lượng và dung lượng cho mọi nhu cầu

FPT Object Storage

Lưu trữ dữ liệu đối tượng không giới hạn và truy xuất dữ liệu liên tục

FPT Load Balancing

Nâng cao năng lực, tính sẵn sàng của ứng dụng

FPT Cloud VA

Sản phẩm hợp tác giữa FPT Cloud và CyRadar, dịch vụ cung cấp khả năng rà quét toàn diện, phân tích chi tiết và đánh giá lỗ hổng bảo mật để tăng cường an ninh thông tin cho hệ thống ứng dụng doanh nghiệp

FPT Cloud WAF

Sản phẩm hợp tác giữa FPT Cloud và CyRadar, cung cấp dịch vụ tường lửa với khả năng bảo vệ mạnh mẽ cho các ứng dụng web

FPT Cloud WAPPLES

Dịch vụ tường lửa thông minh cho các ứng dụng web - Giải pháp bảo mật đột phá với sự hợp tác giữa FPT Cloud và Penta Security.

FPT Next-Gen Firewall

Dịch vụ bảo mật tường lửa thế hệ mới

FPT Container Registry

Lưu trữ, quản lý, và bảo mật các Docker Images

FPT Kubernetes Engine

Nền tảng Kubernetes an toàn, bảo mật, ổn định, hiệu năng cao

FPT Kubernetes Engine with GPU

Tăng tốc phát triển ứng dụng yêu cầu hiệu năng cao bằng dịch vụ Kubernetes tích hợp với vi xử lý cao cấp GPU

FPT Data Streaming Engine

Giám sát và triển khai cơ sở dữ liệu như Kafka,..

FPT Non-Relational Database Engine

Giám sát và triển khai cơ sở dữ liệu Redis, Cassandra, ...

FPT OLAP Database Engine

Giám sát và triển khai cơ sở dữ liệu xử lý phân tích trực tuyến

FPT Relational Database engine

Giám sát và triển khai cơ sở dữ liệu MySQL, Postgres, SQLserver, MariaDB,...

FPT Search Engine Databases

Giám sát và triển khai cơ sở dữ liệu truy vấn thông tin

FPT Timeseries Database Engine

Giám sát và triển khai cơ sở dữ liệu chuỗi thời gian

FPT Cloud Monitoring

Giám sát hệ thống và tài nguyên toàn diện trên mọi nền tảng

FPT Incident Management

Giải pháp quản lý sự cố thông minh

FPT ArgoCD

Dịch vụ cung cấp giải pháp khởi tạo và quản lý FPT ArgoCD được tạo ra từ dự án mã nguồn mở Argo

FPT AppSec

Nền tảng tự động hoá bảo mật trong quy trình phát triển phần mềm

FPT Data Governance & Security

Tăng cường khả năng quản lý tài sản dữ liệu doanh nghiệp

FPT Ingestion

Quản lý dữ liệu liền mạch & toàn diện

FPT Lakehouse Analytics

Truy vấn, quản lý, trực quan hóa dữ liệu hiệu quả

FPT Processing

Tăng tốc độ xử lý, đảm bảo tính nhất quán cho ứng dụng

FPT Data Suite

Nền tảng phân tích dữ liệu đáng tin cậy cho doanh nghiệp và chuyên gia, giúp tối ưu chi phí vận hành lên đến 40% so với giải pháp BI khác.

FPT AI Factory

Trở thành doanh nghiệp đầu tiên trải nghiệm bộ giải pháp phát triển AI toàn diện, được phát triển trên công nghệ mạnh mẽ bậc nhất từ NVIDIA!

FPT AI Chat

Nền tảng hội thoại thông minh gắn kết khách hàng trên mọi nền tảng

FPT AI eKYC

Xác thực nhanh chóng, dễ dàng, tối ưu chi phí

FPT AI Engage

Nâng tầm trải nghiệm khách hàng

FPT AI Read

Trích xuất dữ liệu vượt mọi giới hạn

FPT AI Text to Speech

Chuyển văn bản thành giọng nói tiếng Việt với ngữ điệu tự nhiên.
Bảng giá
- Đối tác FPT Cloud
- Startup Program
Sự kiện

Dịch vụ

FPT Load Balancing

FPT ArgoCD

FPT AppSec

FPT Data Suite

FPT AI Factory

Đối tác

Thông tin

VIE

Tiếng Việt English 中文 (中国) 日本語

Tất cả tài liệu

Managed – FPT Kubernetes Engine

FPT Integration

FPT API Management

FPT Data Platform

FPT Data Platform

FPT Security Platform

FPT AppSec

AI Infrastructure

Managed GPU Cluster (Kubernetes)

FPT AI Factory

Billing

Support

Multi Cloud

FPT Database Engine

Managed - FPT Database Engines

FPT Cloud Server

FPT DevSecOps Services

FPT Next-Gen Firewall

FPT Cloud Backup & DR

FPT Monitoring

FPT Security

FPT Container

FPT Network

FPT Storage

Tính năng GPU Sharing

Updated on 11 Aug 2025

Print: Export: PDF

Một trong những ưu điểm lớn nhất khi sử dụng GPU trên K8s là khả năng chia sẻ GPU. Hầu hết các khối lượng công việc không yêu cầu bộ nhớ đầy đủ và tài nguyên máy tính của từng GPU. Do đó, việc chia sẻ GPU giữa nhiều quy trình là điều cần thiết để tăng mức sử dụng GPU và giảm chi phí cơ sở hạ tầng.

GPU Sharing hiện đang có 3 cơ chế:

Time slicing
Multi-instance GPU (MIG)
Multi-Process Service (MPS)

Time slicing là một cơ chế cho phép các workloads GPU được đăng ký sử dụng xen kẽ với nhau. Sử dụng GPU time-slicing scheduler để thực thi đồng thời nhiều CUDA processes thông qua việc chia sẻ thời gian.

Khi kích hoạt Time slicing, GPU sẽ chia sẻ tài nguyên của nó cho nhiều tiến trình khác nhau theo fair-sharing manner bằng cách chuyển đổi giữa các tiến trình theo khoảng thời gian đều đặn. Cơ chế này tạo ta khoảng thời gian GPU bị overhead do chuyển đổi tiến trình liên tục, dẫn đến hiện tượng giật hình và độ trễ cao hơn. Ngoài ra, Time slicing không có cơ chế cách ly bộ nhớ giữa các tiến trình chia sẻ GPU hay bất kỳ giới hạn phân bổ bộ nhớ nào, điều này có thể dẫn đến lỗi hết bộ nhớ (OOM) thường xuyên.

Multi-Instance GPU (MIG) là cơ chế có sẵn trên kiến trúc NVIDIA cho phép chia nhỏ GPU thành các phân vùng GPU riêng biệt, các phân vùng này tách biệt với nhau về bộ nhớ băng thông, bộ nhớ đệm và lõi vi xử lý riêng.

Với MIG, mỗi bộ xử lý đồ họa của instance là độc lập và có hệ thống bộ nhớ riêng. Port crossbar trên chip, L2 cache, memory controllers và địa chỉ DRAM bus đều được gán duy nhất cho một instance. Điều này đảm bảo khả năng chịu lỗi và workload của ứng dụng có thể tính toán được với throughput và latency trên từng instance riêng.

A picture containing table
Description automatically generated

Các phân vùng GPU độc lập này (MIG) được đặt tên theo định dạng cho biết tài nguyên bộ nhớ và điện toán của thiết bị, ví dụ: 1g.gb tương ứng với lát cắt GPU có bộ nhớ 6 GB.

MIG không cho phép tạo phân vùng GPU có kích thước và số lượng tùy chỉnh, vì mỗi dòng GPU chỉ hỗ trợ một số cấu hình MIG nhất định, phụ thuộc vào cấu hình phần cứng thiết bị. Điều này làm giảm mức độ tối ưu tài nguyên khi sử dụng GPU. Ngoài ra, các thiết bị MIG phải được tạo theo các quy tắc sắp xếp nhất định, điều này càng hạn chế tính linh hoạt của việc sử dụng.

MIG là phương pháp chia sẻ GPU mang lại mức độ cô lập cao nhất giữa các tiến trình. Tuy nhiên, cơ chế này thiếu tính linh hoạt và chỉ tương thích với một số kiến trúc GPU (Ampere và Hopper).

Trên K8s, NVIDIA phát triển GPU Operator cung cấp giải pháp sử dụng MIG dễ dàng, mặc dù vẫn còn những hạn chế. Người dùng sử dụng ConfigMap định nghĩa một tập hợp các cấu hình MIG được phép áp dụng cho từng node bằng cách gắn label cho node đó.

Để sử dụng hiệu quả tài nguyên GPU trên cụm K8s, người dùng sẽ phải liên tục sửa đổi ConfigMap để điều chỉnh kích thước MIG cho phù hợp với yêu cầu tài nguyên của workload luôn thay đổi. Điều này là rất bất tiện , mặc dù cấu hình MIG đã tốt hơn việc truy cập trực tiếp vào các node và tạo/xóa thủ công các thiết bị MIG, nhưng nó vấn mất công sức và thời gian. Do đó, thường xảy ra trường hợp cấu hình của các thiết bị MIG hiếm khi được thay đổi theo thời gian hoặc hoàn toàn không được áp dụng, và trong cả hai trường hợp đều dẫn đến sự thiếu hiệu quả lớn trong việc sử dụng GPU, khiến chi phí sử dụng GPU không tối ưu. Vấn đề này được khắc phục bằng cơ chế sử dụng phân vùng GPU tự động (MPS).

Multi-Process Service (MPS): sử dụng mô hình client-server của CUDA (API) cho phép chạy đồng thời nhiều tiến trình trên cùng một GPU.

Server quản lý quyền truy cập GPU cung cấp đồng thời giữa các client. Client kết nối với server thông qua client runtime, được tích hợp trong thư viện CUDA Driver và trong suốt với ứng dụng.

Về cơ bản, MPS tương thích với mọi GPU hiện tại, cung cấp tính linh hoạt cao nhất, cho phép tạo phân vùng GPU với tùy chọn về cả dung lượng bộ nhớ và khả năng tính toán. Tuy nhiên, cơ chế MPS không thực sự cách ly toàn bộ bộ nhớ giữa các tiến trình. Trong hầu hết các trường hợp, MPS thể hiện sự dung hòa tốt giữa MIG và Time-slicing.

Diagram
Description automatically generated

So với Time-slicing, MPS loại khoảng thời gian overhead để chuyển đổi ngữ cảnh bằng cách chạy song song các tiến trình thông qua spatial sharing, dẫn đến hiệu suất tính toán tốt hơn. Hơn nữa, MPS cung cấp cho mỗi tiến trình một không gian địa chỉ bộ nhớ GPU riêng. Điều này cho phép khắc phục các hạn chế của Time-slicing.

Tuy nhiên, trong MPS, các tiến trình không được cách ly hoàn toàn với nhau, mặc dù MPS cho phép giới hạn tài nguyên bộ nhớ và tính toán của client, nhưng nó không cung cấp khả năng cách ly lỗi và bảo vệ bộ nhớ. Điều này có nghĩa là một tiến trình có thể gặp sự cố và khiến toàn bộ GPU phải đặt lại, ảnh hưởng đến tất cả các tiến trình khác đang chạy trên GPU. NVIDIA Kubernetes chưa hỗ trợ cho phân vùng MPS, nên việc sử dụng MPS trên Kubernetes phải thông qua phần mềm thứ 3.

Tại sao nên sử dụng GPU Kubernetes?

Dịch vụ GPU trên K8s FPT Cloud

Cookie	Thời gian	Mô tả
cookielawinfo-checbox-analytics	11 Tháng
cookielawinfo-checbox-functional	11 Tháng
cookielawinfo-checbox-others	11 Tháng
cookielawinfo-checkbox-necessary	11 Tháng
cookielawinfo-checkbox-performance	11 Tháng
viewed_cookie_policy	11 Tháng