Giới thiệu
Nổi bật FPT Cloud Server FPT Network FPT Cloud Backup & DR FPT Database FPT Storage FPT Security FPT Container FPT Cloud Monitoring FPT Integration FPT Devsecops FPT.AI FPT Data Platform

Xem tất cả

FPT Spot Instances

Dịch vụ máy chủ ảo tiết kiệm đến 90% chi phí cho doanh nghiệp

FPT Object Storage

Lưu trữ dữ liệu đối tượng không giới hạn và truy xuất dữ liệu liên tục

FPT Load Balancing

Nâng cao năng lực, tính sẵn sàng của ứng dụng

FPT GPU Server

Tích hợp với máy chủ ảo dành cho 3D Rendering, AI hay ML

FPT Cloud WAF

Sản phẩm hợp tác giữa FPT Cloud và CyRadar, cung cấp dịch vụ tường lửa với khả năng bảo vệ mạnh mẽ cho các ứng dụng web

FPT Cloud VA

Sản phẩm hợp tác giữa FPT Cloud và CyRadar, dịch vụ cung cấp khả năng rà quét toàn diện, phân tích chi tiết và đánh giá lỗ hổng bảo mật để tăng cường an ninh thông tin cho hệ thống ứng dụng doanh nghiệp

FPT Cloud Server

Dịch vụ máy chủ ảo tiên tiến với khả năng mở rộng nhanh chóng

FPT Backup

Sao lưu và khôi phục dữ liệu tức thời, an toàn và toàn vẹn dữ liệu

FPT Cloud Desktop

Giải pháp làm việc từ xa hiệu quả và an toàn cho doanh nghiệp

FPT Cloud Server

Dịch vụ máy chủ ảo tiên tiến với khả năng mở rộng nhanh chóng

FPT Dedicated Server

Hiệu năng mạnh mẽ với hạ tầng riêng biệt

FPT GPU Server

Tích hợp với máy chủ ảo dành cho 3D Rendering, AI hay ML

FPT Spot Instances

Dịch vụ máy chủ ảo tiết kiệm đến 90% chi phí cho doanh nghiệp

FPT Load Balancing

Nâng cao năng lực, tính sẵn sàng của ứng dụng

FPT Backup

Sao lưu và khôi phục dữ liệu tức thời, an toàn và toàn vẹn dữ liệu

FPT Disaster Recovery

Dịch vụ dự phòng & khôi phục hệ thống nhanh chóng

FPT Data Streaming Engine

Giám sát và triển khai cơ sở dữ liệu như Kafka,..

FPT Non-Relational Database Engine

Giám sát và triển khai cơ sở dữ liệu Redis, Cassandra, ...

FPT OLAP Database Engine

Giám sát và triển khai cơ sở dữ liệu xử lý phân tích trực tuyến

FPT Relational Database engine

Giám sát và triển khai cơ sở dữ liệu MySQL, Postgres, SQLserver, MariaDB,...

FPT Search Engine Databases

Giám sát và triển khai cơ sở dữ liệu truy vấn thông tin

FPT Timeseries Database Engine

Giám sát và triển khai cơ sở dữ liệu chuỗi thời gian

FPT Block Storage

Lưu trữ khối đa dạng thông lượng và dung lượng cho mọi nhu cầu

FPT Object Storage

Lưu trữ dữ liệu đối tượng không giới hạn và truy xuất dữ liệu liên tục

FPT Cloud VA

Sản phẩm hợp tác giữa FPT Cloud và CyRadar, dịch vụ cung cấp khả năng rà quét toàn diện, phân tích chi tiết và đánh giá lỗ hổng bảo mật để tăng cường an ninh thông tin cho hệ thống ứng dụng doanh nghiệp

FPT Cloud WAF

Sản phẩm hợp tác giữa FPT Cloud và CyRadar, cung cấp dịch vụ tường lửa với khả năng bảo vệ mạnh mẽ cho các ứng dụng web

FPT Cloud WAPPLES

Dịch vụ tường lửa thông minh cho các ứng dụng web - Sản phẩm bảo mật đột phá với sự hợp tác giữa FPT Cloud và Penta Security.

FPT Next-Gen Firewall

Dịch vụ bảo mật tường lửa thế hệ mới

FPT Container Registry

Lưu trữ, quản lý, và bảo mật các Docker Images

FPT Kubernetes Engine

Nền tảng Kubernetes an toàn, bảo mật, ổn định, hiệu năng cao

FPT Kubernetes Engine with GPU

Tăng tốc phát triển ứng dụng yêu cầu hiệu năng cao bằng dịch vụ Kubernetes tích hợp với vi xử lý cao cấp GPU

FPT Cloud Monitoring

Giám sát hệ thống và tài nguyên toàn diện trên mọi nền tảng

FPT Incident Management

Giải pháp quản lý sự cố thông minh

FPT API Management

Dịch vụ tự động khởi tạo, duy trì, quản lý và bảo vệ các API ở mọi quy mô

FPT ArgoCD

Dịch vụ cung cấp giải pháp khởi tạo và quản lý FPT ArgoCD được tạo ra từ dự án mã nguồn mở Argo

FPT AI Chat

Nền tảng hội thoại thông minh gắn kết khách hàng trên mọi nền tảng

FPT AI eKYC

Xác thực nhanh chóng, dễ dàng, tối ưu chi phí

FPT AI Engage

Nâng tầm trải nghiệm khách hàng

FPT AI Read

Trích xuất dữ liệu vượt mọi giới hạn

FPT AI Text to Speech

Chuyển văn bản thành giọng nói tiếng Việt với ngữ điệu tự nhiên.

FPT CDC - CHANGE DATA CAPTURE

Nền tảng đồng bộ hóa cơ sở dữ liệu theo thời gian thực.

FPT Spark

Nền tảng xử lý dữ liệu lớn mạnh mẽ và linh hoạt
Bảng giá
- Đối tác FPT Cloud
- Startup Program
Sự kiện

VIE

Tất cả tài liệu

FPT Kubernetes Engine with GPU

FPT Cloud Server

FPT Storage

FPT Object Storage

FPT Network

FPT Container

FPT Security

FPT Monitoring

FPT Cloud Backup & DR

FPT Next-Gen Firewall

FPT DevSecOps Services

FPT Integration

FPT API Management

FPT Database Engine

Managed - FPT Database Engines

Multi Cloud

Support

Billing

Hướng dẫn sử dụng

Hướng dẫn sử dụng Multi-Process Service

Updated on 29 Jul 2024

Print: Export: PDF

✔ MPS là một tính năng trong GPU của NVIDIA, cho phép nhiều container chia sẻ cùng một GPU vật lý.

✔ MPS dựa trên tính năng NVIDIA's Multi-Process Service của CUDA, cho phép nhiều ứng dụng CUDA chạy đồng thời trên một GPU.

✔ Với MPS, người dùng có thể xác định trước số lượng replicas của một GPU. Giá trị này cho chúng ta biết số lượng container tối đa có thể truy cập để sử dụng một GPU.

✔ Ngoài ra, chúng ta có thể giới hạn tài nguyên GPU cho từng container, bằng việc tạo các biến môi trường sau trong container:

CUDA_MPS_ACTIVE_THREAD_PERCENTAGE
CUDA_MPS_PINNED_DEVICE_MEM_LIMIT

Để hiểu rõ hơn về cách thức MPS hoạt động, vui lòng truy cập :

1. Các bước kiểm tra trước khi cài đặt

Số lượng GPU của bạn không vượt giới hạn.
Loại GPU: từ kiến trúc Ampere (A30, A100,...).
Kiểm tra kỹ các giới hạn của tính năng MPS trước khi quyết định sử dụng.

2. Cài đặt cụm GPU sử dụng chế độ chia sẻ MPS

Bước 1: Truy cập FPT Kubernetes engine với phiên bản Manage

Bước 2: Bấm "Create a Kubernetes Engine" sau đó nhập Name, Version, Purpose, LB Size

Bước 3: Tại giao diện cấu hình các worker group GPU:

Chọn sharing mode MPS.
Cài đặt số replicas mong muốn (số replicas này cũng là số container tối đa sử dụng GPU).
Chọn cách thức cài đặt GPU driver.

Bước 4: Thực hiện cấu hình các thông số còn lại để khởi tạo cụm.

3. Kiểm tra tài nguyên GPU trong cụm Kubernetes

Chúng ta có thể xác minh tài nguyên GPU có khớp với cấu hình khi khởi tạo cụm/worker group hay không. Kiểm tra tài nguyên GPU đã sẵn sàng để sử dụng.

Để kiểm tra số lượng tài nguyên nvidia.com/gpu, chạy lệnh sau:

kubectl describe nodes $NODE_NAME

Thay NODE_NAME bằng tên của node worker GPU bạn muốn kiểm tra.

Kết quả của lệnh trên:

Capacity: 
  ... 
  nvidia.com/gpu:             3 
Allocatable: 
  ... 
  nvidia.com/gpu:             3

Giải thích :

Có 3 tài nguyên nvidia.com/gpu và cả 3 đều sẵn sàng để được sử dụng.
Số lượng tài nguyên nvidia.com/gpu là 3 do số replicas khi khởi tạo worker group là 3.
Số lượng GPU gắn với 1 node là 1, nếu số lượng GPU là 2, các giá trị nvidia.com/gpu sẽ là 6.

4. Triển khai workload sử dụng MPS

Trong ví dụ sau, chúng ta sẽ triển khai một pod sử dụng GPU với chế độ chia sẻ MPS để kiểm tra giới hạn tài nguyên mà container trong pod đó có thể sử dụng. Chú ý: chỉ có thể yêu cầu 1 tài nguyên nvidia.com/gpu cho 1 container.

Bước 1: Lưu file sau dưới tên: cuda-mem-and-sm-count.yaml:

apiVersion: v1 

kind: Pod 

metadata: 

  name: cuda-mem-and-sm-count 

spec: 

  hostIPC: true 

  containers: 

    - name: mps-example 

    image: registry.fke.fptcloud.com/xplat-fke/mps-example:0.1.1 

    securityContext: 

      privileged: true 

    resources: 

      limits: 

        nvidia.com/gpu: 1 

    command: ["/bin/sh", "-c"] 

    args: 

      - while true; do /tmp/cuda_mem_and_sm_count; sleep 30; done

Chú ý: hostIPC: true cấp quyền để pod giao tiếp với MPS control daemon, là yêu cầu cần thiết để worker group GPU MPS hoạt động bình thường.

Bước 2:

Apply file manifest trên:

kubectl apply -f cuda-mem-and-sm-count.yaml

Bước 3: Kiểm tra pod trên đã running hay chưa:

kubectl get pods

Bước 4: Kiểm tra log của pod trên, output sẽ có dạng:

For device 0: Free memory: 8014 M, Total memory: 2409M For device 0: multiProcessorCount: 18

Bước 5: Clean up:

kubectl delete -f cuda-mem-and-sm-count.yaml

5. Giới hạn tài nguyên

Mặc định, mỗi đơn vị nvidia.com/gpu được truy cập 100%/replicas bộ nhớ và tài nguyên tính toán của GPU.

CUDA_MPS_ACTIVE_THREAD_PERCENTAGE: Biến này chỉ ra tỷ lệ phần trăm số threads mỗi tài nguyên nvidia.com/gpu khi GPU được chia sẻ ở chế độ MPS.
CUDA_MPS_PINNED_DEVICE_MEM_LIMIT: Biến này giới hạn lượng bộ nhớ mỗi đơn vị chia sẻ nvidia.com/gpu khi GPU được chia sẻ ở chế độ MPS.

Chú ý: Hiện tại, các biến CUDA_MPS_ACTIVE_THREAD_PERCENTAGE và CUDA_MPS_PINNED_DEVICE_MEM_LIMIT không thể cài giá trị vượt giá trị mặc định.

Trong ví dụ này, chúng ta sẽ sử dụng hai biến môi trường nói trên để cài giới hạn sử dụng tài nguyên GPU cho từng workload.

Bước 1: Lưu file sau dưới tên cuda-mem-and-sm-count.yaml:

apiVersion: v1 

kind: Pod 

metadata: 

  name: cuda-mem-and-sm-count-10 

spec: 

  hostIPC: true 

  containers: 

    - name: mps-example 

    image: registry.fke.fptcloud.com/xplat-fke/mps-example:0.1.1 

    securityContext: 

      Privileged: true 

    resources: 

      limits: 

        nvidia.com/gpu: 1 

    env: 

      - name: CUDA_MPS_ACTIVE_THREAD_PERCENTAGE 

        value: "10" 

      - name: CUDA_MPS_PINNED_DEVICE_MEM_LIMIT 

        value: "0=4000M"  

    command: ["/bin/sh", "-c"] 

    args: 

      - while true; do /tmp/cuda_mem_and_sm_count; sleep 30; done

Bước 2: Apply file manifest trên:

kubectl apply -f cuda-mem-and-sm-count.yaml

Bước 3:Kiểm tra pod có đang chạy hay không:

kubectl get pods

Bước 4: Kiểm tra log của pod:

Log của pod sẽ có dạng

For device 0: Free memory: 3989M, Total memory: 2409M For device 0: multiProcessorCount: 5

Trong ví dụ trên, bằng 2 biến môi trường CUDA_MPS_ACTIVE_THREAD_PERCENTAGE và CUDA_MPS_PINNED_DEVICE_MEM_LIMIT, chúng ta đã giới hạn hơn nữa tài nguyên GPU mà một workload có thể dùng.

Clean up:

kubectl delete -f cuda-mem-and-sm-count.yaml

6. Một vài lưu ý

Tài nguyên nvidia.com/gpu một container yêu cầu phải bằng 1.
Số replicas tối đa là 48, ít nhất là 2.
Một container chạy một process để đảm bảo sharing mode MPS không phát sinh lỗi.
Yêu cầu phần "hostIPC:true" tại file manifest triển khai workload.
MPS có những giới hạn về error containment và workload isolation, hãy tìm hiểu và cân nhắc trước khi sử dụng.

Hướng dẫn cấu hình Auto Scale sử dụng KEDA và Prometheus

Cookie	Thời gian	Mô tả
cookielawinfo-checbox-analytics	11 Tháng
cookielawinfo-checbox-functional	11 Tháng
cookielawinfo-checbox-others	11 Tháng
cookielawinfo-checkbox-necessary	11 Tháng
cookielawinfo-checkbox-performance	11 Tháng
viewed_cookie_policy	11 Tháng