Từ GPU Đến AI Factory: Chuẩn Hóa Kiến Trúc Hạ Tầng AI Trên Nền Tảng OpenStack

Từ GPU Đến AI Factory: Chuẩn Hóa Kiến Trúc Hạ Tầng AI Trên Nền Tảng OpenStack

Tác giả: FPT Cloud
09:12 16/01/2026

Trong bài viết trước, chúng ta đã khẳng định OpenStack là "xương sống" cho hạ tầng AI thế hệ mới. Tuy nhiên, để chuyển đổi từ một cụm máy chủ gắn GPU rời rạc thành một AI Factory - một nhà máy sản xuất trí tuệ nhân tạo có khả năng thương mại hóa và mở rộng vô hạn – doanh nghiệp cần một bản thiết kế kiến trúc chuẩn mực. 

Dựa trên Whitepaper "Open Infrastructure for AI", kiến trúc AI hiện đại không còn là câu chuyện của riêng con chip, mà là sự hòa quyện của ba trụ cột: GPU tối ưu, Lưu trữ hiệu năng cao và Mạng tốc độ cực lớn. 

bb2ac84ff0aeb326a05a7e15641743c7

GPU: Tài nguyên chiến lược và tư duy đa mô hình 

Trong một AI Factory, GPU không chỉ là phần cứng tăng tốc, nó là "tiền tệ" của hệ thống. Để tối ưu hóa dòng tiền này, kiến trúc hạ tầng phải cho phép khai thác GPU theo nhiều kịch bản khác nhau thay vì một cấu hình cố định. 

OpenStack mang lại sự linh hoạt đặc yếu qua ba phương thức tiếp cận: 

  • PCI Passthrough: Dành cho các tác vụ huấn luyện (Training) mô hình lớn hoặc suy luận (Inference) thời gian thực. Bằng cách gắn trực tiếp GPU vật lý vào máy ảo, chúng ta loại bỏ độ trễ của lớp trung gian, đạt hiệu năng tương đương máy chủ vật lý (Bare-metal).  
  • Virtual GPU (vGPU): Giải pháp hoàn hảo cho môi trường phát triển (R&D) hoặc thử nghiệm. Một GPU vật lý được chia sẻ cho nhiều người dùng, giúp tối ưu hóa chi phí đầu tư ban đầu. 
  • Multi-Instance GPU (MIG): Đây là chìa khóa cho mô hình AI đa người dùng (Multi-tenant). MIG chia nhỏ GPU thành các phân vùng có tài nguyên phần cứng độc lập, đảm bảo tính cô lập tuyệt đối và độ ổn định cho các dịch vụ Inference quy mô lớn. 

Lợi thế của AI Factory trên nền OpenStack chính là khả năng điều phối tự động cả ba mô hình này trên cùng một cụm tài nguyên thông qua API, giúp doanh nghiệp sẵn sàng cung cấp dịch vụ GPU-as-a-Service chuyên nghiệp.  

Lưu trữ và Network: "Hệ thần kinh" của các mô hình LLM 

Nếu GPU là bộ não, thì lưu trữ và mạng lưới chính là hệ thần kinh trung ương. Với các mô hình ngôn ngữ lớn (LLM) nặng hàng trăm GB, bài toán không còn là "lưu trữ ở đâu" mà là "dữ liệu di chuyển nhanh thế nào". 

Lưu trữ hiệu năng cao (HPS) – Bài toán sống còn 

Thời gian tải mô hình từ ổ cứng lên vRAM của GPU quyết định tính sẵn sàng của dịch vụ. Whitepaper nhấn mạnh vai trò của Parallel File System. Trong kiến trúc AI Factory, lưu trữ không còn là thành phần phụ trợ mà là yếu tố quyết định khả năng mở rộng (Scalability) và thời gian đưa dịch vụ ra thị trường (Time-to-market). 

Network - Kết nối quy mô siêu máy tính 

Workload AI đòi hỏi băng thông mạng từ 100Gb/s đến 200Gb/s – gấp 10-20 lần so với ứng dụng web truyền thống. Để vận hành như một hệ thống HPC (Tính toán hiệu năng cao) thực thụ, AI Factory tích hợp sâu các công nghệ: 

  • RDMA & InfiniBand: Giảm tải cho CPU và tăng tốc truyền dữ liệu giữa các node GPU. 
  • SR-IOV: Tối ưu hóa hiệu suất mạng cho máy ảo. 

Tối ưu hóa: Lợi thế cạnh tranh nằm ở những "chi tiết ẩn" 

Một kiến trúc sư hạ tầng AI giỏi khác biệt ở chỗ họ biết cách "tinh chỉnh" những thông số nhỏ để tạo ra hiệu năng lớn. OpenStack cho phép can thiệp sâu vào tầng dưới cùng của phần cứng – điều mà các nền tảng Public Cloud đóng thường hạn chế: 

  • NUMA Affinity & CPU Pinning: Giảm thiểu độ trễ truy cập bộ nhớ, giúp GPU VM hoạt động mượt mà nhất. 
  • Hardware Offload & RoCE: Tận dụng tối đa năng lực card mạng để giảm tải cho vi xử lý chính. 

Chính những tinh chỉnh mang tính đặc thù này giúp các AI Factory vận hành trên hạ tầng mở đạt hiệu suất vượt trội hơn hẳn so với các cấu hình phần cứng tương đương trên nền tảng đóng. 

Hệ sinh thái toàn diện: Từ hạ tầng đến dịch vụ thương mại 

Sức mạnh thực sự của OpenStack nằm ở khả năng biến các tài nguyên thô thành một hệ sinh thái dịch vụ hoàn chỉnh: 

  1. OpenStack Ironic: Cung cấp GPU Bare-metal cho các tác vụ cần hiệu năng tuyệt đối. 
  2. Magnum: Triển khai cụm Kubernetes GPU phục vụ container hóa ứng dụng AI. 
  3. Trove & Manila: Tự động hóa quản trị cơ sở dữ liệu và hệ thống tệp tin cho AI. 

Khả năng tùy biến sâu này giúp doanh nghiệp không chỉ xây dựng được hạ tầng AI mà còn sở hữu một nền tảng sẵn sàng cho thương mại hóa, có thể thích ứng với bất kỳ framework hay dòng chip AI mới nào xuất hiện trong tương lai. 

Minh chứng từ thực tế 

Kiến trúc AI Factory trên nền OpenStack không còn là lý thuyết. Từ những "gã khổng lồ" viễn thông như China Mobile, các nhà cung cấp cloud như Rackspace, cho đến những đơn vị tiên phong tại Việt Nam như FPT Smart Cloud (FPT Cloud & FPT AI Factory), tất cả đều đang chứng minh rằng: Hạ tầng mở là con đường ngắn nhất và bền vững nhất để làm chủ cuộc chơi AI. 

Đứng sau sự thành công này là AI Working Group (thuộc OpenInfra Foundation) – nơi quy tụ những khối óc hàng đầu thế giới về hạ tầng mở. Sự kết nối tri thức này đảm bảo rằng AI Factory của doanh nghiệp bạn luôn được vận hành dựa trên những tiêu chuẩn kiến trúc tiên tiến nhất toàn cầu. 

Vì sao OpenStack đang trở thành nền tảng hạ tầng chiến lược cho AI thế hệ mới? Xem thêm thông tin về OpenStack tại đây.

Tác giả: Trần Quốc Sang
Phó Giám đốc Trung tâm Phát triển Dịch vụ Hạ Tầng Cloud - FPT Smart Cloud, Tập đoàn FPT