Open Infrastructure for AI: Vì sao OpenStack đang trở thành nền tảng hạ tầng chiến lược cho AI thế hệ mới
Sự trỗi dậy của Generative AI không chỉ thay đổi cách chúng ta tương tác với công nghệ mà đã kéo theo một làn sóng tái kiến trúc hạ tầng ở quy mô toàn cầu. Những mô hình ngôn ngữ lớn (LLM), GPU chuyên dụng như H100/H200, hay các cụm HPC tốc độ cao đã khiến yêu cầu về hạ tầng tăng mạnh chưa từng thấy. Doanh nghiệp không chỉ cần sức mạnh tính toán; họ cần một nền tảng mở, linh hoạt, dễ mở rộng và có khả năng bắt kịp tốc độ thay đổi của hệ sinh thái AI. Họ cần một "AI Factory" – một nhà máy AI thực thụ.
Trong bối cảnh đó, OpenStack đang nổi lên như một nền tảng mở, linh hoạt và mạnh mẽ, đóng vai trò kim chỉ nam cho hạ tầng AI thế hệ tiếp theo nơi khả năng mô-đun hóa, tự do tích hợp và tốc độ cải tiến cộng đồng trở thành lợi thế vượt trội.

OpenStack: Nền tảng mở cho kỷ nguyên AI
Khi các workload AI ngày càng tiêu tốn tài nguyên hơn và nhạy cảm về độ trễ hơn, OpenStack cung cấp lớp ảo hóa và quản trị hạ tầng mạnh mẽ, đủ khả năng hỗ trợ môi trường tính toán hiệu suất cao thông qua các dịch vụ như Nova, Neutron, Cinder và Ironic. Khả năng mở rộng đã được kiểm chứng và mức độ linh hoạt cao khiến OpenStack trở thành lựa chọn phù hợp cho thế hệ tiếp theo của workload AI và HPC.
Khác với các giải pháp đám mây độc quyền vốn phụ thuộc vào lộ trình của nhà cung cấp, OpenStack được phát triển bởi chính cộng đồng những doanh nghiệp vận hành nó trong thực tế. Điều này đảm bảo tốc độ cải tiến nhanh, khả năng cập nhật các công nghệ mới nổi như lập lịch GPU đa người dùng, tối ưu theo NUMA hay tăng tốc mạng SR-IOV, đồng thời mang lại mức độ linh hoạt mà các nền tảng đóng không thể có.
Xuất phát từ thực tiễn đó, AI Working Group - được thành lập bởi Open Infra Foundation đã cùng hợp tác để giới thiệu kiến trúc và usecase công nghệ của việc sử dụng OpenStack nhằm hỗ trợ các workload AI trong whitepaper “Open Infrastructure for AI: OpenStack’s Role in the Next Generation Cloud”
Kim chỉ nam cho hạ tầng AI - Và 5 bài toán lớn định hình tương lai
Generative AI tạo ra một sự thay đổi căn bản trong cách chúng ta thiết kế, triển khai và vận hành hạ tầng AI. Việc huấn luyện mô hình ngôn ngữ lớn, tự lưu trữ các mô hình mã nguồn mở, hay phục vụ suy luận (inference) ở quy mô lớn đòi hỏi phần cứng thế hệ mới như GPU H100/H200 cùng với tốc độ kết nối và băng thông lưu trữ ở mức HPC.
Nhằm bám sát vào những thay đổi lớn của hạ tầng AI thế hệ mới này, 5 bài toán kinh điển và cách thức để hạ tầng mã nguồn mở giải quyết chúng đã được đưa ra bao gồm:
1. ModelTraining & Serving - Tăng tốc sáng tạo mô hình
Trong nhiều năm, xây dựng một pipeline AI hoàn chỉnh đòi hỏi đội ngũ kỹ thuật phải giải quyết hàng loạt bước phức tạp ở tầng hạ tầng. Xu hướng hiện nay đi theo hướng đơn giản hóa: nhà phát triển ứng dụng AI không cần quan tâm vào hạ tầng, chỉ cần thông qua giao diện code như Jupiter Notebook hoặc code IDE là có thể gọi vào training một model LLM. Sau khi training thì có thể chạy serving model đó thông qua API (e.g. OpenAI Compatible API) chỉ với vài thao tác.
2. GPU-as-a-Service - Tối ưu hiệu năng và chi phí GPU
Những dòng GPU tân tiến như H100/H200 rất mạnh mẽ nhưng giá thành cao, việc sở hữu một thiết bị H100 gần như là chỉ có ở những doanh nghiệp lớn và thường không sử dụng hết năng lực của một thiết bị gây lãng phí, thay vào đó là việc đi thuê tài nguyên mang lại chi phí tối ưu hơn và phù hợp cho mọi doanh nghiệp. Kiến trúc mở cho phép chia nhỏ GPU thành nhiều phần (MIG), xây dựng máy ảo GPU theo nhu cầu (vGPU), hoặc cấp quyền truy cập trực tiếp (PCI Passthrough) để tối ưu hiệu năng.
Thay vì sở hữu toàn bộ phần cứng, doanh nghiệp có thể thuê đúng mức tài nguyên cần thiết, tránh tình trạng “đầu tư lớn – sử dụng thấp”, đồng thời linh hoạt mở rộng theo nhịp phát triển AI.
3. Nền tảngMLOps - Vận hành mô hình AI ở quy mô lớn
Các mô hình ngôn ngữ lớn thay đổi nhanh chóng và đòi hỏi một vòng đời vận hành liên tục: cập nhật mô hình, giám sát, tối ưu chi phí suy luận, kiểm soát hiệu năng, đảm bảo uptime. Một nền tảng MLOps hiện đại cần làm được tất cả điều này trong khi vẫn duy trì sự ổn định của hệ thống và tính liên tục của dịch vụ.
OpenStack với bộ dịch vụ mở rộng xung quanh trở thành lựa chọn phù hợp để xây dựng nền tảng tự động hóa toàn trình, từ training đến inference.
4. High-PerformanceComputing Cluster - Sức mạnh kết nối cụm GPU lớn
Những mô hình hàng tỷ tham số yêu cầu khả năng huấn luyện phân tán trên hàng chục node GPU. Kết nối một cụm 32 node H100 với thông lượng Tbps, độ trễ cực thấp và khả năng đọc ghi dữ liệu tốc độ cao là một thách thức mà chỉ các nền tảng HPC thực thụ có thể đáp ứng.
OpenStack cung cấp khả năng quản lý bare-metal kết hợp với các công nghệ tối tân như Infiniband, high-performance storage, giúp doanh nghiệp tiếp cận sức mạnh của các “AI SuperPod” theo cách linh hoạt và tối ưu chi phí hơn.
5. AIIoT& Edge Computing - Đưa AI đến gần dữ liệu hơn
Ứng dụng AI ngày càng mở rộng sang robot, xe tự hành, camera thông minh và các thiết bị IoT. Những tác vụ này cần xử lý ngay tại nguồn để đảm bảo tốc độ theo thời gian thực. Kiến trúc phân tán, edge computing và khả năng đồng bộ giữa trung tâm dữ liệu - biên - thiết bị trở thành yếu tố then chốt.
OpenStack hỗ trợ tốt cho những mô hình hạ tầng lai (hybrid) và distributed, giúp doanh nghiệp triển khai AI ở biên một cách nhất quán và an toàn.
OpenStack - nền tảng mở cho tương lai AI
Trong thế giới nơi AI đang thúc đẩy mọi ngành công nghiệp, một hạ tầng mở, linh hoạt và dễ mở rộng không còn là tùy chọn - mà trở thành nền tảng cốt lõi. OpenStack mang lại khả năng tùy biến sâu, tích hợp rộng và tốc độ cải tiến nhanh nhờ cộng đồng, giúp doanh nghiệp xây dựng “AI Factory” với chi phí tối ưu và khả năng mở rộng bền vững.
Whitepaper “Open Infrastructure for AI” không chỉ mô tả các kiến trúc kỹ thuật, mà mở ra cách nhìn toàn diện về việc vận hành AI ở quy mô lớn bằng hạ tầng mở. Đây là bước đi quan trọng để doanh nghiệp sẵn sàng cho tương lai AI, nơi tốc độ và khả năng tự chủ hạ tầng trở thành lợi thế cạnh tranh hàng đầu.
Tác giả: Trần Quốc Sang
Phó Giám đốc Trung tâm Phát triển Dịch vụ Hạ Tầng Cloud - FPT Smart Cloud, Tập đoàn FPT