3 yếu tố cốt lõi đánh giá hiệu năng của hạ tầng Cloud
Xem nhanh
Sự phát triển của AI, 5G, NFV và các ứng dụng thời gian thực đang đặt ra những yêu cầu mới cho hạ tầng cloud. Bên cạnh khả năng mở rộng và tính linh hoạt, doanh nghiệp ngày càng quan tâm đến hiệu năng mạng, độ trễ và năng lực xử lý lưu lượng ở quy mô lớn. Điều này tạo ra một thách thức không nhỏ: làm thế nào để duy trì những lợi ích vốn có của cloud trong khi vẫn đáp ứng được các workload vốn trước đây thường chỉ phù hợp với hạ tầng vật lý chuyên dụng.
Đó cũng là bài toán mà kiến trúc High-Performance OpenStack hướng tới giải quyết thông qua việc tối ưu toàn diện từ kernel, CPU, bộ nhớ đến tầng xử lý dữ liệu (dataplane) và phần cứng mạng. Tuy nhiên, giá trị của những cải tiến này không chỉ nằm ở thiết kế kiến trúc mà cần được chứng minh bằng các số liệu thực tế. Trong whitepaper "High-Performance OpenStack: Khi hạ tầng cloud Việt Nam không còn là bottleneck", FPT Smart Cloud đã công bố loạt đo kiểm hiệu năng và kết quả triển khai thực tế, qua đó đánh giá toàn diện các chỉ số quan trọng như thông lượng (throughput), tốc độ xử lý gói tin (packet processing rate) , độ trễ (latency) và dao động độ trễ (jitter), đồng thời cho thấy cách một nền tảng cloud hiện đại có thể đạt hiệu năng tiệm cận hạ tầng vật lý đối với những workload khắt khe nhất hiện nay.
Để đảm bảo kết quả phản ánh đúng năng lực vận hành của hệ thống, nhóm nghiên cứu sử dụng đồng thời nhiều công cụ đo kiểm hiệu năng phổ biến trong lĩnh vực cloud và viễn thông.

Ba mô hình kiểm chứng được sử dụng song song, mỗi mô hình phục vụ một góc nhìn khác nhau. iperf đo thông lượng có tham gia của TCP stack; T-Rex đo năng lực chuyển tiếp thuần ở tầng 2 và tầng 3; Grafana k6 mô phỏng tải thực tế từ nhiều client đồng thời.
Cisco T-Rex được sử dụng để đo khả năng xử lý gói tin (packet) ở Tầng 2 và Tầng 3, đặc biệt phù hợp với các workload viễn thông và NFV. Trong khi đó, iperf giúp đánh giá thông lượng (throughput) theo cách tiếp cận gần với các ứng dụng thực tế. Bên cạnh đó, Grafana k6 được sử dụng để mô phỏng tải ứng dụng và hành vi người dùng trong môi trường production.
Việc kết hợp nhiều phương pháp đo khác nhau giúp đảm bảo kết quả đo kiểm hiệu năng không chỉ phản ánh hiệu năng lý thuyết mà còn cho thấy khả năng vận hành trong các tình huống thực tế.
Một trong những tiêu chí quan trọng nhất đối với hạ tầng cloud là khả năng khai thác tối đa băng thông vật lý của hệ thống. Đây cũng là chỉ số phản ánh trực tiếp mức độ hiệu quả của tầng mạng ảo hóa, vốn từ lâu được xem là một trong những nguyên nhân gây suy giảm hiệu năng trong môi trường cloud.
Kết quả đo kiểm hiệu năng trên Cisco C8000V cho thấy sự khác biệt đáng kể giữa kiến trúc High-Performance OpenStack và môi trường KVM truyền thống.

So sánh thông lượng (throughput) Tầng 3 trên môi trường 10Gbps. High-Performance Compute Host đạt 6,4 Gbps, cao hơn đáng kể so với mức 2,3 Gbps của mô hình KVM truyền thống.
Trong môi trường 10Gbps, hệ thống đạt thông lượng (throughput) 6,4 Gbps, trong khi mô hình KVM thông thường chỉ đạt khoảng 2,3 Gbps. Kết quả này cho thấy những tối ưu ở tầng tầng xử lý dữ liệu (dataplane) đã giúp khai thác hiệu quả hơn năng lực của phần cứng, đồng thời giảm đáng kể các chi phí xử lý phát sinh trong quá trình truyền tải dữ liệu.
Ở môi trường 25Gbps, nền tảng tiếp tục đạt line-rate ngay cả khi lưu lượng đi qua các lớp overlay networking như VXLAN hoặc Geneve. Điều này cho thấy tầng mạng ảo không còn là nút thắt cổ chai như trong nhiều mô hình cloud truyền thống, nơi hiệu năng thường suy giảm đáng kể khi áp dụng các cơ chế đóng gói lưu lượng phục vụ đa thuê (multi-tenancy).
Đáng chú ý, mức hao hụt băng thông giữa tầng mạng ảo hóa và hạ tầng vật lý được duy trì ở mức dưới 10%. Đây là một chỉ số kỹ thuật quan trọng nhưng không phải lúc nào cũng được công bố rộng rãi trên thị trường cloud. Trên thực tế, đây cũng chính là một trong những yêu cầu được đề cập trong Thông tư 1145 của Chính phủ về tiêu chuẩn chất lượng dịch vụ điện toán đám mây, nhằm đảm bảo hiệu năng của hạ tầng ảo hóa tiệm cận với năng lực thực tế của phần cứng bên dưới.
Những kết quả này cho thấy khi được thiết kế và tối ưu đúng cách, hạ tầng cloud hoàn toàn có thể cung cấp hiệu năng mạng gần với môi trường vật lý, đồng thời vẫn duy trì được khả năng mở rộng và tính linh hoạt vốn là thế mạnh của điện toán đám mây.
Nếu thông lượng (throughput) phản ánh khả năng truyền tải dữ liệu của hệ thống, thì tốc độ xử lý gói tin (packet processing rate) mới là chỉ số thể hiện rõ nhất năng lực xử lý của tầng dữ liệu (dataplane). Một hệ thống có thể đạt thông lượng 25 Gbps với các gói tin lớn không đồng nghĩa với việc có thể duy trì hiệu năng tương tự khi xử lý các gói tin nhỏ. Khi kích thước gói tin giảm xuống, tỷ lệ chi phí xử lý header trên lượng dữ liệu thực tế tăng lên đáng kể, khiến áp lực lên CPU, bộ nhớ và tầng xử lý dữ liệu (dataplane) trở nên lớn hơn nhiều. 
Khả năng xử lý gói tin (packet) trên mỗi giây của High-Performance OpenStack cao hơn nhiều lần so với mô hình cloud truyền thống.
Kết quả đo kiểm hiệu năng bằng Cisco T-Rex trên Cisco C8000V cho thấy High-Performance Compute Host đạt tới 2,2 triệu gói tin (packet) mỗi giây với gói tin 64 byte và khoảng 1,5 triệu gói tin (packet) mỗi giây với lưu lượng hỗn hợp. Trong khi đó, các môi trường không sử dụng DPDK thường chỉ đạt khoảng 240.000 - 260.000 gói tin (packet) mỗi giây, thấp hơn từ 6 đến 8 lần.
Whitepaper cũng ghi nhận kết quả nổi bật với nền tảng VyOS do FPT Smart Cloud tùy biến. Trên hệ thống thử nghiệm gồm 32 lõi CPU và 32 GB RAM, nền tảng đạt hơn 12 triệu gói tin (packet) mỗi giây mà không ghi nhận hiện tượng mất gói. Đáng chú ý, giới hạn trong bài kiểm thử đến từ hệ thống phát tải thay vì hạ tầng được đo, cho thấy tiềm năng xử lý thực tế còn cao hơn.
Trong môi trường vận hành thực tế, các máy ảo trên High-Performance Compute Host có thể duy trì trung bình 6 - 7 triệu gói tin (packet) mỗi giây, đạt ngưỡng hiệu năng thường thấy ở các hạ tầng viễn thông và carrier-grade. Đây là yếu tố đặc biệt quan trọng đối với các workload như mạng lõi 5G (5G Core), ảo hóa chức năng mạng (NFV), tường lửa (firewall) hay các hệ thống bảo mật, nơi mỗi gói tin đều cần được xử lý ổn định và nhất quán.
Bên cạnh thông lượng (throughput) và PPS, độ trễ là một trong những chỉ số quan trọng nhất đối với các hệ thống yêu cầu phản hồi gần như tức thời. Chỉ cần độ trễ tăng hoặc dao động bất thường, trải nghiệm dịch vụ và hiệu quả vận hành có thể bị ảnh hưởng đáng kể.

High-Performance OpenStack duy trì độ trễ ở mức dưới 1 ms cùng dao động độ trễ (jitter) rất thấp, phù hợp với các workload thời gian thực.
Kết quả đo kiểm hiệu năng trên Check Point R81 cho thấy hệ thống duy trì độ trễ ở mức rất thấp và ổn định, với độ trễ (latency) dao động từ 0,16 - 0,20 ms và dao động độ trễ (jitter) chỉ khoảng 0,015 - 0,017 ms.
Những con số này cho thấy các tối ưu về CPU pinning, NUMA locality, DPDK và hardware offload không chỉ cải thiện hiệu năng xử lý mà còn giúp hệ thống duy trì tính nhất quán trong quá trình truyền tải lưu lượng. Đây là yếu tố đặc biệt quan trọng đối với các workload nhạy cảm với độ trễ như mạng lõi 5G (5G Core), ảo hóa chức năng mạng (NFV) hay các dịch vụ mạng thời gian thực, nơi khả năng dự đoán và ổn định của hạ tầng có ý nghĩa không kém hiệu năng tối đa đạt được.
Đo kiểm hiệu năng là cơ sở quan trọng để đánh giá hiệu năng của một nền tảng, nhưng giá trị thực sự của kiến trúc hạ tầng chỉ được chứng minh khi triển khai trong môi trường sản xuất. Đây cũng là lý do whitepaper dành riêng một phần để chia sẻ kết quả vận hành thực tế trên hệ thống quy mô lớn.

Kết quả triển khai thực tế sau khi chuyển sang High-Performance Compute Host.
Theo whitepaper, kiến trúc High-Performance Compute Host đã được triển khai trên hệ thống phục vụ hơn 80.000 người dùng cùng hơn 10.000 desktop ảo. Trước khi tối ưu, hệ thống gặp nhiều hạn chế liên quan đến hiệu năng mạng, mức sử dụng CPU và khả năng xử lý lưu lượng.
Sau khi áp dụng kiến trúc mới, thông lượng (throughput) tăng từ 1,9 Gbps lên 3,4 Gbps, trong khi năng lực xử lý gói tin (packet) tăng từ 445.000 PPS lên 611.000 PPS. Đáng chú ý, hệ thống chỉ cần 16 vCPU để đạt hiệu năng tương đương hoặc cao hơn so với cấu hình cũ sử dụng 48 vCPU.
Bên cạnh đó, tỷ lệ mất gói được giảm xuống chỉ còn 0,001%, góp phần cải thiện tính ổn định của dịch vụ và trải nghiệm người dùng cuối. Những con số này cho thấy các tối ưu ở tầng CPU, bộ nhớ, tầng xử lý dữ liệu (dataplane) và phần cứng mạng không chỉ mang lại kết quả trong môi trường thử nghiệm mà còn phát huy hiệu quả khi vận hành ở quy mô lớn.
Một lo ngại phổ biến khi triển khai các công nghệ như DPDK hay tăng tốc bằng phần cứng là doanh nghiệp có thể phải đánh đổi các tính năng quen thuộc của cloud để đạt hiệu năng cao hơn. Tuy nhiên, kết quả được công bố trong whitepaper cho thấy High-Performance Compute Host vẫn duy trì đầy đủ các tính năng quan trọng như di chuyển máy ảo trực tiếp (live migration), thay đổi cấu hình tài nguyên (resize), nhóm chính sách bảo mật (securitygroup), địa chỉ IP công cộng linh hoạt (floating IP) và biên dịch địa chỉ mạng (NAT) cùng các mô hình kết nối Đông - Tây (East-West Traffic) và Bắc - Nam (North-South Traffic).

Các tính năng cloud cốt lõi vẫn được duy trì trên kiến trúc High-Performance Compute Host.
Theo FPT Smart Cloud, điều này đạt được nhờ cách tiếp cận tối ưu đồng bộ trên toàn bộ kiến trúc, từ CPU, bộ nhớ, phần cứng mạng đến tầng xử lý dữ liệu (dataplane). Nhờ đó, doanh nghiệp có thể đồng thời đạt được hiệu năng cao và khả năng vận hành linh hoạt, thay vì phải đánh đổi một trong hai như nhiều người vẫn nghĩ.
Mặc dù các kiến trúc dựa trên DPDK và Open vSwitch Userspace đã được nhiều nhà cung cấp quy mô lớn (hyperscale) trên thế giới ứng dụng từ lâu, đây vẫn là hướng tiếp cận còn tương đối mới tại thị trường Việt Nam. Theo whitepaper, thông qua quá trình đo kiểm hiệu năng và kiểm chứng trên các môi trường sản xuất thực tế, FPT Smart Cloud đang xây dựng một trong những nền tảng OpenInfra hiệu năng cao hàng đầu khu vực, sẵn sàng đáp ứng các workload.
Các cụm AI Factory tại Việt Nam và Nhật Bản, cùng những triển khai thực tế cho các workload viễn thông, đã cho thấy khả năng vận hành ổn định của kiến trúc này ở quy mô lớn. Quan trọng hơn, toàn bộ hạ tầng được triển khai theo cùng một bản thiết kế kiến trúc (blueprint) chuẩn hóa, giúp đảm bảo tính nhất quán về độ trễ và hiệu năng trên hàng trăm máy chủ.
Điều mà whitepaper nhấn mạnh là: cloud không còn là nút thắt cổ chai. Với kiến trúc phù hợp, hạ tầng ảo hóa hoàn toàn có thể đạt thông lượng gần với giới hạn phần cứng, xử lý hàng triệu gói tin mỗi giây và duy trì độ trễ thấp ổn định mà vẫn giữ được đầy đủ lợi ích của môi trường cloud.
Bài viết này chỉ tóm lược những nội dung chính của whitepaper "High-Performance OpenStack: Khi hạ tầng cloud Việt Nam không còn là bottleneck". Tài liệu cung cấp đầy đủ các phân tích kỹ thuật, phương pháp tối ưu kiến trúc, kết quả đo kiểm hiệu năng và các case study thực tế để các đội ngũ hạ tầng tham khảo khi xây dựng hoặc nâng cấp cụm OpenStack của mình.
Đây là nguồn tài liệu hữu ích cho các tổ chức đang chuẩn bị cho các workload thế hệ mới, đồng thời muốn khai thác tối đa hiệu năng của hạ tầng cloud mã nguồn mở.
Khám phá toàn bộ kiến trúc, phương pháp đo kiểm hiệu năng và các case study thực tế trong whitepaper tại đây.
Liên hệ với chúng tôi để được tư vấn chi tiết về các giải pháp, dịch vụ của FPT Cloud: