FPT Data Platform ra mắt bộ tính năng Lakehouse Analytics mới giúp tối ưu hóa khả năng khai thác dữ liệu doanh nghiệp

FPT Data Platform ra mắt bộ tính năng Lakehouse Analytics mới giúp tối ưu hóa khả năng khai thác dữ liệu doanh nghiệp

Tác giả: Nguyễn Ngọc Mai
09:11 10/07/2025

Nằm trong lộ trình phát triển sản phẩm nhằm tối ưu trải nghiệm người dùng, FPT Cloud chính thức ra mắt dịch vụ cùng loạt nâng cấp tính năng Lakehouse Analytics trên FPT Data Platform mới giúp doanh nghiệp hiện đại hóa hạ tầng dữ liệu, tăng tốc phân tích và đảm bảo vận hành ổn định, linh hoạt và liên tục.

1. Lakehouse Service - Kiến trúc dữ liệu hợp nhất tối ưu chi phí vận hành

Lakehouse là một kiến trúc mới nhất trong lĩnh vực xử lý dữ liệu hiện đại, giải quyết các thách thức về mở rộng, quản lý, linh hoạt và hiệu suất.   

Lakehouse Service là một kiến trúc dữ liệu tiên tiến kết hợp ưu điểm của Data Lake và Data Warehouse, cho phép doanh nghiệp lưu trữ và xử lý tập trung dữ liệu lớn mà không phải tách rời hệ thống. Công nghệ này mang đến nền tảng hiện đại để khai thác dữ liệu hiệu quả, đáp ứng nhu cầu mở rộng linh hoạt và tối ưu vận hành. 

Giải pháp này giúp doanh nghiệp giải quyết triệt để các thách thức: 

  • Xóa bỏ các silo dữ liệu, giảm trùng lặp và chi phí lưu trữ. 
  • Giảm nhu cầu ETL phức tạp, rút ngắn thời gian triển khai. 
  • Cho phép kỹ sư dữ liệu và nhà phân tích làm việc trong một môi trường duy nhất cho cả dữ liệu có cấu trúc và không cấu trúc.

2. Data Catalog (Nessie/Hive) – Quản trị metadata tập trung và truy xuất nguồn gốc dữ liệu

Data Catalog là giải pháp quản lý dữ liệu, giúp doanh nghiệp dễ dàng tìm kiếm, hiểu và kiểm soát dữ liệu đang lưu trữ trong hệ thống Lakehouse. Công nghệ này đóng vai trò nền tảng trong việc đảm bảo dữ liệu luôn minh bạch, truy xuất được nguồn gốc và phục vụ hiệu quả cho các hoạt động phân tích, khai phá giá trị. 

Với Data Catalog, doanh nghiệp có khả năng: 

  • Quản lý metadata tập trung và nhất quán. 
  • Nhanh chóng xác định tập dữ liệu phù hợp để phân tích hoặc huấn luyện machine learning. 
  • Truy xuất nguồn gốc dữ liệu (Data Lineage) rõ ràng. 
  • Sử dụng dữ liệu thuận tiện qua giao diện trực quan và ngữ nghĩa rõ ràng. 

3. Query Engine (Trino) – Truy vấn phân tán hiệu suất cao trên nhiều nguồn dữ liệu

Query Engine đóng vai trò cốt lõi trong kiến trúc Lakehouse, mang đến nền tảng truy vấn dữ liệu phân tán hiệu suất cao, tối ưu chi phí và dễ dàng mở rộng. Nhờ Trino, doanh nghiệp có thể tận dụng dữ liệu từ nhiều nguồn lưu trữ khác nhau mà không cần thực hiện các bước di chuyển phức tạp. 

Tính năng này có khả năng hỗ trợ doanh nghiệp mạnh mẽ: 

  • Khả năng truy vấn SQL phân tán trên nhiều hệ thống lưu trữ (Distributed SQL Querying). 
  • Hiệu năng vượt trội và kiến trúc linh hoạt, dễ dàng mở rộng để đáp ứng nhu cầu xử lý dữ liệu quy mô lớn. 
  • Hỗ trợ truy vấn trực tiếp trên file dữ liệu (file-based querying), rút ngắn thời gian chuẩn bị và khai thác thông tin. 

Với Query Engine, doanh nghiệp có thể chủ động phân tích dữ liệu ngay tại nguồn, tăng tốc quá trình ra quyết định và tối ưu hoạt động vận hành dựa trên dữ liệu. 

Đặc biệt, trong phiên bản này, Query Engine còn cập nhật thêm các tính năng mới: 

  • Bổ sung cấu hình Flavor/Number of nodes: Cho phép người dùng thay đổi linh hoạt tài nguyên CPU, RAM và số lượng node để tối ưu xử lý khối lượng công việc lớn. 

A screenshot of a computer AI generated content may be incorrect

  • Cập nhật cấu hình Trino: Hỗ trợ điều chỉnh các tham số vận hành phù hợp với nhu cầu truy vấn cụ thể. 

A screenshot of a computer AI generated content may be incorrect 1

4. Visualization (Superset) – Tạo dashboard phân tích và quản trị dữ liệu tập trung

Apache Superset là công cụ Business Intelligence mã nguồn mở, tích hợp lý tưởng trong kiến trúc Lakehouse, giúp doanh nghiệp dễ dàng trực quan hóa và phân tích dữ liệu tập trung mà không cần di chuyển dữ liệu sang nền tảng khác. 

Visualization có khả năng hỗ trợ mạnh mẽ các tổ chức: 

  • Cần kết nối phân tích trực tiếp các nguồn dữ liệu lưu trữ trên S3 hoặc Delta Lake. 
  • Ưu tiên sử dụng mã nguồn mở, vận hành không phụ thuộc vào vendor. 
  • Có đội ngũ kỹ thuật đủ mạnh để tuỳ biến giao diện và kiểm soát quyền truy cập. 

Ngoài ra, Visualization được cập nhật thêm tính năng Flavor/Number of nodes cho phép người dùng thay đổi tài nguyên CPU-RAM/số lượng node phù hợp với Workload xử lý. 

A screenshot of a computer AI generated content may be incorrect 2

5. Data Science (JupyterHub for Spark) – Khai thác Dữ liệu và Huấn luyện Mô hình Ngay Trên Data Lake

JupyterHub là môi trường lý tưởng dành cho các nhà khoa học dữ liệu (data scientists), hỗ trợ trực tiếp viết mã bằng Python/R để phân tích, huấn luyện mô hình ngay trên dữ liệu thô lưu trữ trong Data Lake. Thông qua tích hợp với các công cụ như Spark, Trino, JupyterHub giúp rút ngắn thời gian thử nghiệm và triển khai, đồng thời loại bỏ bước sao chép dữ liệu sang môi trường khác. 

Công cụ này cung cấp nhiều lợi ích nổi bật: 

  • Phân tích và huấn luyện mô hình ML trực tiếp trên định dạng dữ liệu thô như Parquet hoặc Delta lưu trữ tại S3. 
  • Giảm độ trễ và rủi ro khi loại bỏ nhu cầu sao chép dữ liệu sang môi trường ngoài. 
  • Hỗ trợ cộng tác và chia sẻ giữa các chuyên gia AI/DS trong cùng hệ sinh thái Lakehouse. 

Phiên bản lần này đã bổ sung khả năng tự động cài đặt thư viện ngay khi Spawn pod theo từng profile giúp giảm thiểu thao tác thủ công khi thiết lập môi trường. Ngoài ra, hệ thống cũng hỗ trợ đa dạng phương thức cài đặt thư viện như: 

  • Cài đặt online (pull) hoặc offline (zip, whl, .tar.gz tải về local) 
  • Hỗ trợ môi trường venv và conda (dạng .tar.gz) 

Liên hệ với chúng tôi để được tư vấn chi tiết về các giải pháp, dịch vụ của FPT Cloud