FPT Data Platform ra mắt bộ tính năng Lakehouse Analytics mới giúp tối ưu hóa khả năng khai thác dữ liệu doanh nghiệp
Nằm trong lộ trình phát triển sản phẩm nhằm tối ưu trải nghiệm người dùng, FPT Cloud chính thức ra mắt dịch vụ cùng loạt nâng cấp tính năng Lakehouse Analytics trên FPT Data Platform mới giúp doanh nghiệp hiện đại hóa hạ tầng dữ liệu, tăng tốc phân tích và đảm bảo vận hành ổn định, linh hoạt và liên tục.
1. Lakehouse Service - Kiến trúc dữ liệu hợp nhất tối ưu chi phí vận hành
Lakehouse là một kiến trúc mới nhất trong lĩnh vực xử lý dữ liệu hiện đại, giải quyết các thách thức về mở rộng, quản lý, linh hoạt và hiệu suất.
Lakehouse Service là một kiến trúc dữ liệu tiên tiến kết hợp ưu điểm của Data Lake và Data Warehouse, cho phép doanh nghiệp lưu trữ và xử lý tập trung dữ liệu lớn mà không phải tách rời hệ thống. Công nghệ này mang đến nền tảng hiện đại để khai thác dữ liệu hiệu quả, đáp ứng nhu cầu mở rộng linh hoạt và tối ưu vận hành.
Giải pháp này giúp doanh nghiệp giải quyết triệt để các thách thức:
2. Data Catalog (Nessie/Hive) – Quản trị metadata tập trung và truy xuất nguồn gốc dữ liệu
Data Catalog là giải pháp quản lý dữ liệu, giúp doanh nghiệp dễ dàng tìm kiếm, hiểu và kiểm soát dữ liệu đang lưu trữ trong hệ thống Lakehouse. Công nghệ này đóng vai trò nền tảng trong việc đảm bảo dữ liệu luôn minh bạch, truy xuất được nguồn gốc và phục vụ hiệu quả cho các hoạt động phân tích, khai phá giá trị.
Với Data Catalog, doanh nghiệp có khả năng:
3. Query Engine (Trino) – Truy vấn phân tán hiệu suất cao trên nhiều nguồn dữ liệu
Query Engine đóng vai trò cốt lõi trong kiến trúc Lakehouse, mang đến nền tảng truy vấn dữ liệu phân tán hiệu suất cao, tối ưu chi phí và dễ dàng mở rộng. Nhờ Trino, doanh nghiệp có thể tận dụng dữ liệu từ nhiều nguồn lưu trữ khác nhau mà không cần thực hiện các bước di chuyển phức tạp.
Tính năng này có khả năng hỗ trợ doanh nghiệp mạnh mẽ:
Với Query Engine, doanh nghiệp có thể chủ động phân tích dữ liệu ngay tại nguồn, tăng tốc quá trình ra quyết định và tối ưu hoạt động vận hành dựa trên dữ liệu.
Đặc biệt, trong phiên bản này, Query Engine còn cập nhật thêm các tính năng mới:
4. Visualization (Superset) – Tạo dashboard phân tích và quản trị dữ liệu tập trung
Apache Superset là công cụ Business Intelligence mã nguồn mở, tích hợp lý tưởng trong kiến trúc Lakehouse, giúp doanh nghiệp dễ dàng trực quan hóa và phân tích dữ liệu tập trung mà không cần di chuyển dữ liệu sang nền tảng khác.
Visualization có khả năng hỗ trợ mạnh mẽ các tổ chức:
Ngoài ra, Visualization được cập nhật thêm tính năng Flavor/Number of nodes cho phép người dùng thay đổi tài nguyên CPU-RAM/số lượng node phù hợp với Workload xử lý.
5. Data Science (JupyterHub for Spark) – Khai thác Dữ liệu và Huấn luyện Mô hình Ngay Trên Data Lake
JupyterHub là môi trường lý tưởng dành cho các nhà khoa học dữ liệu (data scientists), hỗ trợ trực tiếp viết mã bằng Python/R để phân tích, huấn luyện mô hình ngay trên dữ liệu thô lưu trữ trong Data Lake. Thông qua tích hợp với các công cụ như Spark, Trino, JupyterHub giúp rút ngắn thời gian thử nghiệm và triển khai, đồng thời loại bỏ bước sao chép dữ liệu sang môi trường khác.
Công cụ này cung cấp nhiều lợi ích nổi bật:
Phiên bản lần này đã bổ sung khả năng tự động cài đặt thư viện ngay khi Spawn pod theo từng profile giúp giảm thiểu thao tác thủ công khi thiết lập môi trường. Ngoài ra, hệ thống cũng hỗ trợ đa dạng phương thức cài đặt thư viện như:
Liên hệ với chúng tôi để được tư vấn chi tiết về các giải pháp, dịch vụ của FPT Cloud