Tất cả tài liệu

FPT Data Platform

    2.20 Tạo connector source S3
    2.20 Tạo connector source S3
    Updated on 24 Jul 2025

    Kết nối tới nguồn dữ liệu là các file lưu trữ trên Amazon S3 hoặc S3-compatible storage (vd: MinIO, FPT Object Storage, v.v.).

    Tự động đọc, quét và ingest (nạp) dữ liệu từ các file (CSV, TSV, AVRO, XML,...) trong bucket vào hệ thống streaming hoặc data pipeline.

    Trường hợp tạo connector, Type là source, Database là S3

    Pre-condition: Status CDC service Healthy

    Để tạo connector, người dùng thực hiện các bước sau:

    Bước 1: Tại thanh menu chọn Data Platform > chọn Workspace Management > chọn Workspace name

    Bước 2: Tại phần My services chọn CDC service

    Bước 3: Tại màn detail CDC service > Chọn tab Connectors > nhấn Create a connector

    create-connector

    Bước 4: Nhập các thông tin màn connector information:

    • Name (required): tên connector

    Chú ý: Tên connector có thể chứa các kí tự chữ cái thường a-z hoặc các kí tự số 0-9. Đặc biệt không dùng dấu cách có thể thay dấu cách bằng dấu “-”.

    • Type (required): chọn source

    • Database (required): chọn S3

    Hình ảnh

    Bước 5: Nhấn Next để chuyển qua màn Properties

    Nhập các thông tin màn Properties:

    • URL (reqired): địa chỉ truy cập 

    • Bucket name (required): tên bucket 

    • Access key (required): khóa truy cập 

    • Secret (required): mã truy cập 

    • Path (required): thư mục chứa các file souce

    Sau khi nhập đầy đủ thông tin S3 Information, người dùng ấn Test connection để kiểm tra kết nối từ Connector đến S3 đã nhập

    • Topic prefix (required): Khi dữ liệu thay đổi, các sự kiện thay đổi sẽ được produce vào các Kafka topics

    Hình ảnh

    Bước 6: Nhấn Next để chuyển qua màn Additional properties

    Nhập các thông tin màn Additional properties:

    • Type (required): Chọn định dạng file mà connector sẽ đọc. Các lựa chọn thường có: ROW (CSV, TSV), XML, Avro

    • File filter regex pattern (required): Nhập biểu thức regex để lọc file theo tên khi quét trong source (ví dụ: .*.csv$ sẽ chỉ nhận file kết thúc bằng .csv).

    • Mode (required): Chọn chế độ chịu lỗi khi xử lý dữ liệu.

      • None: Không bỏ qua lỗi, gặp lỗi sẽ dừng.

      • All: Bỏ qua tất cả lỗi, ghi nhận lỗi ở log.

    • Header definition (required):

      Chọn cách xác định tên cột cho dữ liệu đầu vào.

      • From file (required): Tên cột lấy từ dòng đầu tiên của file.

      • Autogenerated (required): Tên cột sẽ tự sinh (thường là column1, column2,...).

      • User provided (required): Bạn tự nhập danh sách tên cột ở phần “Column name” phía dưới.

    • Delimiter (required): Ký tự phân tách giữa các cột. Thường mặc định là dấu phẩy “,”, nhưng bạn có thể đổi thành ký tự khác (vd: tab, dấu chấm phẩy,...).

    • Trim value (required): Chọn Yes/No để có cắt bỏ khoảng trắng thừa ở đầu/cuối value của từng cột hay không.

    • Column name (required):

      • Chỉ hiện nếu chọn Header definition = User provided

      • Nhập/tạo danh sách tên các cột dữ liệu (từng tên cột cách nhau bởi dấu phẩy hoặc enter, có thể thêm từng tên bằng nút “+” hoặc “Tag”).

    Hình ảnh

    Bước 7: Nhấn Next để chuyển qua màn Review

    Hình ảnh

    Bước 8: Kiểm tra thông tin và nhấn nút Create để hoàn thành việc tạo connector.