Kết nối tới nguồn dữ liệu là các file lưu trữ trên Amazon S3 hoặc S3-compatible storage (vd: MinIO, FPT Object Storage, v.v.).
Tự động đọc, quét và ingest (nạp) dữ liệu từ các file (CSV, TSV, AVRO, XML,...) trong bucket vào hệ thống streaming hoặc data pipeline.
Trường hợp tạo connector, Type là source, Database là S3
Pre-condition: Status CDC service Healthy
Để tạo connector, người dùng thực hiện các bước sau:
Bước 1: Tại thanh menu chọn Data Platform > chọn Workspace Management > chọn Workspace name
Bước 2: Tại phần My services chọn CDC service
Bước 3: Tại màn detail CDC service > Chọn tab Connectors > nhấn Create a connector
Bước 4: Nhập các thông tin màn connector information:
Chú ý: Tên connector có thể chứa các kí tự chữ cái thường a-z hoặc các kí tự số 0-9. Đặc biệt không dùng dấu cách có thể thay dấu cách bằng dấu “-”.
Type (required): chọn source
Database (required): chọn S3
Bước 5: Nhấn Next để chuyển qua màn Properties
Nhập các thông tin màn Properties:
URL (reqired): địa chỉ truy cập
Bucket name (required): tên bucket
Access key (required): khóa truy cập
Secret (required): mã truy cập
Path (required): thư mục chứa các file souce
Sau khi nhập đầy đủ thông tin S3 Information, người dùng ấn Test connection để kiểm tra kết nối từ Connector đến S3 đã nhập
Bước 6: Nhấn Next để chuyển qua màn Additional properties
Nhập các thông tin màn Additional properties:
Type (required): Chọn định dạng file mà connector sẽ đọc. Các lựa chọn thường có: ROW (CSV, TSV), XML, Avro
File filter regex pattern (required): Nhập biểu thức regex để lọc file theo tên khi quét trong source (ví dụ: .*.csv$ sẽ chỉ nhận file kết thúc bằng .csv).
Mode (required): Chọn chế độ chịu lỗi khi xử lý dữ liệu.
None: Không bỏ qua lỗi, gặp lỗi sẽ dừng.
All: Bỏ qua tất cả lỗi, ghi nhận lỗi ở log.
Header definition (required):
Chọn cách xác định tên cột cho dữ liệu đầu vào.
From file (required): Tên cột lấy từ dòng đầu tiên của file.
Autogenerated (required): Tên cột sẽ tự sinh (thường là column1, column2,...).
User provided (required): Bạn tự nhập danh sách tên cột ở phần “Column name” phía dưới.
Delimiter (required): Ký tự phân tách giữa các cột. Thường mặc định là dấu phẩy “,”, nhưng bạn có thể đổi thành ký tự khác (vd: tab, dấu chấm phẩy,...).
Trim value (required): Chọn Yes/No để có cắt bỏ khoảng trắng thừa ở đầu/cuối value của từng cột hay không.
Column name (required):
Chỉ hiện nếu chọn Header definition = User provided
Nhập/tạo danh sách tên các cột dữ liệu (từng tên cột cách nhau bởi dấu phẩy hoặc enter, có thể thêm từng tên bằng nút “+” hoặc “Tag”).
Bước 7: Nhấn Next để chuyển qua màn Review
Bước 8: Kiểm tra thông tin và nhấn nút Create để hoàn thành việc tạo connector.