Giới thiệu
Nổi bật FPT Cloud Server FPT AI Factory FPT Network FPT Cloud Backup & DR FPT Storage FPT Security FPT Container FPT Database FPT Cloud Monitoring FPT Integration FPT Devsecops FPT Data Platform FPT Data Suite FPT.AI

Xem tất cả

FPT Object Storage

Lưu trữ dữ liệu đối tượng không giới hạn và truy xuất dữ liệu liên tục

FPT GPU Server

Tích hợp với máy chủ ảo dành cho 3D Rendering, AI hay ML

FPT Data Suite

Nền tảng phân tích dữ liệu đáng tin cậy cho doanh nghiệp và chuyên gia, giúp tối ưu chi phí vận hành lên đến 40% so với giải pháp BI khác.

FPT Cloud WAF

Sản phẩm hợp tác giữa FPT Cloud và CyRadar, cung cấp dịch vụ tường lửa với khả năng bảo vệ mạnh mẽ cho các ứng dụng web

FPT Cloud VA

Sản phẩm hợp tác giữa FPT Cloud và CyRadar, dịch vụ cung cấp khả năng rà quét toàn diện, phân tích chi tiết và đánh giá lỗ hổng bảo mật để tăng cường an ninh thông tin cho hệ thống ứng dụng doanh nghiệp

FPT Backup

Sao lưu và khôi phục dữ liệu tức thời, an toàn và toàn vẹn dữ liệu

FPT AI Factory

Trở thành doanh nghiệp đầu tiên trải nghiệm bộ giải pháp phát triển AI toàn diện, được phát triển trên công nghệ mạnh mẽ bậc nhất từ NVIDIA!

FPT Cloud Desktop

Giải pháp làm việc từ xa hiệu quả và an toàn cho doanh nghiệp

FPT Cloud Server

Dịch vụ máy chủ ảo tiên tiến với khả năng mở rộng nhanh chóng

FPT Dedicated Server

Hiệu năng mạnh mẽ với hạ tầng riêng biệt

FPT GPU Server

Tích hợp với máy chủ ảo dành cho 3D Rendering, AI hay ML

FPT Spot Instances

Dịch vụ máy chủ ảo tiết kiệm đến 90% chi phí cho doanh nghiệp

FPT AI Factory

Trở thành doanh nghiệp đầu tiên trải nghiệm bộ giải pháp phát triển AI toàn diện, được phát triển trên công nghệ mạnh mẽ bậc nhất từ NVIDIA!

FPT Load Balancing

Nâng cao năng lực, tính sẵn sàng của ứng dụng

FPT Backup

Sao lưu và khôi phục dữ liệu tức thời, an toàn và toàn vẹn dữ liệu

FPT Disaster Recovery

Dịch vụ dự phòng & khôi phục hệ thống nhanh chóng

FPT Block Storage

Lưu trữ khối đa dạng thông lượng và dung lượng cho mọi nhu cầu

FPT Object Storage

Lưu trữ dữ liệu đối tượng không giới hạn và truy xuất dữ liệu liên tục

FPT Cloud VA

Sản phẩm hợp tác giữa FPT Cloud và CyRadar, dịch vụ cung cấp khả năng rà quét toàn diện, phân tích chi tiết và đánh giá lỗ hổng bảo mật để tăng cường an ninh thông tin cho hệ thống ứng dụng doanh nghiệp

FPT Cloud WAF

Sản phẩm hợp tác giữa FPT Cloud và CyRadar, cung cấp dịch vụ tường lửa với khả năng bảo vệ mạnh mẽ cho các ứng dụng web

FPT Cloud WAPPLES

Dịch vụ tường lửa thông minh cho các ứng dụng web - Giải pháp bảo mật đột phá với sự hợp tác giữa FPT Cloud và Penta Security.

FPT Next-Gen Firewall

Dịch vụ bảo mật tường lửa thế hệ mới

FPT Container Registry

Lưu trữ, quản lý, và bảo mật các Docker Images

FPT Kubernetes Engine

Nền tảng Kubernetes an toàn, bảo mật, ổn định, hiệu năng cao

FPT Kubernetes Engine with GPU

Tăng tốc phát triển ứng dụng yêu cầu hiệu năng cao bằng dịch vụ Kubernetes tích hợp với vi xử lý cao cấp GPU

FPT Data Streaming Engine

Giám sát và triển khai cơ sở dữ liệu như Kafka,..

FPT Non-Relational Database Engine

Giám sát và triển khai cơ sở dữ liệu Redis, Cassandra, ...

FPT OLAP Database Engine

Giám sát và triển khai cơ sở dữ liệu xử lý phân tích trực tuyến

FPT Relational Database engine

Giám sát và triển khai cơ sở dữ liệu MySQL, Postgres, SQLserver, MariaDB,...

FPT Search Engine Databases

Giám sát và triển khai cơ sở dữ liệu truy vấn thông tin

FPT Timeseries Database Engine

Giám sát và triển khai cơ sở dữ liệu chuỗi thời gian

FPT Cloud Monitoring

Giám sát hệ thống và tài nguyên toàn diện trên mọi nền tảng

FPT Incident Management

Giải pháp quản lý sự cố thông minh

FPT API Management

Dịch vụ tự động khởi tạo, duy trì, quản lý và bảo vệ các API ở mọi quy mô

FPT ArgoCD

Dịch vụ cung cấp giải pháp khởi tạo và quản lý FPT ArgoCD được tạo ra từ dự án mã nguồn mở Argo

FPT CDC - Change Data Capture

Nền tảng đồng bộ hóa cơ sở dữ liệu theo thời gian thực.

FPT Data Governance & Security

Tăng cường khả năng quản lý tài sản dữ liệu doanh nghiệp

FPT Ingestion

Quản lý dữ liệu liền mạch & toàn diện

FPT Lakehouse Analytics

Truy vấn, quản lý, trực quan hóa dữ liệu hiệu quả

FPT Processing

Tăng tốc độ xử lý, đảm bảo tính nhất quán cho ứng dụng

FPT Spark

Nền tảng xử lý dữ liệu lớn mạnh mẽ và linh hoạt

FPT Data Suite

Nền tảng phân tích dữ liệu đáng tin cậy cho doanh nghiệp và chuyên gia, giúp tối ưu chi phí vận hành lên đến 40% so với giải pháp BI khác.

FPT AI Chat

Nền tảng hội thoại thông minh gắn kết khách hàng trên mọi nền tảng

FPT AI eKYC

Xác thực nhanh chóng, dễ dàng, tối ưu chi phí

FPT AI Engage

Nâng tầm trải nghiệm khách hàng

FPT AI Read

Trích xuất dữ liệu vượt mọi giới hạn

FPT AI Text to Speech

Chuyển văn bản thành giọng nói tiếng Việt với ngữ điệu tự nhiên.
Bảng giá
- Đối tác FPT Cloud
- Startup Program
Sự kiện

VIE

FPT Incident Management – Công cụ quản lý sự cố thông minh cho doanh nghiệp

Tác giả: Nguyễn Huy Hoàng

10:56 03/11/2023

Theo dõi trên

Xem nhanh

Quản lý sự cố (Incident Management) là gì?

Quản lý sự cố là quy trình mà đội phát triển và vận hành sản phẩm ứng dụng để giải quyết các sự kiện ngoài ý muốn (hay còn gọi là sự cố). Các sự kiện này có thể gây gián đoạn hoặc làm giảm chất lượng của dịch vụ, do đó, việc ứng dụng quy trình quản lý sự cố sẽ hỗ trợ khôi phục dịch vụ về trạng thái ổn định.

Như vậy, sự cố là các sự kiện dưới bất kỳ hình thức nào, làm (hoặc đe dọa) gián đoạn, gây giảm chất lượng dịch vụ. Một ứng dụng được coi là gặp sự cố khi nó ngừng hoạt động. Một máy chủ web khi thu thập và phân tích dữ liệu cũng có thể sẽ gặp sự cố, đó là khi máy chủ này gặp vấn đề với sự ổn định như bị chậm và lỗi gây ảnh hưởng đến hiệu suất. Hoặc tệ hơn nữa là máy chủ này có nguy cơ bị “sập” hoàn toàn. Mức độ nghiêm trọng của các sự cố rất khác nhau, có sự cố gây ảnh hưởng đến toàn bộ dịch vụ web trên toàn cầu, cũng có sự cố gây gián đoạn cho một số ít người dùng.

Sự cố được khắc phục khi dịch vụ bị gián đoạn được khôi phục như lúc ban đầu. Khi khắc phục, cần có những thao tác cần thiết để khôi phục chức năng và giảm thiểu tác động từ sự cố.

Tầm quan trọng của quản lý sự cố

Quản lý sự cố là một trong những quy trình quan trọng nhất mà một tổ chức cần tuân thủ. Việc xuất hiện sự cố khi đang dùng dịch vụ có thể gây tổn thất cho doanh nghiệp, do đó cần có phương án hiệu quả để ứng phó và giải quyết vấn đề này nhanh chóng, ưu tiên xử lý khi xuất hiện sự cố, đưa ra cách thức giải quyết nhanh chóng, từ đó đem lại trải nghiệm dịch vụ tốt hơn cho người dùng.

Doanh nghiệp cần có sẵn kế hoạch xử lý mỗi khi gặp sự cố, điều này sẽ giúp:

Ứng phó hiệu quả để khôi phục dịch vụ nhanh chóng.
Dễ dàng phản ánh và trao đổi với khách hàng, các bên liên quan, chủ sở hữu dịch vụ và các bên khác trong tổ chức.
Các bên hợp tác với nhau để giải quyết sự cố hiệu quả và loại bỏ các rào cản gây khó khăn trong việc khắc phục sự cố.
Xác định được các vấn đề cần cải tiến nhờ việc hiểu sự cố cũng như nâng cấp quy trình khắc phục sự cố.

Phân loại quy trình quản lý sự cố

Các loại hình doanh nghiệp khác nhau có các quy trình quản lý sự cố khác nhau. Không có quy trình nào là phù hợp cho tất cả các doanh nghiệp, do đó, các công ty khác nhau sẽ có cách tiếp cận khác nhau khi quản lý sự cố.

Một số công ty ứng dụng quy trình quản lý sự cố IT truyền thống, ví dụ như quy trình được hướng dẫn trong chứng chỉ ITIL. Một số khác lại thiên về quy trình quản lý sự cố theo kiểu DevOps hoặc SRE.

Quy trình quản lý sự cố IT

Quy trình quản lý sự cố giúp nhận diện và xử lý tình trạng gián đoạn hoặc ngừng hoạt động của. dịch vụ. Ứng dụng quy trình quản lý sự cố ITIL nhằm mục đích giảm thiểu thời gian “chết” và tác động của sự cố đến năng suất người dùng. Khi tuân theo các hướng dẫn từ ITIL, người quản trị có thể thiết lập một luồng quản lý thống nhất, đảm bảo ghi nhận log, chẩn đoán và khắc phục sự cố, đồng thời lưu trữ thông tin về các sự cố đó.

ITIL chủ yếu do đội IT điều hành các dịch vụ trong nội bộ doanh nghiệp sử dụng. Thông thường, các nhóm sẽ chắt lọc thông tin cần thiết từ ITIL—bao gồm thông tin về các loại sự cố cũng như quy trình mà đội IT có thể ứng dụng. ITIL rất hữu ích trong việc xây dựng thói quen chủ động khắc phục sự cố. Các quy trình được ITIL khuyến cáo sử dụng sẽ giúp đội IT theo dõi sự cố và hành động một cách nhất quán, từ đó giúp cải thiện hoạt động báo cáo và phân tích sự cố, đồng thời đem lại dịch vụ tốt hơn.

Các bước trong quy trình quản lý sự cố IT

Bước 1: Nhận diện sự cố và ghi nhận log của sự cố đó

Nguyên nhân xảy ra sự cố có thể xuất phát từ bất kỳ đâu: từ phía nhân viên, khách hàng, nhà cung cấp, hệ thống giám sát. Bất kể là do ai gây ra sự cố thì 2 điều đầu tiên cần làm là xác định sự cố và ghi lại (log) sự cố đó. Việc ghi nhận sự cố thường sẽ ghi nhận các thông tin như sau:

Tên của người báo cáo sự cố
Thời điểm (ngày và giờ) báo cáo sự cố
Mô tả sự cố (chi tiết chức năng nào không hoạt động bình thường)
Mã số định dạng được gán cho sự cố để dễ dàng theo dõi

Bước 2: Phân loại sự cố

Sắp xếp, phân loại sự cố. Việc này giúp ích cho quá trình phân tích các sự cố xảy ra để tìm ra xu hướng xảy ra sự cố, giúp quản lý sự cố hiệu quả và ngăn ngừa các sự cố xuất hiện trong tương lai.

Bước 3: Ưu tiên sự cố

Mọi sự cố đều phải được ưu tiên. Khi gặp sự cố, trước tiên cần đánh giá tác động của sự cố đó đối với doanh nghiệp, bao nhiêu người sẽ chịu ảnh hưởng bởi sự cố, cũng như các tác động tiềm ẩn lên các vấn đề như tài chính, bảo mật, tuân thủ các thỏa thuận SLA. Ngoài ra, cần có sự so sánh giữa các sự cố với nhau để đánh giá mức độ ưu tiên của chúng. Cách tốt nhất là trước khi sự cố xảy ra, bạn hãy xác định mức độ nghiêm trọng và mức độ ưu tiên xử lý khi có sự cố, giúp người quản lý sự cố dễ dàng ước lượng độ ưu tiên nhanh chóng.

Bước 4: Phản hồi sự cố

Nhận diện ban đầu: Lý tưởng nhất là khi nhóm hỗ trợ kỹ thuật L1 có thể nhận diện từ đầu cho đến khi kết thúc xử lý sự cố, tuy nhiên trong trường hợp nhóm này không có khả năng xử lý, họ sẽ ghi nhận sự cố và chuyển tiếp việc xử lý lên cấp cao hơn.

Chuyển tiếp việc xử lý sự cố lên cấp cao hơn: Nhóm tiếp theo tiếp nhận sự cố đã được ghi nhận bởi nhóm đầu tiên và tiếp tục quá trình nhận diện và xử lý sự cố, tuy nhiên nếu nhóm này không thể xử lý, sự cố sẽ được chuyển tiếp lên cấp cao hơn.

Báo cáo sự cố: Các nhóm phải thường xuyên cập nhật thông tin với các bên liên quan trong nội bộ cũng như ở ngoài tổ chức.

Nhận định và điều tra sự cố: Sự cố sẽ tiếp tục được nhận diện cho đến khi các nhóm xác định được bản chất nguyên nhân dẫn đến sự cố. Đôi khi các nhóm sẽ tham khảo ý kiến và nhận hỗ trợ từ nguồn lực bên ngoài hay các thành viên khác trong phòng ban.

Giải quyết sự cố và khôi phục dữ liệu: Ở bước này, nhóm giải quyết sự cố sẽ nhận định sự cố và thực hiện các bước cần thiết để giải quyết sự cố. Việc khôi phục dữ liệu chủ yếu cần 1 khoảng thời gian cần thiết để các dịch vụ và chức năng được khôi phục hoàn toàn. Vì một số bản fix lỗi có thể yêu cầu thực hiện kiểm thử và triển khai ngay cả sau khi đã xác định được giải pháp phù hợp.

Kết thúc việc xử lý sự cố: Sự cố dù được chuyển tiếp thì đến cuối cùng nó cũng sẽ được bàn giao trở lại bộ phận Service Desk để kết thúc sự cố. Để duy trì chất lượng và đảm bảo quy trình xử lý thuận lợi, chỉ bộ phận Service Desk mới được phép đóng sự cố và người quản lý sự cố nên kiểm tra với người đã báo cáo sự cố để xác nhận rằng giải pháp đưa ra là thỏa đáng và trên thực tế có thể kết thúc sự cố.

Quy trình quản lý sự cố DevOps và SRE

Theo cách tiếp cận của DevOps hay SRE, bên xây dựng dịch vụ sẽ đồng thời là bên vận hành dịch vụ đó, cũng như thực hiện fix nếu có sự cố xảy ra. Cách tiếp cận này đã trở nên phổ biến cùng với sự phát triển của các dịch vụ đám mây, web app, microservice hay software as a service.

Ngày càng có nhiều phần mềm phục vụ cho đời sống và công việc không được lưu trữ trên máy chủ ở nơi bạn sống. Đó có thể là một web app được triển khai tại trung tâm dữ liệu cho hàng nghìn hoặc hàng triệu người dùng trên toàn cầu. Đối với các nhóm được giao nhiệm vụ vận hành các dịch vụ như này, tính linh hoạt và tốc độ là điều tối quan trọng. Chỉ cần xảy ra tình trạng downtime thì đều có khả năng ảnh hưởng đến hàng nghìn tổ chức.

Một lợi thế của cách tiếp cận này là nó mang lại sự linh hoạt cho các team quản lý sự cố, nhưng nó cũng có thể không làm rõ được việc ai chịu trách nhiệm về cái gì và khi nào. Các nhóm DevOps có thể cảm thấy thoải mái với các quy trình phát triển ít phức tạp hơn. Tuy nhiên, vẫn nên tiêu chuẩn hóa các quy trình cốt lõi cho việc quản lý sự cố để không còn phải hỏi về cách ứng phó khi xảy ra sự cố, đồng thời, bạn có thể theo dõi các sự cố và báo cáo cách giải quyế các sự cố.

Ba nguyên tắc của nhóm quản lý sự cố DevOps:

Luân phiên trực sự cố: Thay vì chỉ định một số thành viên nhất định trong nhóm phụ trách trực sự cố, các nhóm DevOps thường trực luân phiên nhau theo lịch, tất cả các thành viên đều thay phiên nhau trực để ứng phó với sự cố.

Người xây lên dịch vụ là người phù hợp nhất để fix lỗi dịch vụ: Ý tưởng chính của nguyên tắc này đó là: những người quen thuộc nhất với dịch vụ (người trực tiếp tạo ra dịch vụ) là những người được trang bị tốt nhất để khắc phục sự cố.

Xây dựng nhanh nhưng phải có trách nhiệm: Khi các kỹ sư phần mềm biết rằng họ đang gặp khó khăn trong thời gian xảy ra sự cố, họ sẽ có thêm động lực để đảm bảo chất lượng dịch vụ.

Cách tiếp cận này đảm bảo thời gian phản hồi nhanh và các team sẽ nhận được feeback nhanh hơn để cải thiện cách xây dựng dịch vụ.

Công cụ quản lý sự cố

Sự cố không chỉ được quản lý bởi một công cụ mà là sự kết hợp phù hợp giữa các công cụ, phương pháp thực hành và con người. Dưới đây là một số loại công cụ phổ biến để quản lý sự cố hiệu quả:

Theo dõi sự cố: Mọi sự cố đều phải được theo dõi và ghi lại để người quản lý sự cố có thể xác định xu hướng và so sánh các sự kiện theo thời gian.

Chat room: Trao đổi thông tin với team kịp thời là chìa khóa để nhận diện và giải quyết sự cố. Việc này cũng là cơ sở để phân tích các sự cố xảy ra về sau.

Video chat: Phương thức này bao gồm cả text chat, ứng dụng video chat có thể giúp cả team thảo luận về các nhận định về sự cố, đồng thời vạch ra chiến lược ứng phó sự cố phù hợp.

Hệ thống cảnh báo: Sử dụng công cụ như Jira tích hợp với hệ thống giám sát và quản lý các yêu cầu xử lý được chuyển tiếp.

Tài liệu hóa: Có thể ghi lại các tài liệu về trạng thái sự cố và kết quả phân tích sự cố.

Statuspage: Để trao đổi tình trạng sự cố với các bên liên quan trong nội bộ và khách hàng; điều này giúp mọi người luôn cập nhật được thông tin về sự cố.

FPT Incident Management là một công cụ quản lý sự cố thông minh được thiết kế để giúp bạn nhanh chóng ứng phó với các sự kiện gây rối và bất ngờ. Với khả năng tích hợp với các công cụ Jira, GitHub, Slack và Google Workspace. Incident Management đơn giản hóa quy trình ứng phó sự cố của bạn, giảm thời gian và công sức cần thiết để quản lý sự cố.

Tìm hiểu thêm về FPT Incident Management tại đây.

Có thể bạn quan tâm

VPS SSD là gì? Những điều cần biết về VPS SSD

Private cloud là gì? Ưu nhược điểm và lợi ích nổi bật 2025

LandingAI – ông lớn ngành công nghệ agentic vision từ silicon valley – tăng tốc phát triển nền tảng visual AI với FPT AI Factory

Hướng Dẫn Triển Khai Jupyter Notebook và Thử Nghiệm với Mô Hình AI trên FPT AI Factory

Xem thêm >

Cookie	Thời gian	Mô tả
cookielawinfo-checbox-analytics	11 Tháng
cookielawinfo-checbox-functional	11 Tháng
cookielawinfo-checbox-others	11 Tháng
cookielawinfo-checkbox-necessary	11 Tháng
cookielawinfo-checkbox-performance	11 Tháng
viewed_cookie_policy	11 Tháng