Quản lý sự cố (Incident Management) là gì?
Quản lý sự cố là quy trình mà đội phát triển và vận hành sản phẩm ứng dụng để giải quyết các sự kiện ngoài ý muốn (hay còn gọi là sự cố). Các sự kiện này có thể gây gián đoạn hoặc làm giảm chất lượng của dịch vụ, do đó, việc ứng dụng quy trình quản lý sự cố sẽ hỗ trợ khôi phục dịch vụ về trạng thái ổn định.
Như vậy, sự cố là các sự kiện dưới bất kỳ hình thức nào, làm (hoặc đe dọa) gián đoạn, gây giảm chất lượng dịch vụ. Một ứng dụng được coi là gặp sự cố khi nó ngừng hoạt động. Một máy chủ web khi thu thập và phân tích dữ liệu cũng có thể sẽ gặp sự cố, đó là khi máy chủ này gặp vấn đề với sự ổn định như bị chậm và lỗi gây ảnh hưởng đến hiệu suất. Hoặc tệ hơn nữa là máy chủ này có nguy cơ bị “sập” hoàn toàn. Mức độ nghiêm trọng của các sự cố rất khác nhau, có sự cố gây ảnh hưởng đến toàn bộ dịch vụ web trên toàn cầu, cũng có sự cố gây gián đoạn cho một số ít người dùng.
Sự cố được khắc phục khi dịch vụ bị gián đoạn được khôi phục như lúc ban đầu. Khi khắc phục, cần có những thao tác cần thiết để khôi phục chức năng và giảm thiểu tác động từ sự cố.
Tầm quan trọng của quản lý sự cố
Quản lý sự cố là một trong những quy trình quan trọng nhất mà một tổ chức cần tuân thủ. Việc xuất hiện sự cố khi đang dùng dịch vụ có thể gây tổn thất cho doanh nghiệp, do đó cần có phương án hiệu quả để ứng phó và giải quyết vấn đề này nhanh chóng, ưu tiên xử lý khi xuất hiện sự cố, đưa ra cách thức giải quyết nhanh chóng, từ đó đem lại trải nghiệm dịch vụ tốt hơn cho người dùng.
Doanh nghiệp cần có sẵn kế hoạch xử lý mỗi khi gặp sự cố, điều này sẽ giúp:
Ứng phó hiệu quả để khôi phục dịch vụ nhanh chóng.
Dễ dàng phản ánh và trao đổi với khách hàng, các bên liên quan, chủ sở hữu dịch vụ và các bên khác trong tổ chức.
Các bên hợp tác với nhau để giải quyết sự cố hiệu quả và loại bỏ các rào cản gây khó khăn trong việc khắc phục sự cố.
Xác định được các vấn đề cần cải tiến nhờ việc hiểu sự cố cũng như nâng cấp quy trình khắc phục sự cố.
Phân loại quy trình quản lý sự cố
Các loại hình doanh nghiệp khác nhau có các quy trình quản lý sự cố khác nhau. Không có quy trình nào là phù hợp cho tất cả các doanh nghiệp, do đó, các công ty khác nhau sẽ có cách tiếp cận khác nhau khi quản lý sự cố.
Một số công ty ứng dụng quy trình quản lý sự cố IT truyền thống, ví dụ như quy trình được hướng dẫn trong chứng chỉ ITIL. Một số khác lại thiên về quy trình quản lý sự cố theo kiểu DevOps hoặc SRE.
Quy trình quản lý sự cố IT
Quy trình quản lý sự cố giúp nhận diện và xử lý tình trạng gián đoạn hoặc ngừng hoạt động của. dịch vụ. Ứng dụng quy trình quản lý sự cố ITIL nhằm mục đích giảm thiểu thời gian “chết” và tác động của sự cố đến năng suất người dùng. Khi tuân theo các hướng dẫn từ ITIL, người quản trị có thể thiết lập một luồng quản lý thống nhất, đảm bảo ghi nhận log, chẩn đoán và khắc phục sự cố, đồng thời lưu trữ thông tin về các sự cố đó.
ITIL chủ yếu do đội IT điều hành các dịch vụ trong nội bộ doanh nghiệp sử dụng. Thông thường, các nhóm sẽ chắt lọc thông tin cần thiết từ ITIL—bao gồm thông tin về các loại sự cố cũng như quy trình mà đội IT có thể ứng dụng. ITIL rất hữu ích trong việc xây dựng thói quen chủ động khắc phục sự cố. Các quy trình được ITIL khuyến cáo sử dụng sẽ giúp đội IT theo dõi sự cố và hành động một cách nhất quán, từ đó giúp cải thiện hoạt động báo cáo và phân tích sự cố, đồng thời đem lại dịch vụ tốt hơn.
Các bước trong quy trình quản lý sự cố IT
Bước 1: Nhận diện sự cố và ghi nhận log của sự cố đó
Nguyên nhân xảy ra sự cố có thể xuất phát từ bất kỳ đâu: từ phía nhân viên, khách hàng, nhà cung cấp, hệ thống giám sát. Bất kể là do ai gây ra sự cố thì 2 điều đầu tiên cần làm là xác định sự cố và ghi lại (log) sự cố đó. Việc ghi nhận sự cố thường sẽ ghi nhận các thông tin như sau:
Tên của người báo cáo sự cố
Thời điểm (ngày và giờ) báo cáo sự cố
Mô tả sự cố (chi tiết chức năng nào không hoạt động bình thường)
Mã số định dạng được gán cho sự cố để dễ dàng theo dõi
Bước 2: Phân loại sự cố
Sắp xếp, phân loại sự cố. Việc này giúp ích cho quá trình phân tích các sự cố xảy ra để tìm ra xu hướng xảy ra sự cố, giúp quản lý sự cố hiệu quả và ngăn ngừa các sự cố xuất hiện trong tương lai.
Bước 3: Ưu tiên sự cố
Mọi sự cố đều phải được ưu tiên. Khi gặp sự cố, trước tiên cần đánh giá tác động của sự cố đó đối với doanh nghiệp, bao nhiêu người sẽ chịu ảnh hưởng bởi sự cố, cũng như các tác động tiềm ẩn lên các vấn đề như tài chính, bảo mật, tuân thủ các thỏa thuận SLA. Ngoài ra, cần có sự so sánh giữa các sự cố với nhau để đánh giá mức độ ưu tiên của chúng. Cách tốt nhất là trước khi sự cố xảy ra, bạn hãy xác định mức độ nghiêm trọng và mức độ ưu tiên xử lý khi có sự cố, giúp người quản lý sự cố dễ dàng ước lượng độ ưu tiên nhanh chóng.
Bước 4: Phản hồi sự cố
Nhận diện ban đầu: Lý tưởng nhất là khi nhóm hỗ trợ kỹ thuật L1 có thể nhận diện từ đầu cho đến khi kết thúc xử lý sự cố, tuy nhiên trong trường hợp nhóm này không có khả năng xử lý, họ sẽ ghi nhận sự cố và chuyển tiếp việc xử lý lên cấp cao hơn.
Chuyển tiếp việc xử lý sự cố lên cấp cao hơn: Nhóm tiếp theo tiếp nhận sự cố đã được ghi nhận bởi nhóm đầu tiên và tiếp tục quá trình nhận diện và xử lý sự cố, tuy nhiên nếu nhóm này không thể xử lý, sự cố sẽ được chuyển tiếp lên cấp cao hơn.
Báo cáo sự cố: Các nhóm phải thường xuyên cập nhật thông tin với các bên liên quan trong nội bộ cũng như ở ngoài tổ chức.
Nhận định và điều tra sự cố: Sự cố sẽ tiếp tục được nhận diện cho đến khi các nhóm xác định được bản chất nguyên nhân dẫn đến sự cố. Đôi khi các nhóm sẽ tham khảo ý kiến và nhận hỗ trợ từ nguồn lực bên ngoài hay các thành viên khác trong phòng ban.
Giải quyết sự cố và khôi phục dữ liệu: Ở bước này, nhóm giải quyết sự cố sẽ nhận định sự cố và thực hiện các bước cần thiết để giải quyết sự cố. Việc khôi phục dữ liệu chủ yếu cần 1 khoảng thời gian cần thiết để các dịch vụ và chức năng được khôi phục hoàn toàn. Vì một số bản fix lỗi có thể yêu cầu thực hiện kiểm thử và triển khai ngay cả sau khi đã xác định được giải pháp phù hợp.
Kết thúc việc xử lý sự cố: Sự cố dù được chuyển tiếp thì đến cuối cùng nó cũng sẽ được bàn giao trở lại bộ phận Service Desk để kết thúc sự cố. Để duy trì chất lượng và đảm bảo quy trình xử lý thuận lợi, chỉ bộ phận Service Desk mới được phép đóng sự cố và người quản lý sự cố nên kiểm tra với người đã báo cáo sự cố để xác nhận rằng giải pháp đưa ra là thỏa đáng và trên thực tế có thể kết thúc sự cố.
Quy trình quản lý sự cố DevOps và SRE
Theo cách tiếp cận của DevOps hay SRE, bên xây dựng dịch vụ sẽ đồng thời là bên vận hành dịch vụ đó, cũng như thực hiện fix nếu có sự cố xảy ra. Cách tiếp cận này đã trở nên phổ biến cùng với sự phát triển của các dịch vụ đám mây, web app, microservice hay software as a service.
Ngày càng có nhiều phần mềm phục vụ cho đời sống và công việc không được lưu trữ trên máy chủ ở nơi bạn sống. Đó có thể là một web app được triển khai tại trung tâm dữ liệu cho hàng nghìn hoặc hàng triệu người dùng trên toàn cầu. Đối với các nhóm được giao nhiệm vụ vận hành các dịch vụ như này, tính linh hoạt và tốc độ là điều tối quan trọng. Chỉ cần xảy ra tình trạng downtime thì đều có khả năng ảnh hưởng đến hàng nghìn tổ chức.
Một lợi thế của cách tiếp cận này là nó mang lại sự linh hoạt cho các team quản lý sự cố, nhưng nó cũng có thể không làm rõ được việc ai chịu trách nhiệm về cái gì và khi nào. Các nhóm DevOps có thể cảm thấy thoải mái với các quy trình phát triển ít phức tạp hơn. Tuy nhiên, vẫn nên tiêu chuẩn hóa các quy trình cốt lõi cho việc quản lý sự cố để không còn phải hỏi về cách ứng phó khi xảy ra sự cố, đồng thời, bạn có thể theo dõi các sự cố và báo cáo cách giải quyế các sự cố.
Ba nguyên tắc của nhóm quản lý sự cố DevOps:
Luân phiên trực sự cố: Thay vì chỉ định một số thành viên nhất định trong nhóm phụ trách trực sự cố, các nhóm DevOps thường trực luân phiên nhau theo lịch, tất cả các thành viên đều thay phiên nhau trực để ứng phó với sự cố.
Người xây lên dịch vụ là người phù hợp nhất để fix lỗi dịch vụ: Ý tưởng chính của nguyên tắc này đó là: những người quen thuộc nhất với dịch vụ (người trực tiếp tạo ra dịch vụ) là những người được trang bị tốt nhất để khắc phục sự cố.
Xây dựng nhanh nhưng phải có trách nhiệm: Khi các kỹ sư phần mềm biết rằng họ đang gặp khó khăn trong thời gian xảy ra sự cố, họ sẽ có thêm động lực để đảm bảo chất lượng dịch vụ.
Cách tiếp cận này đảm bảo thời gian phản hồi nhanh và các team sẽ nhận được feeback nhanh hơn để cải thiện cách xây dựng dịch vụ.
Công cụ quản lý sự cố
Sự cố không chỉ được quản lý bởi một công cụ mà là sự kết hợp phù hợp giữa các công cụ, phương pháp thực hành và con người. Dưới đây là một số loại công cụ phổ biến để quản lý sự cố hiệu quả:
Theo dõi sự cố: Mọi sự cố đều phải được theo dõi và ghi lại để người quản lý sự cố có thể xác định xu hướng và so sánh các sự kiện theo thời gian.
Chat room: Trao đổi thông tin với team kịp thời là chìa khóa để nhận diện và giải quyết sự cố. Việc này cũng là cơ sở để phân tích các sự cố xảy ra về sau.
Video chat: Phương thức này bao gồm cả text chat, ứng dụng video chat có thể giúp cả team thảo luận về các nhận định về sự cố, đồng thời vạch ra chiến lược ứng phó sự cố phù hợp.
Hệ thống cảnh báo: Sử dụng công cụ như Jira tích hợp với hệ thống giám sát và quản lý các yêu cầu xử lý được chuyển tiếp.
Tài liệu hóa: Có thể ghi lại các tài liệu về trạng thái sự cố và kết quả phân tích sự cố.
Statuspage: Để trao đổi tình trạng sự cố với các bên liên quan trong nội bộ và khách hàng; điều này giúp mọi người luôn cập nhật được thông tin về sự cố.
FPT Incident Management là một công cụ quản lý sự cố thông minh được thiết kế để giúp bạn nhanh chóng ứng phó với các sự kiện gây rối và bất ngờ. Với khả năng tích hợp với các công cụ Jira, GitHub, Slack và Google Workspace. Incident Management đơn giản hóa quy trình ứng phó sự cố của bạn, giảm thời gian và công sức cần thiết để quản lý sự cố.
Tìm hiểu thêm về FPT Incident Management tại đây.