مدیریت حوادث مهم (Big Bang)
هر حادثهای که کاربران زیادی را تحت تأثیر قرار دهد، یکی از خدمات حیاتی کسبوکار را مختل کند و نیازمند واکنش سریع و مؤثر باشد، به عنوان یک حادثه مهم در نظر گرفته میشود. در دنیای فناوری ابری، دستیابی به ۹۹.۹۹ درصد دسترسی یک استاندارد محسوب میشود و Zoho متعهد است که این سطح از دسترسی را برای مشتریان خود فراهم کند.
در هنگام وقوع یک حادثه مهم، فرآیند Big Bang در مدیریت حادثه اجرا میشود که شامل همکاری تیمی، هماهنگی با ذینفعان، اطلاعرسانی به مشتریان و تلاش مداوم برای رفع مشکل است.
انواع مشکلات دسترسی
۱. مشکلات شبکه
۲. مشکلات سرورهای فیزیکی
۳. مشکلات نرمافزاری
مدیریت حوادث مهم
در صورت وقوع یک حادثه مهم، تیمهای مختلفی برای حل مشکل فعال میشوند:
- مدیر حادثه: هماهنگکننده اصلی که ارتباط بین تیمهای شبکه (NOC)، سرور (Zorro) و محصول را برقرار میکند.
- هماهنگکننده حادثه: مسئول ارزیابی و مدیریت هماهنگی بین تیمها.
- تیمهای مهندسی و توسعه: حل مشکلات مربوط به نرمافزار و اپلیکیشنها.
- تیم سرورها و نگهداری (Zorro): مدیریت و تعمیر سرورها.
- تیم خدمات ابری (SAS): مدیریت داراییهای دیتاسنتر.
- تیم عملیات شبکه (NOC): رسیدگی به مشکلات شبکه.
- مدیر ارتباطات خارجی: اطلاعرسانی به مشتریان درباره وضعیت حادثه.
مراحل مدیریت حادثه
✅ شناسایی مشکل:
با استفاده از ابزار Site24x7، در صورت بروز مشکل، هشدارهای خودکار ارسال شده و یک تیکت در سیستم مدیریت خدمات فناوری اطلاعات (ITSM) ثبت میشود.
✅ ارتباط با تیمهای داخلی:
مدیر حادثه اطلاعات را از هماهنگکننده دریافت کرده و تیمهای مربوطه را از طریق ایمیل (ITSM)، شبکه اجتماعی داخلی (Zoho Connect)، و چت گروهی (Zoho Cliq) مطلع میکند.
✅ ارزیابی حادثه:
مدیر حادثه سؤالاتی مطرح میکند تا میزان تأثیر حادثه مشخص شود:
- حادثه از چه زمانی آغاز شده است؟
- آیا مشتریان تحت تأثیر قرار گرفتهاند؟
- کدام تیم مسئول رفع مشکل است؟
✅ اطلاعرسانی به مشتریان:
- انتشار پست وبلاگی درباره حادثه و بهروزرسانیهای منظم.
- انتشار اعلان در انجمن پشتیبانی.
- نمایش وضعیت در صفحه وضعیت Zoho.
✅ تخصیص وظایف و پیگیری:
مدیر حادثه با تیمهای مربوطه هماهنگ شده و اجرای وظایف آغاز میشود.
✅ رفع مشکل و مستندسازی:
- پس از حل مشکل، تیکت حادثه بسته شده و گزارش تحلیل ریشهای مشکل (RCA) تهیه میشود.
- اطلاعرسانی نهایی به مشتریان و ذینفعان انجام میشود.
- بررسی و تکمیل چکلیست نهایی برای اطمینان از رفع کامل حادثه.
این فرآیند، باعث مدیریت سریع و شفاف حوادث مهم، کاهش زمان قطعی و افزایش رضایت مشتریان میشود.