مدیریت رخداد: فرآیندها و نقشها
فرآیندهای مدیریت رخداد
مفهوم | توضیح |
---|---|
مدیریت حادثه | فرآیندی برای بازگرداندن عملیات عادی خدمات به سریعترین شکل ممکن با کمترین تأثیر بر عملیات کسبوکار و کاربران. |
حادثه چیست؟ | یک وقفه غیرمنتظره که باعث کاهش کیفیت خدمات IT میشود، مانند کندی اینترنت، خرابی نرمافزارهای تجاری یا عدم کارکرد چاپگر. |
فرآیندهای مدیریت حادثه | Desktop Sprint (مشکلات جزئی)، Big Bang (حوادث با اهمیت بالا)، CyberSec (حوادث حیاتی و امنیتی). |
نقشها و مسئولیتها | تکنسینهای PitStop: پشتیبانی از کاربران دسکتاپ. تیم مرکزی مدیران سیستم: مدیریت همه حوادث در ساختمان. |
مراحل مدیریت حادثه | گزارش حادثه → دستهبندی → اولویتبندی → بررسی و حل → مستندسازی و بهبود مستمر. |
گزارش حادثه | کارکنان مشکلات را از طریق ایمیل، تماس، چت زنده یا پورتال خودکار ITSM گزارش میدهند. |
جزئیات گزارش حادثه | عنوان، خلاصه، توضیحات، تأثیر (چند نفر متأثر شدهاند؟)، فوریت (چقدر سریع باید حل شود؟)، اولویت، گروههای رسیدگی، داراییهای تحت تأثیر. |
دستهبندی حوادث | دستهبندی حوادث برای پردازش سریعتر، تحلیل مشکلات و ایجاد گزارشهای ساختارمند انجام میشود. |
روشهای دستهبندی | استفاده از سه سطح دستهبندی: دسته اصلی، زیرشاخه، و آیتم تحت تأثیر. |
بررسی دورهای دستهبندی | بررسی هر ۳ تا ۶ ماه برای بهبود دستهبندی حوادث و افزایش سرعت حل مسائل. |
اولویتبندی حوادث | تعیین اولویت بر اساس ماتریس تأثیر و فوریت جهت استفاده بهینه از منابع و کاهش تأثیر بر کسبوکار. |
سوالات اولویتبندی | تعداد کاربران تحت تأثیر، اهمیت سیستم/خدمات، تأثیر بر درآمد و اعتبار سازمان. |
ماتریس اولویتبندی | تأثیر در محور y و فوریت در محور x برای تخصیص منابع بهینه. |
مستندسازی و بهبود مستمر | تحلیل اشتباهات، ثبت درسآموختهها، اجرای آزمایشهای شبیهسازی برای بهبود استراتژی مدیریت حادثه. |
تیمها، نقشها و مسئولیتها
تکنسینهای PitStop:
مانند هر سازمان IT، تیم پشتیبانی ما مسئول مدیریت رخدادهای دسکتاپ است. مرکز پشتیبانی IT ما PitStop نام دارد.
تیم مدیریت سیستم مرکزی:
تیم مدیریت سیستم مرکزی ما در مرکز کنترل مدیریت رخداد مستقر است و بر تمامی رخدادهای گزارششده در ساختمان ۱۲ طبقه ما نظارت دارد. در هر طبقه، یک تکنسین PitStop مستقر است و در صورت عدم حضور او، تیم مدیریت سیستم مرکزی رخدادهای آن طبقه را مدیریت میکند.
در بیشتر موارد، هماهنگکننده رخداد وظیفه تخصیص رخدادها به تکنسینهای PitStop را بر عهده دارد. همچنین، در صورت عدم حضور هماهنگکننده، تکنسینها میتوانند درخواستها را بهصورت خودکار اختصاص دهند.
فرآیند مدیریت رخدادهای دسکتاپ
گردشکار فرآیند مدیریت رخدادهای دسکتاپ
در یک روز کاری معمولی، تکنسینهای PitStop مشکلاتی با تأثیر کم تا متوسط مانند بازنشانی رمز عبور، مشکلات چاپگر و مسائل شبکه را برطرف کرده و وظایف زیر را انجام میدهند:
- اطلاعرسانی قطعی خدمات به کاربران.
- برقراری ارتباط با کاربران برای جمعآوری اطلاعات بیشتر جهت حل سریع رخداد.
- ایجاد درخواستهای تغییر یا ثبت مشکلات.
- رعایت توافقنامههای سطح خدمات (SLA) و ارجاع رخدادها در صورت نیاز.
- حل و بستن رخدادها.
- ارائه بهروزرسانیهای وضعیت به کاربران در طول چرخه رخداد.
برای مدیریت رخدادهای روزمره، از یک مدل حل سریع استفاده میکنیم که جریان کاری را بهینه کرده و موانع را برطرف میکند.
ایجاد رخداد جدید
رخداد معمولاً با گزارش یک مشکل توسط کارکنان از طریق ایمیل، تماس تلفنی، گفتگوی زنده یا پورتال سلفسرویس در ابزار مدیریت خدمات IT (ITSM) آغاز میشود. پس از ثبت، رخداد بهعنوان یک تیکت ثبت شده و اطلاعات اولیه زیر درج میشود:
- عنوان: خلاصهای از رخداد
- شرح: جزئیات دقیقتر برای تشخیص سریع مشکل
- تأثیر: مشخص کردن اینکه چه کسی تحت تأثیر قرار گرفته است (یک کاربر یا کل سازمان)
- فوریت: تعیین میزان نیاز به حل سریع رخداد
- اولویت: تعیین اهمیت رخداد با توجه به تأثیر و فوریت
- گروهها: مشخص کردن گروه مسئول (سختافزار، نرمافزار، چاپگرها و غیره)
- داراییها: شناسایی داراییها و خدماتی که تحت تأثیر قرار گرفتهاند
پس از ثبت اطلاعات، رخداد وارد وضعیت "باز" میشود که اولین مرحله در جریان کاری مدیریت رخداد است.
دستهبندی رخدادها
هماهنگکننده رخداد وظیفه دارد رخدادها را به دستههای مناسب تخصیص دهد تا طبقهبندی آسانتر انجام شود. این کار برای اهداف زیر انجام میشود:
- گروهبندی رخدادهای مشابه برای تسریع فرآیند مدیریت رخداد.
- مسیریابی خودکار رخدادها به تیمهای مناسب.
- تحلیل مشکلات و تهیه گزارشهای ساختاریافته.
بهترین روش برای دستهبندی موثر، استفاده از سه سطح دستهبندی است:
- دسته اصلی
- زیر دسته
- مورد پیکربندی تأثیرگذار
دستههای اصلی معمولاً در محدوده ۱۰ تا ۱۵ دسته حفظ میشوند تا جامع اما قابل مدیریت باشند. هر ۳ تا ۶ ماه، هماهنگکننده رخداد سوابق تاریخی را بررسی کرده و دستهبندیها را بهینهسازی میکند.
اولویتبندی رخدادها
همه رخدادها نیاز به حل دارند، اما برخی رخدادها تأثیر بیشتری بر کسبوکار دارند و نیاز به رسیدگی فوری دارند. ما از یک ماتریس اولویتبندی (تأثیر × فوریت) استفاده میکنیم تا اطمینان حاصل شود که:
- رضایت کاربران حفظ شود.
- منابع بهینه استفاده شوند.
- حداقل اختلال در عملیات سازمان ایجاد شود.
برای تعیین اولویت، این سؤالات مطرح میشوند:
- بهرهوری چقدر تحت تأثیر قرار گرفته است؟
- چند کاربر تحت تأثیر هستند؟
- آیا کاربران VIP تحت تأثیر قرار دارند؟
- چه تعداد سیستم یا خدمات تحت تأثیر هستند؟
- اهمیت این سیستمها/خدمات برای سازمان چقدر است؟
- آیا مشتریان یا درآمد سازمان تحت تأثیر قرار گرفتهاند؟
- آیا این رخداد تأثیر منفی بر اعتبار سازمان دارد؟
ماتریس اولویتبندی بهصورت خودکار اولویت هر رخداد را بر اساس ورودیهای کاربران در ابزار ITSM مشخص میکند. در این ماتریس:
- محور عمودی: تأثیر (کاربر، گروه، دپارتمان، کسبوکار)
- محور افقی: فوریت (کم، متوسط، زیاد، بحرانی)
این ماتریس تضمین میکند که رخدادهای مهم بهسرعت رسیدگی شده و رخدادهای کماهمیت، مانند مشکلات دسکتاپ، در بازه زمانی مناسب حل شوند.
نمونههایی از استفاده از ماتریس اولویتبندی
- مشکل نرمافزاری در سیستم VIP: تأثیر بالا × فوریت بالا = اولویت بحرانی
- مشکل چاپگر برای یک کاربر عادی: تأثیر کم × فوریت متوسط = اولویت پایین
- قطعی سرویس ایمیل برای کل سازمان: تأثیر بالا × فوریت بالا = اولویت بسیار بالا
ماتریس اولویتبندی یک نمای کلی از تمامی رخدادها ارائه داده و تضمین میکند که رخدادهای بحرانی سریعتر رسیدگی شوند و رخدادهای جزئی در زمان مناسب حل شوند.
جدول استفاده از ماتریس اولویتبندی
فوریت | تأثیر | سناریوها |
---|---|---|
مشکلات جزئی (افراد و گروههای کوچک) | یک کاربر تحت تأثیر قرار گرفته است، سرویس حیاتی درگیر نیست | - تنظیم مجدد رمز عبور- کندی اینترنت |
تأثیر متوسط (گروههای کوچک/کاربران VIP) | یک کاربر VIP یا یک گروه کوچک تحت تأثیر قرار گرفتهاند | - لپتاپ مدیرعامل کار نمیکند- یک چاپگر در یک طبقه خاص خراب شده است |
تأثیر بزرگ (خدمات حیاتی سازمان) | یکی از خدمات حیاتی کسبوکار یا زیرساخت از دسترس خارج شده است | - قطع شدن ارتباط شبکه پرسرعت با خارج از سازمان- از کار افتادن یکی از اپلیکیشنهای اصلی که چندین مشتری را تحت تأثیر قرار داده است- حمله DDoS |
بحرانهای حیاتی (زیان مالی و اعتباری) | تأثیر جدی بر درآمد، شهرت و مسائل حقوقی سازمان دارد | - باگهای نرمافزاری و آسیبپذیریها- بدافزارها، باجافزارها و تهدیدات داخلی- حملات فیشینگ و مهندسی اجتماعی |
فرآیند مدیریت رخدادها
مرحله | شرح |
---|---|
اختصاص و مسیردهی | رخدادها بر اساس قوانین ITSM به تکنسینهای PitStop اختصاص داده میشوند. مثال: اگر چاپگری در طبقه سوم خراب شود، رخداد به تکنسین همان طبقه ارسال شده و او از طریق اعلان مطلع میشود. |
ارتباطات باز | - شروع ارتباط از طریق ایمیل درون ITSM برای ثبت مکالمات- انتشار اطلاعیهها درباره رخدادهای بزرگ در ITSM- تماس تلفنی تکنسین با کاربران برای رفع سریعتر مشکل |
تشدید (Escalation) | اگر تکنسین PitStop نتواند مشکل را حل کند، رخداد به هماهنگکننده رخداد برای تخصیص به یک کارشناس با مهارت بالاتر ارجاع میشود. SLAها بر اساس اولویت رخداد تعریف میشوند (پاسخگویی بین ۴ ساعت تا ۱ روز). |
بستن رخداد | در صورت حل مشکل، تکنسین PitStop رخداد را ثبت و بایگانی میکند. رخدادهای بسته شده همچنان برای بررسیهای بعدی در دسترس باقی میمانند. |
بهترین روشها برای مدیریت رخدادهای دسکتاپ
- استفاده از کانالهای مختلف برای ایجاد تیکت (ایمیل، چت، پرتال، تماس تلفنی).
- ترغیب کاربران به استفاده از راهکارهای سلفسرویس قبل از تماس با پشتیبانی.
- استفاده از اپلیکیشن موبایل برای مدیریت رخدادها حتی در زمان عدم حضور در میزکار.
- یکپارچهسازی مدیریت کاربران با Active Directory سازمان.
- دستهبندی کاربران بر اساس دپارتمانها برای مدیریت بهتر خدمات.
- استفاده از ابزارهای خودکار برای تنظیم مجدد رمز عبور و کاهش بار پشتیبانی.
- اتوماسیون فرآیندهای دستهبندی، اولویتبندی و تخصیص رخدادها.
- ایجاد یک پایگاه دانش برای جستجوی سریعتر راهحلها توسط تکنسینها.
- اطلاعرسانی مستمر به کاربران در تمام مراحل رخداد و رعایت توافقنامههای SLA.