وظایف مدیر NOC
Monitoring 
این مقاله نقش، مسئولیتها و معیارهای عملکرد (KPI) یک مدیر مرکز عملیات شبکه (NOC Manager) را از منظر فنی، عملیاتی و مدیریتی تشریح میکند. هدف ارائه یک مرجع عملی برای راهاندازی، هدایت و بهینه سازی عملیات 24x7 شبکه و Serviceها با تکیه بر روی بهترین شیوهها، فرآیندها و شاخصهای قابل اندازهگیری است.
1- جایگاه و هدف کلی نقش
مدیر NOC مسئول تضمین دسترسپذیری، پایداری و کیفیت Serviceهای شبکه و زیرساختهای مرتبط است. این نقش پل بین عملیات روزمره، تیمهای مهندسی، مدیریت فنآوری و ذینفعان کسب و کار است و باید ساز و کارهایی ایجاد کند تا رخدادها به سرعت شناسایی، ارزیابی، رفع و گزارشی شوند.
2- حوزههای مسئولیت (خلاصه)
- نظارت و کنترل: طراحی و پیادهسازی چارت نظارت (Monitoring) و هشدارها، مدیریت Dashboardهای سلامت (Availability/Performance).
- مدیریت رخداد (Incident Management): تعریفSLA، فرآیند اولویت گذاری، Monitoring وضعیت رخدادها، کاهش MTTR.
- مدیریت تعمیر و نگهداشت (Maintenance & Change): هماهنگی تغییرات، نگهداری پیشگیرانه، برنامهریزی Planهای نگهداری.
- Escalation و هماهنگی بین تیمی: ایجاد Matrix ارجاع و روالهای ارتباطی بین NOC و تیمهای L2/L3، امنیت، Application و ارائه دهندگان خدمات.
- خدمات مشتری و گزارش دهی: تولید گزارشهای هفتگی/ماهانه SLA/KPI و اطلاع رسانی به ذینفعان.
- مدیریت تیم و شیفتها: استخدام، آموزش، برنامه ریزی شیفت، PDP/ONCALL.
- درمان ریسک و امنیت: نظارت بر تهدیدات، واکنش اولیه به حوادث امنیتی و هماهنگی با تیم SOC در صورت وجود.
- بهبود مستمر: تحلیل ریشهای علت (RCA)، اصلاح فرآیندها، پیادهسازی Automation.
3- شرح وظایف فنی (جزئیات)
3.1- طراحی و نگهداری سامانههای Monitoring
- انتخاب ابزارها (NMS, APM, SIEM)، سیستمهای Log Aggregation و طراحی پوشش Monitoring برای لایههای زیرساخت، شبکه لایه 2/3، دستگاههای امنیتی و Serviceهای مبتی بر Application.
- تعریف Thresholdها، Suppression Rules و الگوهای هشدار هوشمند (Avoid Alert Fatigue)
- اطمینان از صحت دادهها (availability of collectors, Time Zone Sync, NTP).
3.2- مدیریت رخداد (Incident Lifecycle)
- شناسایی (Detect): از طریق Alert یا تماس مشتری.
- ثبت (Record): ثبت کامل در سیستم ITSM (Ticketing) با Tagging مناسب.
-اولویت بندی (Triage): براساس SLA، تاثیر کسب و کاری و تعداد کاربران.
- تحلیل اولیه (Initial Diagnosis): اجرای Playbookها برای موارد متداول.
- Escalation: انتقال به L2/L3 یا Vendor طبق Matrix.
- رفع یاWorkaround : حل موقت یا دائمی.
- بستن و RCA: تهیه گزارش علت و اقدامات پیشگیرانه.
- KPI مرتبط: MTTR, MTTA, Incident Volume by Priority
3.3- مدیریت تغییر (Change Management)
- ارزیابی ریسک تغییرات، هماهنگی زمانبندی با ذینفعان و اطلاع رسانی کاربران.
- اجرای Pre/Post-Change Checks و Rollback Plans
- ثبت تغییرات و تحلیل تاثیر در Dashboard سلامت.
3.4- پایداری و ظرفیت (Resiliency & Capacity)
- پایش ظرفیت Linkها،CPU/Memory، Serviceها، ذخیرهسازی و برنامه ریزی ظرفیت.
- طراحی و آزمون سناریوهای Failover و DR
- تعریف RPO/RTO به همراه تیمهای برنامه ریزی کسب و کار.

4- وظایف مدیریتی و سازمانی
- تدوین اهداف سالانه و KPIهای تیم NOC.
- برنامه ریزی نیروی انسانی: شیفت بندی 24x7، On-Call Rota، Plan جایگزینی (Backup).
- آموزش و توسعه: برگزاری Drills، Tabletop Exercises، مستند سازی Playbookها.
- بودجه بندی و انتخاب ابزارها و قراردادهای پشتیبانی (Support Contracts, SLAs with Vendors).
- نظارت بر کیفیت خدمات مشتری و پیمایش رضایت مشتری (CSAT) برای پشتیبانی فنی.
5- فرآیندها و استانداردهای کلیدی
- ITIL-Inspired Processes: Incident, Problem, Change, Service Level Management
- SLA & OLA: تعریف SLAs با کسب و کار و OLAs بین تیمهای فنی.
- Runbooks/Playbooks: برای رخدادهای پرتکرار (مثلا (Packet Loss, Link Down, DB-High-Latency
- Escalation Matrix: شرایط، افراد، زمانی که باید ارجاع انجام شود.
- Security Coordination: هماهنگی با SOC، استفاده از SIEM برای Alert Correlation.
6- KPIهای عملیاتی و فرمولها (مثالها)
- MTTA (Mean Time to Acknowledge)= مجموع زمان از Alert تا اولین Acknowledgement / تعداد Alerts.
- MTTR (Mean Time to Resolve) = مجموع زمان از ثبت Incident تا Resolution / تعداد Incidents.
- Availability (%) = (Total Time − Downtime) / Total Time × 100
- First Contact Resolution (FCR) = تعداد موارد حل شده در تماس اول / کل تماسها × 100.
- Incident Volume by Priority: پایش روند افزایشی که نشان از مشکلات زیرساختی دارد.
- هدف گذاری نمونه:Availability 99.95% برای Serviceهای حیاتی،MTTR زیر30 دقیقه برایP1 .
7- Matrix اولویت و پاسخ (نمونه)
|
Priority |
Business Impact |
Response SLA |
Action by NOC |
|
P1 (Critical) |
سرویس Down برای همه کاربران/دادههای حیاتی |
Acknowledge ≤ 5 min, Resolve/Workaround ≤ 1 hr |
فوری :Escalation به L2/L3 و Vendor, Crisis Call |
|
P2 (High) |
قطعی قابل توجه Degradation برای بخش عمده |
Acknowledge ≤ 15 min, Resolve ≤ 4–8 hr |
Triage، Workaround و Scheduled Fix |
|
P3 (Medium) |
Impact محدود /Partial |
Acknowledge ≤ 1 hr, Resolve ≤ 24–72 hr |
Queue to L2, Maintenance Window |
|
P4 (Low) |
Request/Change با کمترین ریسک |
Acknowledge ≤ 24 hr, SLA حسب قرارداد |
Normal Change Process |

8- ابزارها، آینهکاری و Automation (پیشنهادات عملی)
- ابزارهای Monitoring :NMS/Observability برای شبکه و Serverها، APM برای Applicationها، Log Aggregation/ELK.
- سیستم Ticketing :ITSM قابلیت Workflow، SLA Tracking،Integrations با Monitoring و Chat Appها.
- Automation :Runbook Automation برای اقدامات تکراری) مثلا Auto-Remediation برای Serviceهایی که با Restart حل میشوند).
- اتصالات و گزارشدهی: API برای استخراج دادهها به BI (Power BI/Looker) جهت Dashboardهای مدیریتی.
- ارتباطات: ابزارهای Conferencing و Incident Bridge برای مدیریت بحران (Zoom/Teams + Dedicated Phone Bridge).
نکته عملیاتی: هر ابزار باید قابلیت Integration دوطرفه با سیستم Ticketing و Notification Channels (SMS, Email, PagerDuty) داشته باشد تا چرخه تشخیص تا حل به کمترین زمان برسد.
9- نمونه Check List روزانه/شیفتی برای مدیر NOC
- بررسی Dashboard سلامت Serviceها وAlertهای Unresolved.
- مرور P1/P2 باز و وضعیت Escalationها.
- نشست کوتاه با تیم شیفت برای Handover و نقاط حساس.
- تائید عملیات نگهداری زمان بندی شده و اطلاع رسانی به کاربران.
- بررسی گزارشهای امنیتی و Coordination با SOC.
- به روزرسانی KPI Dashboard و ارسال گزارش کوتاه به مدیریت.
10- مدیریت بحران و تمرینهای آمادهسازی
- ایجاد Playbook بحران (Incident Commander, Communications Lead, Spokespeople).
- برگزاری Exercises حداقل هر شش ماه: DR Run, Failover Test, Tabletop.
- ثبت Lessons Learned و به روزرسانی مستندات پس از هر حادثه.
11- تعامل با ذینفعان (Stakeholder Management)
- گزارشهای سطح مدیریتی (Executive Summary) ماهانه: Availability, Top Incidents, RCA highlights Trending Risks,
- گزارشهای فنی هفتگی به تیم مهندسی: Incident Trends, Recurring Alerts, Capacity Warnings
- قرارداد SLA review با کسب و کار و مذاکرات تغییر سطح سرویس در صورت نیاز.
12- چالشهای رایج و راهحلهای توصیهشده
- Alert Fatigue: استفاده از Deduplication، Suppressionو Alert Correlation.
- Knowledge Silos: مستند سازی، جلسات Cross-Training و اشتراک Runbook.
- On-Call Burnout: چرخش منصفانه شیفت، سیاستهای Overtime، رزرو Backfill.
- Vendor Dependency: تعریف Clear Escalation SLAs و Regular Vendor Review.
13- شاخصهای بلوغ و Roadmap عملیاتی (نمونه)
- سطح 1 (Reactive): Monitoring پایه، بسیاری از Incidents به صورت دستی حل میشوند.
- سطح 2 (Stable): Dashboards، Playbookهای استاندارد، SLA Tracking.
- سطح 3 (Proactive): Predictive Alerts،Automation برای Remediation، .Capacity Forecasting
- سطح 4 (Optimized): Full Observability، End-to-End Service Maps، .SRE/DevOps Integration
راهکار: هدف گذاری ارتقاء از سطح 1 به 3 در 12الی 18 ماه با پروژههای محوری: Automation، Observability و آموزش.

جمع بندی:
مدیر NOC در نقش کلیدی برای تضمین تداوم Service و رضایت کسب و کار قرار دارد. ترکیب مهارتهای فنی Monitoring، Troubleshooting شبکه (با مهارتهای مدیریتی) فرآیند، KPI، مربیگری تیم و تمرکز بر Automation و بهبود مستمر، موجب کاهش زمان خاموشی، بهبود کیفیت خدمات و کاهش هزینههای عملیاتی خواهد شد.