Apakah itu Network Operation Center atau NOC? Network Operation Center (NOC) atau kadang disebut sebagai Network Management System (NMS) pada awalnya adalah suatu lokasi pemantauan (monitoring) dan pengaturan (management) terhadap jaringan komputer, jaringan telekomunikasi, jaringan satelit, atau bahkan jaringan sensor cerdas seperti internet of things (IoT).
Tetapi NOC modern sudah berkembang menjadi lebih luas dan holistik tidak terbatas pada jaringan saja, tapi juga mencakup pemantauan kelistrikan (UPS, Building Automation, Genset), insiden kinerja sistem komputer, dan insiden gangguan keamanan komputer. Dan informasi dari berbagai sumber berbeda tsb dapat dikumpulkan menjadi sebuah layar Dashboard Operasional yang End-to-End.

Pemantauan Dashboard ini bisa dilakukan oleh orang yang non-IT, karena sudah disederhanakan menjadi kode warna: merah untuk gangguan berat, kuning untuk gangguan sedang, dan hijau untuk layanan yang masih dalam batas toleransi KPI dan SLA.
Langkah-langkah penerapan NOC

Kode Warna dibentuk menggunakan machine learning, berdasarkan baseline performa layanan selama 1 bulan sebelumnya (data historikal). Kemudian baseline ini yang dijadikan dasar untuk menentukan apakah layanan mengalami gangguan berat, sedang, atau normal dalam toleransi KPI dan SLA. Tingkat kewajaran suatu layanan bisa berbeda untuk setiap jam dan setiap hari, misalnya hari Senin pagi cukup wajar bila jaringan melambat hingga 500 millisecond ping time, tetapi hari Senin malam angka ping time tsb hanya wajar bila dibawah 100 millisecond.

Terkadang, ada banyak layanan yang mengalami gangguan di saat yang bersamaan, padahal semuanya terjadi karena 1 penyebab saja, misalnya karena listrik bermasalah di 1 titik atau ada database yang sedang mengalami error. Visualisasi yang tepat bisa membantu agar prioritas langsung ditujukan pada akar masalah (root cause), karena perbaikan di 1 titik tersebut akan memulihkan seluruh layanan lain yang terkait.

Pencegahan Gangguan Layanan

Karena sistem monitoring ini sifatnya holistik, sehingga metrik terkait resource server juga dikumpulkan seperti : cpu usage, disk usage, memory usage, active processes. Metrik tersebut bisa digunakan untuk membuat KPI dan SLA, dan bisa juga dioleh menggunakan predictive analytics untuk menjadi sebuah estimasi pemakaian di masa depan (predictive capacity planning). Predictive capacity planning ini sebaiknya menggunakan data 3 bulan terakhir, untuk bisa memprediksi dengan baik estimasi penggunaan hingga 9 bulan yang akan datang. Tujuannya adalah agar tim Operasional IT/Network tahu layanan mana saja yang perlu tambahan resource, sebelum layanan tersebut mati karena kehabisan resource.