İster yeni bir girişim olun, ister büyük bir işletme olun yazılım, donanım ve ağlarınızı mutlaka gözlemlemeniz gerekiyor. Bununla birlikte alınan bildirim mesajları arttıkça bu bildirimleri “görmezden gelmek” şeklinde bir refleks gelişebilir. Bunun nedenlerine ve çözüm önlemlerini göz atalım.
Günümüzde riskleri azaltma, kalite standartlarını yerine getirme ve verimliliği artırmak için kritik öneme sahip sistemlerimizi gözleyen ve gerektiğinde uyarı üreten çözümler kullanıyoruz. Bunlar bazen bulut servisler, açık kaynak yazılımlar veya iç ekipler tarafından geliştirilmiş yazılımlar olabiliyor.
Bu konuda en çok kullanılar çözümler; Zabbix, Nagios, SolarWinds ve Datadog diyebiliriz. Ben aktif olarak Datadog kullanıyorum ve yüzlerce gözlemi Datadog üzerinden yapıyoruz.
Bildirim Örnekleri
Bildirimler genellikle hata bildirimi, durum gözlemleme ve rapor üretme amacıyla kullanılır. Bildirimlere çok kullanılan bir kaç örnek verelim:
- Her gece çalışan bir görevin çalışıp çalışmadığının takibi.
- Sunucu veya veritabanındaki boş diskin gözlemlenesi.
- Hizmet olarak sunduğumu bir API servisinin çalışır durumda olduğunun gözlemlenmesi (api health).
- Veritabanı/sunucu yedeklerinin başarıyla alındığının takibi.
- Veritabanına düzenli sorgular göndererek bazı özet bilgileri yorumlayıp uyarı oluşturmak vb.
Örnekler çoğaltılabilir…
Çoğunlukla başımıza bir sorun çıkmadan bu tür uyarılar da kullanmayız. Günü kurtarıp sonra hemen bir uyarı mekanizmasıyla takip etmeye başlarız. Bu uyarıların sayısı arttıkça bir risk oluşur…
Diyelim ki her gün başarılı bir yedekleme sonrası BT bölümünün mail veya slack kanalına uyarı mesajı gönderiyoruz. İlk günlerde bu keyifli ve güven verici olur. Fakat her gün benzer mail gelmeye başladığında zamanla bir körelme meydana gelir ve diğer mesajların arasında bunu atlamak çok doğal hale gelir.
Algımızı Nasıl Canlı Tutarız?
Zamanla oluşan algı körelmesini önlemek için şunları tavsiye edebilirim:
- Aksiyon alamadığınız bildirimleri kapatın veya tekrar düşünün. Gerekirse parametreleri değiştirin.
- Her başarılı süreç için bildirim göndermeyin. Gerekiyorsa “haftalık rapor” şeklinde bildirim gönderin.
- Özellikle hata ve risk durumlarına yoğunlaşın.
- Ortamların (staging/live) bildirim kanallarını ayrıştırın. Canlı ortama gelen bir bildirim çok yüksek öncelikli olmalı.
- Bildirimleri genellemeyin, açıklayıcı olun ve aksiyon önerisinde bulunun.
Yazılım ve donanımlar hata yapabilir. Bunu erken farkedip önlem alırsak sorunları aşarız. Siz de doğru bir yaklaşımla etkin bir bildirim sistemine sahip olabilirsiniz.