Okumadıysanız öncelikle “Dark Data (Karanlık Veri) Nedir? Neden Önemlidir?” yazımı okumanızı tavsiye ederim. Yazıda karanlık verinin nasıl ortaya çıktığından bahsetmiştim. Şimdi ise bu veriyi nasıl yöneteceğiz ona göz atalım.
Bildiğiniz gibi yönetmemiz gereken büyük bir veri var. Gereksiz karanlık verinin oluşumu engellemek için başlıca önlemleri şöyle özetleyebiliriz:
Yeterince Analiz Yapın
“Şimdilik her bilgiyi alalım da sonra ayıklarız” veya “Biz herşeyi kaydedelim bakalım neleri kullanacağız…” gibi yaklaşımlarla büyük veri analizlerine girmemek gerekiyor. Projemize yeterince vakit ayırıp bize gereken verileri dikkatlice süzerek analiz yapmalı ve sadece gereken verileri saklamalıyız. En başta alacağımız bu önlem ileride çok işimize yaracaktır. Haydi analize!
Verilerin Sadeleştirilmesi
Büyük verinin mutlaka “geçerlilik zamanı” vardır. Kaydedilen verileri ömürlerine göre sınıflandırarak; ömrünü tamamlamış olan verileri kalıcı olarak silebiliriz. Böylece gereksiz ve veri açığı doğurma riski bulunan eski verilerden kurtulabiliriz.
Verilerin Yedeklenmesi
Verilerin hacmi büyük ve üretim hızı yüksek olduğundan yedekleme çok önemli. Yedeklenmeyen bir yapı çok hızla performans sorunlarıyla karşı karşıya kalabilir. Halbuki yukarıda bahsettiğim sadeleştirmeden sonra hala daha durması gereken verileri yedekleyebiliriz. Fakat veri çok büyük olduğu için “bütün yedek” yöntemleri yerine “değişen verinin yedeklenmesi” mantığıyla çalışan modern yedekleme yöntemleri önerilmektedir. Aksi halde yedekleme işi kabusumuz olabilir! Yedekleme sonrası disk ihtiyacı daha rahat kontrol altında tutulabilir.
Verilerin Şifrelenmesi
Büyük verinin belki de en önemli tehlikesi “gizli” bilgilerin açığa çıkma tehlikesidir. Bunun önüne geçmek için verilerin “şifreli” olarak saklanması öneriliyor. Buna paralel olarak yedeklerimizi de şifreli tutacak yazılımlara yönelmek iyi bir çözüm olabilir. Şifreleme için “hassas” verinin en başta analiz edilmesi faydalı olacaktır. Yoksa sonradan başınıza bir dert açana kadar o veriyi hissetmezsiniz bile…
Yukarıda bahsettiğim önlemler “karanlık veri (dark data)” oluşumunu önceden azaltıcı etki sağlayacak ve yürüyen sisteminizi de karanlık verinin maliyetlerinden kurtaracaktır diye umuyorum.
Aydınlık veriler dileğiyle…