Makine Öğreniminde Anomali Tespiti: Teknik Bir Genel Bakış
Giriş
Anomali tespiti, makine öğreniminde verinin büyük çoğunluğundan önemli ölçüde sapan nadir örneklerin belirlenmesi problemidir. Sahtekarlık tespiti, siber güvenlik, endüstriyel arıza tespiti ve kestirimci bakım gibi birçok alanda yaygın olarak kullanılır. Geleneksel denetimli öğrenme problemlerinden farklı olarak, anomali tespiti genellikle çok dengesiz veri kümeleriyle çalışır ve aykırı değerleri etkili biçimde modellemek ve tespit etmek için özel yöntemler gerektirir.
Bu yazı, Andriy Burkov'un The Hundred-Page Machine Learning Book kitabından da yararlanarak anomali tespitinin yöntemlerine ve matematiksel temellerine teknik bir bakış sunar.
Anomalileri Anlamak
Resmi olarak, X ⊆ ℝd
bir veri kümesi ve N
bağımsız gözlem x1, x2, ..., xN
olsun. Anomaliler, öğrenilen normal örnek dağılımından anlamlı biçimde sapan xi ∈ X
örnekleri olarak tanımlanır.
Anomali türleri:
- Nokta Anomalileri: Veri kümesinin çoğunluğundan sapan tekil noktalar. Çoğunlukla olasılık dağılımları veya uzaklık ölçümleriyle modellenir.
- Bağlamsal Anomaliler: Belirli bir bağlamda anormal kabul edilen örnekler; genellikle zamansal veya mekansal analiz gerektirir.
- Kolektif Anomaliler: Birlikte ele alındığında anormal bir desen sergileyen gözlem grupları.
Anomali Tespitinin Matematiksel Formülasyonu
Bir X
veri kümesi verildiğinde, amaç aşağıdaki fonksiyonu öğrenmektir:
f: X → {0,1} f(x) = 1, eğer x anomali ise 0, aksi halde
Etiketli verinin mevcudiyetine bağlı olarak yöntemler denetimli, denetimsiz ve yarı-denetimli olarak sınıflandırılabilir.
1. Denetimli Anomali Tespiti
Denetimli öğrenme, yi ∈ {0,1}
olacak şekilde etiketli eğitim verisine {(xi, yi)}i=1N
dayanır. Lojistik regresyon, karar ağaçları ve sinir ağları gibi sınıflandırma modelleri kullanılabilir:
ŷ = σ(wT x + b) σ(z) = 1 / (1 + e-z)
Zorluklar:
- Yeterli sayıda etiketli anomali gerektirir; pratikte sıklıkla mümkün değildir.
- Veri dengesizliğinden dolayı çoğunluk sınıfına yanlı olabilir.
2. Denetimsiz Anomali Tespiti
Denetimsiz yöntemler, etiketli anomali olmadığı varsayımıyla öğrenilen dağılımlara göre sapmaları tespit eder.
İstatistiksel Yöntemler
Yaygın bir yaklaşım, normal örnekler üzerinde bir olasılık dağılımı p(x)
varsaymak ve bir anomali eşiği tanımlamaktır:
x anomalidir, eğer p(x) < ε
Gaussian dağılımlar için anomaliler Mahalanobis uzaklığı ile tespit edilebilir:
dM(x) = sqrt((x - μ)T Σ-1 (x - μ))
Kümeleme Tabanlı Yöntemler
K-ortalamalar ve DBSCAN gibi kümeleme teknikleri, herhangi bir kümeye iyi uymayan noktaları aykırı olarak tanımlar.
d(x, Ck) = minc ∈ C ||x - c||2
Yoğunluk Tabanlı Yöntemler
Isolation Forest ve Yerel Aykırılık Faktörü (LOF) yerel yoğunluğu tahmin eder ve düşük yoğunluk bölgelerindeki örnekleri anomali olarak sınıflandırır.
LOF(x) = 1 / |Nk(x)| ∑y ∈ Nk(x) (lrd(y) / lrd(x))
3. Yarı-Denetimli Anomali Tespiti
Bu yöntemler yalnızca normal veriler üzerinde bir model eğitir ve sapmaları anomali olarak işaretler.
Otoenkoderler
Bir sinir ağı, girdiyi yeniden üretmek üzere eğitilir. Yeniden üretim hatası ||x - x̂||2
büyükse, x
muhtemelen anomalidir.
Tek-Sınıf SVM
Destek vektör makineleri (SVM), yüksek boyutlu bir uzayda normal veriyi orijinden ayıracak biçimde eğitilir:
wT x - b ≥ 0
Pratik Uygulama
- Veri Ön İşleme: Normalizasyon, eksik değerlerin ele alınması, özellik seçimi.
- Model Seçimi: Veri özelliklerine göre uygun yöntemin seçilmesi.
- Eğitim ve Değerlendirme: Başarıyı değerlendirmek için Precision-Recall ve ROC eğrileri gibi metrikler kullanılır.
- Canlıya Alma ve İzleme: Veri kayması (concept drift) için modeller düzenli olarak güncellenmelidir.
Anomali Tespitinde Zorluklar
- Dengesiz Veri: Aşırı örnekleme/az örnekleme ve maliyete duyarlı öğrenme gibi teknikler yanlılığı azaltmaya yardımcı olur.
- Kavram Kayması: Zamanla değişen kalıplara uyum sağlanmalıdır.
- Yüksek Yanlış Pozitif: Eşik ayarı ve ansambıl yöntemleri güvenilirliği artırır.