Gözetimli Makine Öğrenmesi Yaklaşımları

Prof.Dr.Semih Ötleşa,b, Haydar Mert Özdemira,c aEge Üniversitesi, Fen Bilimleri Enstitüsü, Ürün Yaşam Döngüsü Yönetimi Anabilim Dalı bEge Üniversitesi, Gıda Mühendisliği Bölümü cMakina Mühendisi, TERBAY Makina

13:29:32 | 2021-04-01
Prof.Dr.Semih Ötleş
Prof.Dr.Semih Ötleş       karabayhatice@hotmail.com

 

 

 

Özet

Bu makalede makine öğrenmesindeki üç temel yaklaşımdan ( gözetimli öğrenme, gözetimsiz öğrenme, pekiştirmeli öğrenme) gözetimli öğrenme yaklaşımı detaylandırılacaktır. Gözetimli öğrenme sınıflandırma problemleri üzerinde durur.

1.Giriş

Gözetimli öğrenmede üç tane durum bulunmaktadır:

  • Eğitim
  • Doğrulama
  • Sınama

Modelin eğitilmesi amacıyla gözetimli öğrenmede, girdi olarak x vektörü ( öznitelik vektörü) ve sınıf adı (etiketi) bulunmaktadır. ( (x, y) x: öznitelik vektörü y: sınıf adı x=[x1…..xd] )

Sınıflandırma problemlerinde bu iki vektör modele eğitim amacıyla verilir, model ayrıntıları öğrenmeye başlar ve öznitelik vektörünü olması gereken sınıfa atayabilir hale gelir. Sonraki aşamada model bir doğrulama adımından geçirilir. Doğrulama adımında verinin eğitim aşamasında gösterilmeyen bir kısmı eğitim aşamasındaki gösterilmeyen bu veri ile modelin başarısı test edilir. Doğrulama adımındaki sınıflandırma başarı oranından memnun kalınırsa model tekrar önceki aşamalarda gösterilmeyen veriler ile sınanır. Burada dikkat edilmesi gereken, eğitim aşamasındaki başarının fazla dikkat edilmemesi gerektiğidir, zaten bir noktadan sonra model eğitim verilerini ezberler hale gelecektir. Modelin dikkat edilmesi gereken başarı oranı, doğrulama ve sınama durumundaki başarı oranıdır.

2.Bayes Karar Kuralı

Makine öğrenmesinin ilk ve en temel yöntemi Bayes Karar Kuralıdır. Akıllı yapılar çevresinden aldığı sensörler yardımı ile belirli algılar edinir, sonra bu algılar geçmiş veriler ile harmanlanıp bir aksiyon kararı alınır.

Bayes Karar Kuralı gerekli iki şart sağlandığında en optimal sonuçları verir.

Bu şartlar;

  • Karar probleminin olasılıksal bir kökeni olduğu kabulü
  • İlgili bütün olasılık değerlerinin bilinmesi halinde

Bu noktada ilgili bütün olasılık değerlerinin bilinmesi zorlayıcı bir faktör olarak karşımıza çıkıyor. Olası bütün olasılık değerlerinin bilinmesinin sağlanması son derece zor bir konudur.

Dolayısıyla Bayes Karar Kuralı’nı kullanırken sahadan alınan ve sürekli tekrarlanan verilere ihtiyacımız ortaya çıkmaktadır. Örnek vermek gerekirse robotik bir el üretip, bir bozuk parayı milyarlarca kez havaya atıp bunun yazı tura gelme istatistiğine bakılıp bu veri doğrultusunda, bu istatistik Bayes Karar Kuralı’nda kullanılabilir. 

2.1.Bayes Karar Kuralı Örnek Vaka

Bir robotun görevinin sepetin içerisindeki elma ve şeftalileri ayırt etmek olduğunu varsayalım. Bu örnekte robotun sepetin içerisinde toplam elma ve toplam şeftali sayısını bildiğini kabul ediyoruz. Robottan beklentimiz, sepetin içerisinden elma aldığı zaman elmayı dilimlemesi, şeftali aldığı zaman ise şeftaliyi soymasını bekliyoruz. Robota herhangi bir renk algılayıcı sensör, kamera gibi donanımları eklemiyoruz.

Sepetin içerisindeki meyve dağılımı değişmediği koşulda, meyve sepetinin içerisinde hangi meyvenin çoğunlukta olduğunu bilen robot, çoğunlukta olan meyveyi her seçimde seçmesi yanlış yapma oranını en azda tutacaktır.

Robota renk algılama sensörü eklediğimiz durumda, robotu kırmızılık oranına göre bir sayı atması yapmaya başlayacak şekilde programlıyoruz. Böylece, elmaların homojen bir kırmızılığı olmasa bile belirli bir kırmızılık seviyesinde algıyacak, aynı zamanda şeftalileri de bu kırmızılık oranına göre ayırt edebilcektir. Renklere bir ölçüm uygulamadan önceki olasılığa öncül olasılık, ölçümden sonraki olasılık ise ardıl olasılık olarak adlandırılır.

Örnek olarak 0 – 1000 arası kırmızılık aralığı tuttuğumuz durumda, seçmiş olduğumuz meyvenin 300 kırmızılık derecesine sahip olduğunu düşünelim. Ardıl olasılık, 300 kırmızılık derecesine sahip meyvenin, elma mı yoksa şeftali mi olduğu olasılığıdır.

Bu noktada Bayes Kuralı:

P(elma/renk) = p (renk/elma) * P(elma)/ p(renk)

P(şeftali/renk)= p (renk/şeftali) * P(şeftali) / p(renk)

(p (renk/şeftali) ve p (renk/elma) = olabilirlik)

Olabilirlik kavramı, meyvenin hangi meyve olduğu bilinirken, bunun kırmızı renk derecesinin (x) çıkma değeri nedir sorusudur. Bu da bize renk dağılımının bize öncesinde bir bilgi olarak sunulması gerektiği şartını ortaya çıkartır.

 

Grafikteki ardıl olasılıkların belli bir noktada kesiştiğini gözlemliyoruz. Tam bu noktadaki ihtimaller birbirlerine eşit ve 0,5’tir. Bu kesişen noktada makine öğrenmesinin işi başlar diyebiliriz. Makine grafikteki kesişim noktasının sağında kalan bölgeyi elma olarak tanır, solunda kalan bölgeyi ise şeftali olarak tanır. Bu noktada grafikte de gözlemleyebildiğimiz gibi, bazı elmalar şeftali, bazı şeftaliler ise elma olarak tanımlanacak ve belirli mecburi bir hata oranı oluşacaktır.

3.Destek Vektör Makinaları

1963 yılında Vladimir Vapnik ve Alexey Chervonenkis tarafından temelleri atılan “Destek Vektör Makineleri (DVM)” istatiksel öğrenme teorisine dayalı bir gözetimli öğrenme algoritmasıdır. Her ne kadar temelleri 60'lı yıllara dayansa da 1995 yılında Vladir Vapnik, Berhard Boser ve Isabelle Guyon tarafından geliştirilmiştir .

Destek Vektör Makineleri, temel olarak iki sınıfa ait verileri birbirinden en uygun şekilde ayırmak için kullanılır. Bunun için karar sınırları yada diğer bir ifadeyle hiper düzlemler belirlenir.

 3.1. Doğrusal Destek Vektör Makineleri

Destek vektör makineleriyle sınıflandırmada, iki sınıfa ait örneklerin doğrusal olarak dağıldığını varsayalım. Bu durumda bu iki sınıfın, eğitim verisi kullanılarak elde edilen bir karar fonksiyonu yardımıyla birbirinden ayrılması amaçlanır.

Veri setini ikiye ayıran doğru karar doğrusu olarak isimlendirilmektedir. Sonsuz tane karar doğrusu çizebilme imkanı mevcut olsa da önemli olan optimal yani en uygun karar doğrusunu belirlemektir.

 

Şekil 1: Destek Vektörleri

Karar doğrusunun yeni katılacak olan veriye karşı dayanıklı olabilmesi için sınır çizgisinin, iki sınıfın sınır çizgisilerine en yakın uzaklıkta olması gerekmektedir. Bu sınır çizgisine en yakın noktalar, destek noktaları olarak adlandırılmaktadır.

Destek vektör makineleriyle sınıflandırmada genellikle (-1,+1) şeklinde sınıf etiketleri kullanılmaktadır.

3.2. Doğrusal Olmayan Destek Vektör Makineleri

Doğrusal olmayan bir veri kümesinde DVM’ler doğrusal bir hiper-düzlem çizemez. Bu nedenle çekirdek numarası olarak adlandırılan kernel trick’ler kullanılır. Çekirdek yöntemi, doğrusal olmayan verilerde makine öğrenimini yüksek oranda arttırmaktadır.

En çok kullanılan çekirdek yöntemleri:

  • Polynomial Kernel
  • Gaussian RBF (Radial Basis Function) Kernel