İÇİNDEKİLER
İçindekiler
Önsöz 7
1. BÖLÜM
MAKİNE ÖĞRENMESİ TEMEL KAVRAMLARI
1.1. VERİ BİLİMİ, YAPAY ZEKÂ VE MAKİNE ÖĞRENMESİ 21
1.2. MAKİNE ÖĞRENMESİ KAVRAMI 25
1.3 MAKİNE ÖĞRENMESİNİN TEMELLERİ 27
1.3.1 Makine Öğrenmesinde Görevler 30
1.3.2 Makine Öğrenmesinde Deneyim 32
1.3.3 Makine Öğrenmesinde Performans 32
1.4 MAKİNE ÖĞRENMESİ TÜRLERİ 33
1.4.1 Denetimli Öğrenme 37
1.4.2 Denetimsiz Öğrenme 39
1.4.3 Yarı Denetimli Öğrenme 40
1.4.4 Pekiştirmeli Öğrenme 41
1.4.5 Toplu Öğrenme 42
1.4.6 Çevrimiçi Öğrenme 42
1.4.7 Örnek Tabanlı Öğrenme 43
1.4.8 Model Tabanlı Öğrenme 43
1.5 MAKİNE ÖĞRENMESİNİN AVANTAJLARI VE FAYDALARI 43
1.6 MAKİNE ÖĞRENMESİNİN DEZAVANTAJLARI VE ZORLUKLARI 45
1.7 MAKİNE ÖĞRENMESİ UYGULAMALARI 46
2. BÖLÜM
MAKİNE ÖĞRENMESİ SÜRECİ
2.1 MAKİNE ÖĞRENMESİ MODELİ 51
2.2 MAKİNE ÖĞRENMESİ SÜRECİ ADIMLARI 52
2.2.1 Problemin Belirlenmesi 53
2.2.2 Veri Toplama 54
2.2.3 Veri Hazırlama ve Analiz Etme 54
2.2.4. Verilerin Eğitim ve Test kümelerine Ayrılması 56
2.2.5 Model Seçimi 56
2.2.6 Modelin Eğitimi 58
3.4.7 Model Değerlendirme 58
2.2.8 Parametrelerin Ayarı 59
2.2.9 Tahmin ya da Çıkarım 59
2.3 MAKİNE ÖĞRENMESİ MODELİ İŞ AKIŞI 60
2.4 MAKİNE ÖĞRENMESİ MODELLERİNDE KULLANILAN PYTHON KÜTÜPHANELERİ 62
2.4.1 NumPy 62
2.4.2 Pandas 63
2.4.3 SciPy 63
2.4.4 Matplotlib 63
2.4.5 Seaborn 64
2.4.6 Scikit–learn 64
2.4.7 TensorFlow 64
2.4.8 Keras 64
2.4.9 Theano 65
2.5 MAKİNE ÖĞRENMESİ SÜRECİ ÖRNEĞİ 65
2.6 PYTHONDA MAKİNE ÖĞRENMESİ İŞ AKIŞI 68
3. BÖLÜM
MODEL DEĞERLENDİRME VE PERFORMANS ÖLÇÜTLERİ
3.1 MODEL DEĞERLENDİRMEDE TEMEL KAVRAMLAR 73
3.2 SINIFLANDIRMA PERFORMANS ÖLÇÜTLERİ 76
3.2.1. Karışıklık Matrisi 76
3.2.2 Doğruluk Oranı (Accuracy) 80
3.2.3. Kesinlik 80
3.2.4. Duyarlılık (Hassasiyet) ya da Hatırlama (SensitivityRecall) 81
3.2.5. Özgüllük 82
3.2.6 F1 Puanı (F1 Score ya da F measure) 83
3.2.7 ROC Eğrisi ve AUC değeri 83
3.2.7.1 ROC Eğrisi 84
3.5.7.1 AUC değeri 85
3.2.8 LOGLOSS (Logaritmik Kayıp) 88
3.2.9 Kesinlik–Hatırlama Eğrisi 89
3.2.10 Ortalama Kesinlik (PR AUC puanı) 90
3.2.11 Sınıflandırma Raporu 90
3.2.12 Sınıflandırma Performans Ölçütleri Örneği 92
3.3. REGRESYON PERFORMANS ÖLÇÜTLERİ 95
3.3.1 Ortalama Mutlak Hata 96
3.3.2 Ortalama Karesel Hata 97
3.3.3 R Kare Puanı 97
3.3.4 Ayarlanmış R Kare (Adjusted R2) 98
3.3.5 Ortalama Logaritmik Karesel Hatası 98
3.3.6 Ortalama Mutlak Yüzde Hatası 99
3.3.7 Kök Ortalama Karesel Hata (Root Mean Squared Error–RMSE) 99
3.4 SINIFLANDIRMA PERFORMANS DEĞERLENDİRME ÖRNEĞİ 100
3.5 REGRESYON PERFORMANS DEĞERLENDİRME ÖRNEĞİ 106
3.6 PYTHON PROGRAMLAMA DİLİNDE ROC EĞRİSİNİ ÇİZDİRME ÖRNEĞİ 109
3.7 MLP SINIFLANDIRICI MODELİNDE ÇAPRAZ DOĞRULAMA ÖRNEĞİ 112
3.8 MLP REGRESÖR MODELİNDE ÇAPRAZ DOĞRULAMA ÖRNEĞİ 115
3.9 KÜMELEME PERFORMANS DEĞERLENDİRME ÖLÇÜTLERİ 117
3.9.1 Rand İndeksi 118
3.9.2 Siluet Katsayısı 120
3.9.3 Calinski–Harabasz İndeksi 120
3.9.4 Davies–Bouldin İndeksi 121
3.9.5 Karşılıklı Bilgi tabanlı Skor 122
3.10 KÜMELEME BAŞARIM ÖLÇÜTLERİ ÖRNEĞİ 122
3.11 KÜMELEME BAŞARIM ÖLÇÜTLERİ ÖRNEĞİ 2 125
3.12 KÜMELEME BAŞARIM ÖLÇÜTLERİ ÖRNEĞİ 3 127
4. BÖLÜM
VERİ HAZIRLAMA VE ÖZELLİK MÜHENDİSLİĞİ
4.1 GİRİŞ 131
4.2 VERİ BİLİMİ SÜRECİ 133
4.2.1 Veri toplama 134
4.2.2 Verilerin Hazırlanması 135
4.2.3 Veri Keşfi 136
4.2.4 Veri Modelleme 137
4.2.5 Veri sunumu 137
4.3 ÖZELLİK MÜHENDİSLİĞİ 138
4.3.1 Özellik Oluşturma 138
4.3.2 Veri Dönüşümleri 139
4.3.3 Özellik Çıkarma 139
4.3.4 Özellik Seçimi 139
4.3.4.1 Filtre Yöntemleri 140
4.3.4.2 Sarmalayıcı Yöntemler 141
4.3.4.3 Gömülü Yöntemler 142
4.4 ÖZELLİK MÜHENDİSLİĞİ TEKNİKLERİ 143
4.4.1 Yakıştırma 144
4.4.2 Aykırı Değerleri İşleme 145
4.4.3 Logaritma Dönüşümü 146
4.4.4 Seleleme 146
4.4.5 Bire Bir Kodlama 146
4.4.6 Özellikleri Bölme 147
4.4.7 Gruplama İşlemleri 147
4.4.8 Ölçeklendirme 147
4.4.9 Sayısal Özellikleri İşleme 148
4.4.9 Kategorik Özelliklerin İşlenmesi 149
4.4.10 Zamana dayalı özelliklerin işlenmesi 150
4.4.11 Metin özelliklerini işleme 150
4.5 PYTHON İLE ÖZELLİK MÜHENDİSLİĞİ 151
4.5.1 Veri Kümesini İçe Aktarma 151
4.5.2 Veri Kümesini Dışa Aktarma 154
4.5.3 Veri Seçimi 155
4.5.3 Verilerin Düzenlenmesi ve Temizlenmesi 157
4.5.3.1 Veri Çerçevelerinin Gruplandırılması 160
4.5.3.2 Veriler Çerçevelerinin Birleştirilmesi 161
4.5.3.3 Apply ve Map İşlevleri 162
4.5.4 Scikit–Learn Önişleme Alt Kütüphanesi 162
4.5.4.1 Normalizasyon ve Standardizasyon 163
4.5.4.2. Seleleme İşlemi 164
4.5.4.3. Kategorik Verileri Dönüştürme ve Kukla Değişken Oluşturma İşlemi 165
4.5.4.4. Tarih Özelliklerinden Bilgi Çıkarma 166
4.5.4.5. Kelime Sayısı ve Terim Frekansı Vektörlerini Oluşturma 168
4.5.5 Veri Kümesinde Boyut Azaltma 170
4.5.5.1. Temel Bileşen Analizi 170
4.5.5.2. Doğrusal Ayırma Analizi (LDA) 171
4.5.5.3. Ağaç Algoritmaları ile Özellik Seçimi 172
4.5.5.4. Özyinelemeli Özellik Eleme ile Özellik Seçimi 176
4.5.5.5. Tek Değişkenli Teknik ile Özellik Seçimi 177
4.6 VERİLERİN GÖRSELLEŞTİRİLMESİ 180
4.6.1 Matplotlib ile Grafik Oluşturma 181
4.6.1.1 Çizgi Grafik Oluşturma 181
4.6.1.2 Dağılım Grafiği Oluşturma 183
4.6.1.3 Çubuk Grafiği Oluşturma 185
4.6.1.4 Pasta Grafik Oluşturma 188
4.6.1.5 Histogram Grafiği Oluşturma 190
4.6.1.6 Kutu Grafiği Oluşturma 192
4.6.2 Seaborn ile grafik çizme 193
4.6.3 Pandas ile Grafik Çizme 199
4.7 VERİ DÜZENLEME ÖRNEĞİ 203
4.8 VERİ ÖNİŞLEME ÖRNEĞİ 206
4.9 VERİ KÜMESİNDEN ÖZELLİK SEÇME ÖRNEĞİ 210
4.10 VERİ GÖRSELLEŞTİRME ÖRNEĞİ 215
5. BÖLÜM
DENETİMLİ MAKİNE ÖĞRENMESİ ALGORİTMALARI
5.1 GİRİŞ 221
5.1.1 Denetimli Makine Öğrenmesi Modeli Geliştirme Süreci 222
5.1.2 Denetimli Makine Öğrenmesinde Temel Kavramlar 223
5.1.2.1 Genelleme 223
5.1.2.2 Aşırı Uyumlama 224
5.1.2.2.1. Aşırı uyumlamayı anlama 224
5.1.2.2.2. Aşırı uyumlamayı önleme 224
5.1.2.3 Yetersiz Uyumlama 225
5.1.2.3.1. Yetersiz uyumlamayı algılama 225
5.1.2.3.2. Yetersiz uyumlamayı önleme 226
5.1.2.4 Önyargı–Varyans Takası 226
5.2 VERİ KÜMESİ OLUŞTURMA 228
5.2.1 Sınıflandırma Veri Kümesi Oluşturma 229
5.2.1.1. Parametreler 229
5.2.1.2. Dönüş değerleri 230
5.2.1.1 Sınıflandırma Veri Kümesi Oluşturma Örneği 230
5.2.2 Regresyon Veri Kümesi Oluşturma 233
5.2.2.1. Parametreler 234
5.2.2.2. Dönüş değerleri 234
5.2.2.3 Regresyon Veri Kümesi Oluşturma Örneği 235
5.3 DENETİMLİ ÖĞRENME MODELLERİ 237
5.3.1 Sınıflandırma Modelleri 237
5.3.2 Regresyon Modelleri 239
5.4 DOĞRUSAL REGRESYON 240
5.4.1. Parametreler 242
5.4.2. Öznitelikler 242
5.4.1 Polinom Regresyon 246
5.4.2 Cezalandırılmış Regresyon 249
5.4.2.1 LASSO Regresyon 249
5.4.2.2 Ridge Regresyon 250
5.4.2.3 Elastik Ağ Regresyon 251
5.4.2.4 Lasso, Ridge, Elastik Ağ Regresyon Seçimi 253
5.4.3 Basit Doğrusal Regresyonun Avantajları ve Dezavantajları 257
5.5 LOJİSTİK REGRESYON 257
5.5.1. Parametreleri 260
5.5.2. Öznitelikleri 261
5.5.3 Lojistik Regresyonun Avantajları ve Dezavantajları 265
5.5.4 Çapraz Doğrulamalı Lojistik Regresyon 266
5.6 DESTEK VEKTÖR MAKİNELERİ 268
5.6.1 Destek Vektör Makinelerinin Bileşenleri 268
5.6.2 Destek Vektörlerinin Seçimi 270
5.6.3 Destek Vektör Makinelerinin Türleri 271
5.6.3.1 Basit veya Doğrusal Destek Vektör Makineleri 271
5.6.3.2 Çekirdek veya doğrusal olmayan Destek Vektör Makineleri 272
5.6.4 Destek Vektör Makinelerinde Çekirdek Fonksiyonları 272
5.6.4.1 Doğrusal Çekirdek Fonksiyonu 273
5.6.4.2 Polinom Çekirdek Fonksiyonu 273
5.6.4.3 Radyal Temelli Çekirdek Fonksiyonu 274
5.6.4.3 Sigmoid Çekirdek Fonksiyonu 274
5.6.5 Destek Vektör Makineleri ile Sınıflandırma 274
5.6.5.1. Parametreleri 275
5.6.5.2. Öznitelikler 276
5.6.5.3 SVC Çekirdek Fonksiyonlarının Etkileri Örneği 278
5.6.5.4 SVC ile Sınıflandırma Kalibrasyon Örneği 280
5.6.6 Destek Vektör Makineleri ile Regresyon 282
5.6.6.1 SVR Çekirdek Fonksiyonlarının Etkileri Örneği 284
5.6.6.2 SVR ile Regresyon ve Çapraz Doğrulama Örneği 286
5.6.7 Destek Vektör Makinelerinin Avantajları ve Dezavantajları 287
5.7 NAIVE BAYES ALGORİTMASI 288
5.7.1 Gauss Naive Bayes 290
5.7.2 Çok Terimli Naive Bayes 290
5.7.3 Bernoulli Naive Bayes 291
5.7.4 Pythondaki Naive Bayes Sınıflandırıcıları 291
5.7.4.1 Pythondaki Naive Bayes Sınıflandırıcıları Örneği 293
5.7.4.2 Gauss Naive Bayes Model Oluşturma Örneği 295
5.7.4.3 Scikit–learn ile Gauss Naive Bayes Sınıflandırıcı Örneği 297
5.7.5 Naive Bayes Sınıflandırıcıların Avantajları ve Dezavantajları 299
5.8 K EN YAKIN KOMŞULAR ALGORİTMASI 299
5.8.1 En Yakın Komşular Algoritmasında Mesafe Ölçütleri 301
5.8.2 KYK Veri Yapıları 303
5.8.3 KYK Algoritmasında k Değerinin Belirlenmesi 304
5.8.4 En Yakın Komşular Sınıflandırma 304
5.8.4.1 Parametreleri 305
5.8.4.2 Öznitelikleri 306
5.8.4.3 RadiusNeighborsClassifier’ın Parametreleri 307
5.8.4.4 RadiusNeighborsClassifier’ın Öznitelikleri 307
5.8.4.5 KYK Sınıflandırıcı Örneği 308
5.8.5 En Yakın Komşular Regresyonu 311
5.8.5.1 En Yakın Komşular Regresyon Örneği 312
5.8.6 En Yakın Komşular Algoritmasının Avantajları ve Dezavantajları 314
5.9 KARAR AĞACI ALGORİTMASI 315
5.9.1 Karar Ağacı Özellik Seçim Ölçütleri 317
5.9.1.1 Entropi 318
5.9.1.2 Bilgi Kazancı (Info Gain) 318
5.9.1.3 Gini Endeksi 319
5.9.1.4 Kazanç Oranı (Gain ratio) 319
5.9.1.5 Varyans Azaltma 319
5.9.1.6 Ki–Kare 320
5.9.2 Karar Ağacı Sınıflandırma 320
5.9.2.1 Parametreleri 321
5.9.2.2 Öznitelikleri 322
5.9.2.3 Karar Ağacı Sınıflandırıcı Örneği 323
5.9.3 Karar Ağacı Regresyonu 327
5.9.3.1 Karar Ağacı Regresyon Örneği 327
5.9.4 Karar Ağacı Algoritmasının Avantajları ve Dezavantajları 330
5.10 TOPLULUK YÖNTEMLERİ 331
5.10.1 Torbalama Topluluk Yöntemleri 332
5.10.1.1 Torbalama Meta Tahmincisi 333
5.10.1.2 Rastgele Orman 336
5.10.1.2.1 Rastgele Orman Algoritmasının Avantajları ve Dezavantajları 340
5.10.1.3 Ekstra Ağaçlar 341
5.10.2 Yükseltme Algoritmaları 343
5.10.2.1 Uyarlamalı Yükseltme Algoritması 344
5.10.2.2 Gradyan Yükseltme Algoritması 347
5.10.2.3 Aşırı Gradyan Yükseltme 350
5.10.2.4 Hafif Gradyan Yükseltme 354
5.10.2.5 Kategorik Gradyan Yükseltme 357
5.10.2.6 Histogram Tabanlı Gradyan Yükseltme 359
5.10.3 Çoğunluk Oylama Yöntemi 362
5.10.4 Yığınlama Yöntemi 366
5.10.5 Topluluk Yöntemleri Sınıflandırma Örneği 370
5.10.6 Topluluk Yöntemleri Regresyon Örneği 372
6. BÖLÜM
DENETİMSİZ MAKİNE ÖĞRENMESİ ALGORİTMALARI
6.1 GİRİŞ 377
6.1.1 Denetimsiz Makine Öğrenmesi Modeli Geliştirme Süreci 378
6.2 KÜMELEME MODELİ VERİ KÜMESİ HAZIRLAMA 379
6.2.1. Metodun Parametreleri 379
6.2.2 Metodun Dönüş değerleri 380
6.2.3 Kümeleme Veri Kümesi Oluşturma Örneği 380
6.3 KÜMELEME ALGORİTMALARI 382
6.3.1 K–Ortalamalar Kümeleme Algoritması 384
6.3.1.1 En Uygun K Küme Sayısının Dirsek Yöntemi ve Rand Endeksi ile Bulunması 388
6.3.1.2 K–ortalamalar Algoritmasının Avantajları ve Dezavantajları 391
6.3.2 K–Medoidler Kümeleme Algoritması 391
6.3.2.1 Parametreleri 393
6.3.2.2 Öznitelikleri 393
6.3.2.1 K–Medoidler Algoritmasının Avantajları ve Dezavantajları 395
6.3.3 DBSCAN Kümeleme Algoritması 396
6.3.3.1 DBSCAN Kümeleme Algoritmasının Avantajları ve Dezavantajları 400
6.3.4 OPTICS Kümeleme Algoritması 400
6.3.4.1 OPTICS Kümeleme Algoritmasının Avantajları ve Dezavantajları: 404
6.3.5 Aglomeratif Kümeleme Algoritması 405
6.3.6 BIRCH Kümeleme Algoritması 409
6.3.6.1 BIRCH Algoritmasının Avantajları ve Dezavantajları 412
6.3.7 Ortalama Kaydırma Kümeleme Algoritması 412
6.3.7.1 Ortalama Kaydırma Algoritmasının Avantajları ve Dezavantajları 415
6.3.8 Yakınlık Yayılımı Kümeleme Algoritması 415
6.3.8.1 Yakınlık Yayılımı Algoritmasının Avantajları ve Dezavantajları 419
6.3.9 Spektral kümeleme Algoritması 420
6.3.9.1 Spektral kümeleme Algoritmasının Avantajları ve Dezavantajları 422
6.3.10 Gauss Karışım Modeli Kümeleme Algoritması 423
6.3.10.1 Gauss Karışım Modellerinin Avantajları ve Dezavantajları 428
6.4 KÜMELEME ALGORİTMALARININ KARŞILAŞTIRILMASI ÖRNEĞİ 429
6.5 BOYUT AZALTMA 432
6.6 ANORMALLİK TESPİTİ 433
6.5.1 K–ortalamalar Algoritması ile Anormallik Tespiti 435
6.5.2 DBSCAN Algoritması ile Anormallik Tespiti 437
6.5.3 Gauss Karışım Modeli Algoritması ile Anormallik Tespiti 438
6.5.4 Yerel Aykırı Değer Faktörü Yöntemi ile Anormallik Tespiti 440
6.5.5 Yalıtım Ormanı Yöntemi ile Anormallik Tespiti 442
6.5.6 Eliptik Zarf Yöntemi ile Anormallik Tespiti 445
6.5.7 Tek Sınıflı Destek Vektör Makinesi Yöntemi ile Anormallik Tespiti 447
6.5.8 Çekirdek Yoğunluğu Tahmini Yöntemi ile Anormallik Tespiti 449
6.5.8 Anormallik Tespit Algoritmalarını Karşılaştırma Örneği 452
7. BÖLÜM PEKİŞTİRMELİ MAKİNE ÖĞRENMESİ 457
7.1 GİRİŞ 457
7.2 PEKİŞTİRMELİ ÖĞRENMENİN ÖĞELERİ 458
7.3 MARKOV SÜRECİ 461
7.3.1 Markov Özelliği 462
7.3.2 Markov Zinciri 462
7.3.3 Markov Ödül Süreci 463
7.3.4 Markov Karar Süreci 463
7.3.5 Geri Dönüş Faktörü 463
7.3.6 İndirim Faktörü 463
7.3.7 Politika Faktörü 464
7.3.8 Değer Fonksiyonu 464
7.3.9 Bellman Beklenti Denklemi 464
7.3.10 Durum Değer Fonksiyonu 464
7.3.11 Eylem Değeri Fonksiyonu 465
7.3.12 Politikaya göre Bellman Beklenti Denklemi 465
7.3.13 Optimal Değer Fonksiyonu 465
7.3.14 Bellman Optimallik Denklemi 466
7.4 PEKİŞTİRMELİ ÖĞRENME ALGORİTMALARI 466
7.4.1 Zaman Farkı Öğrenme 466
7.4.2 Q–Öğrenme 468
7.4.3 Yaklaşık Q–Öğrenme 471
7.4.4 Derin Q–Öğrenme 472
7.4.5 A3C Asenkron Avantaj Oyuncu Eleştirmeni 473
7.4.6 SARSA – Durum–Eylem–Ödül–Durum–Eylem 474
7.5 BASİT PEKİŞTİRİLMİŞ ÖĞRENME ÖRNEĞİ 474
7.6 BASİT Q–ÖĞRENME ÖRNEĞİ 477
7.7 PEKİŞTİRMELİ ÖĞRENMENİN AVANTAJLARI VE ZORLUKLARI 481
7.8 PEKİŞTİRİLMİŞ ÖĞRENME İLE DENETİMLİ VE DENETİMSİZ ÖĞRENME ARASINDAKİ FARKLAR 483
8. BÖLÜM
YARI DENETİMLİ MAKİNE ÖĞRENMESİ
8.1 GİRİŞ 485
8.2 YARI DENETİMLİ ÖĞRENMENİN ÇALIŞMASI 486
8.3 YARI DENETİMLİ ÖĞRENME ALGORİTMALARI 487
8.3.1 Kendi Kendine Eğitim Algoritması 488
8.3.2 Etiket Yayılımı Algoritması 489
8.3.3 Üretken Modeller Yöntemi 490
8.3.4 Birlikte eğitim Algoritması 490
8.4 PYTHON’DA YARI DENETİMLİ ÖĞRENME 491
8.4.1 Python’da Kendi Kendine Eğitim Algoritması 491
8.4.2 Python’da Etiket Yayılımı Algoritması 493
8.5 ETİKET YAYILIMI İLE YARI DENETİMLİ SINIFLANDIRMA ÖRNEĞİ 496
8.6 YARI DENETİMLİ ÖĞRENME AVANTAJLARI VE DEZAVANTAJLARI 498
Kaynakça 501
Kavram Dizini 513 |