Datametri Logo
01
I. Davranışsal Kalite Kontrol ve Katılımcı Validasyonu
Logical Consistency Alluvial Analysis
"Katılımcıların Mantıksal Bütünlüğünü Algoritmalarla Test Edin"

Özellikle anket tabanlı pazar araştırmalarında ve sosyal bilimler projelerinde, insan faktöründen (respondent bias) kaynaklanan hata varyansının izole edilmesi kritik bir aşamadır. Standart yazılımların tespit edemediği, katılımcının birbiriyle mantıksal olarak ilişkili veya birbirini dışlayan (mutually exclusive) sorulara verdiği koşullu çelişkileri deterministik algoritmalarla saptıyoruz.

Bu Analiz Hangi Sorularınıza Cevap Verir?
  • Katılımcılar araştırma kurgusunu gerçekten anlayarak mı yanıtlıyor, yoksa soruları okumadan stratejik (speeder/straightliner) mi ilerliyor?
  • Veri setimde, genel analiz sonuçlarını manipüle edecek düzeyde içsel çelişkiye sahip ne kadar katılımcı var?
Araştırmacıya Sağlayacağı Ek Fayda

Pazar dinamiklerini okurken veya yeni bir ürün konumlandırırken, birbiriyle çelişen tüketici beyanları üzerinden alınan stratejik kararların maliyeti çok yüksektir. Bu analiz, içgörülerinizi (insights) yalnızca kendi içinde %100 mantıksal tutarlılığa sahip, doğrulanmış "gerçek" hedef kitle verisi üzerine inşa etmenizi sağlar.

Alluvial Diyagramı: Mantıksal Bütünlük
Sunulan Alluvial (akış) diyagramı, katılımcıların birbiriyle mantıksal bağımlılığı bulunan iki değişken arasındaki geçiş (transition) frekanslarını haritalandırır. Örneğin, "Ehliyeti Yok" beyanında bulunan bir alt grubun, takip eden aşamada "Araç Kullanıyor" seçeneğine yönelmesi algoritmik olarak saptanmıştır. Bu deterministik kuralı ihlal eden gözlemler (kırmızı akış bandı), analiz havuzundan izole edilir.
02
II. Yapısal ve İstatistiksel Kalite Kontrol Modülleri
MICE Imputation Outlier Detection

Davranışsal olarak doğrulanan veri setinin, ileri istatistiksel analizlerin ve makine öğrenimi modellerinin matematiksel varsayımlarına (normallik, homojenlik, doğrusallık) uygun hale getirilmesi (Data Transformation) aşamasıdır.

A. Eksik Veri Patern Analizi ve İleri Atama (MICE)

"Kayıp Verilerin İstatistiksel Anatomisini Çözün"

Verisetindeki eksik gözlemlerin rastgelelik durumu (MCAR, MAR, MNAR) istatistiksel testlerle değerlendirilir. Veri kaybı, geleneksel "ortalama atama" gibi varyansı bozan yöntemler yerine, veri setinin çok değişkenli kovaryans yapısını koruyan algoritmalar (MICE, Random Forest Imputation) kullanılarak bilimsel bir şekilde tamamlanır.

Hangi Sorularınıza Cevap Verir?
  • Veri kaybım tesadüfi mi gelişmiştir, yoksa ölçüm sürecindeki sistematik bir hatanın (bias) yansıması mıdır?
  • Eksik satırları tamamen silmek (listwise deletion), istatistiksel gücümüzü düşürüp sonuçları manipüle eder mi?
Eksik Veri Patern Matrisi
Matris görseli (aggregation plot), eksik verilerin rastgele mi dağıldığını yoksa belirli değişkenlerde sistematik bir kümelenme mi (pattern) yarattığını yansıtır. Kırmızı ile vurgulanan hücre blokları eksikliklerin birbiriyle olan korelasyonunu kanıtlar.

B. Çok Değişkenli Aykırı Değer Tespiti (Mahalanobis Distance)

Tek değişkenli aykırı değer analizlerinin (örneğin Boxplot) yetersiz kaldığı kompleks, çok boyutlu veri setlerinde, değişkenler arası korelasyonları hesaba katan algoritmalar ile yapısal anomaliler (outliers) tespit edilir ve izole edilir.

Sağlayacağı Ek Fayda

Regresyon ve makine öğrenimi modellerinin varyansının lüzumsuz yere şişmesini (leverage effect) engelleyerek, tahmin performansının (predictive accuracy) dramatik şekilde artmasını sağlar.

Çok Değişkenli Aykırı Değer Tespiti

C. İstatistiksel Dağılım ve Varyans Homojenliği

Parametrik testlerin ve doğrusal modellerin temel varsayımı olan normal dağılımın incelenmesi ve normallikten sapan verilerin ileri istatistiksel dönüşümler (Box-Cox, Yeo-Johnson) ile modellere uygun hale getirilmesi sürecidir.

Dağılım ve Q-Q Grafiği

D. Veri Sınıf Dengesizliği ve Yapay Gözlem (SMOTE / ROSE)

"Nadir Olayları Tahmin Etmek İçin Veri Setinizi Eğitime Hazırlayın"

Özellikle müşteri kaybı (churn), kredi temerrüdü veya nadir hastalıklar gibi olayların incelendiği durumlarda karşılaşılan "sınıf dengesizliği" (class imbalance) probleminin (örneğin %95 başarılı, %5 başarısız işlem), sentetik veri üretimi (Synthetic Minority Over-sampling Technique) ile dengelenmesi işlemidir.

Sağlayacağı Ek Fayda

Makine öğrenimi algoritmalarında sıkça yaşanan "Doğruluk Paradoksu"nu (Accuracy Paradox) önler. Sistemin sadece "genel eğilimi" değil, kuruma en çok zarar verebilecek "nadir ve riskli olayları" da yüksek isabetle (precision/recall) tahmin etmesini güvence altına alır.

SMOTE Sentetik Veri Dağılımı
Orijinal veri dağılımında (sol panel) azınlık sınıfının (minority class) veri havuzunda ne kadar baskılandığı görülmektedir. Sentetik genişletme (oversampling) işlemi sonrası (sağ panel), azınlık sınıfının bilgi yapısı korunarak veri seti dengeli bir forma (balanced) kavuşturulmuştur.

Veri Setinizi Makine Öğrenimine Hazırlayalım

Ham verilerinizdeki (raw data) mantıksal tutarsızlıkları, kayıp değerleri ve uç değer anomalilerini literatüre uygun yöntemlerle tespit edip temizleyerek analizlerinize güvenilir bir temel oluşturalım.