İnsan Analitiğinde Sorunlar: Imbalance Data (Dengesiz Veri Setleri)

27-02-2026 İK Analitik ve Dijital İnsan Kaynakları HrAnalitik.com

İK Analitiğinde Imbalanced Data (Dengesiz Veri) 

Nedir?
İnsan Kaynaklarında analitik çalışmalar yaparken sıkça karşılaştığımız kavramlardan biri imbalanced data, yani dengesiz veridir.
Basitçe anlamı; bir veri setinde bazı gruplar çok fazlayken, bazı gruplar çok az sayıdaysa, bu veri dengesiz bir veridir. 
Örneğin 1000 çalışanı olan bir şirkette; 
Mevcut çalışan : 950 kişi yani “%95 çalışanlar”; 
Ayrılanlar: 50 kişi yani “%5 ayrılanlar”  ise bu veri seti **imbalanced data (dengesiz veri)**dir. Çünkü modelin gördüğü kayıtların büyük kısmı tek bir gruba aittir.


Neden Önemli?
Imbalanced data, İK analitiğinde en sık yapılan hataların kaynağıdır. Çünkü veriler dengesiz olduğunda, model çoğunluğu öğrenir ve az olanı görmezden gelme eğiliminde olur. 
Bu durumda;
• Model çok başarılı görünebilir ama ayrılacak kişileri yakalayamaz,
• “Kimler işten ayrılabilir?” sorusuna güvenilir ve doğru cevap veremez,
• İK’nın aksiyon alabileceği gerçek riskli kişiler gözden kaçabilir,
• Sonuçta analitik var gibi görünür ama işe yarayan bir içgörü üretilmez.
Daha da önemlisi, yanlış yorumlanan bir model; 
• Yanlış kişilere müdahale edilmesine,
• Gereksiz tutundurma maliyetlerine,
• Asıl kritik yeteneklerin fark edilmeden kaybedilmesine neden olabilir.
Bu yüzden imbalanced data konusu, doğrudan İK kararlarını ve bütçeyi etkileyen bir konudur.
Dengesiz Veride Kullanılan Kritik Performans Metrikleri 
Dengesiz veri setlerinde (örneğin çalışanların yalnızca küçük bir kısmının ayrıldığı turnover projelerinde) klasik performans metrikleri yanıltıcı olabilir. Bu nedenle doğru metriklere odaklanmak kritik önem taşır. 

 

  1. Accuracy (Doğruluk) : Accuracy, modelin toplam tahminlerinin ne kadarının doğru olduğunu gösterir. Ancak dengesiz veri setlerinde tek başına anlamlı değildir. Örneğin çalışanların %95’inin çalıştığı ve % 5 ‘nin ayrıldığı bir veri setine göre ; Herkesi “ayrılmayacak” olarak tahmin eden bir model, %95 Accuracy elde eder. İK açısından bu model;  Riskli çalışanları tespit edemez, Sürpriz istifaları önleyemez, Stratejik değer üretmez.Bu nedenle dengesiz veri problemlerinde accuracy yerine, azınlık sınıfını (ayrılan çalışanları) ne kadar iyi yakalayabildiğimizi gösteren metriklere odaklanmak gerekir.
  2. Recall (Yakalama Oranı) :  Gerçekten ayrılan(Positive sınıf) çalışanların kaçını doğru şekilde “riskli” olarak yakaladım? Sorusunda cevap verir.  Formül olarak: Recall = TP / (TP + FN)  TP (True Positive): Gerçekten ayrılan ve doğru riskli tahmin edilen çalışanlar,FN (False Negative): Ayrıldığı halde modelin riskli demediği çalışanlar. Recall yüksekse; Ayrılacak çalışanları kaçırma oranı düşer. Sürpriz istifalar azalır. Kritik yetenek kayıpları önceden fark edilebilir. İK projelerinde genellikle kaçırmamak önceliklidir. Bu nedenle turnover projelerinde recall çoğu zaman kritik bir metriktir. 
  3. Precision (İsabet Oranı) : Riskli dediğim çalışanların kaçı gerçekten ayrıldı? Sorusuna cevap verir. Formül olarak: Precision = TP / (TP + FP)           
  4. TP (True Positive): Gerçekten ayrılan ve doğru şekilde riskli tahmin edilen çalışanlar
  5. FP (False Positive): Gerçekte ayrılmayacakken modelin riskli olarak işaretlediği çalışanlar.

Precision yüksekse; Yanlış alarm sayısı azalır. Gereksiz tutundurma maliyetine girilmez. Güvenilir bir risk listesi oluşur.
Model performansında hangi metriğin öncelikli olacağı tamamen stratejik hedefe bağlıdır.
“Ayrılacak kimseyi kaçırmayayım” diyorsak → Recall öncelikli
“Yanlış alarm üretmeyeyim” diyorsak → Precision öncelikli


En sağlıklı yaklaşım çoğu zaman bu iki metriğin dengeli değerlendirilmesidir. Bunu da F1 Score ile yapabiliriz. 
F1-Score: Denge Noktası
F1-Score, Precision ve Recall’un harmonik ortalamasıdır.
Formül olarak: F1 = 2 × (Precision × Recall) / (Precision + Recall)
•    Precision çok yüksek ama Recall çok düşükse, 
•    Ya da Recall çok yüksek ama Precision çok düşükse F1-Score yüksek çıkmaz.
F1-Score ise; Modelin hem kaçırmadan hem de gereksiz alarm üretmeden ne kadar dengeli çalıştığını söyler. 
Turnover gibi dengesiz veri problemlerinde:
•    Sadece Recall’a bakmak modeli aşırı alarm üretmeye itebilir.
•    Sadece Precision’a bakmak ise kritik çalışanları kaçırmaya neden olabilir. 
•    F1-Score bu iki risk arasında bir denge sağlar.


Confusion Matrix: Bu metrikleri (Recall, Precision, F1) gerçekten anlamlı kılan yapı Confusion Matrix’tir. Confusion Matrix, modelin tahminlerini 4 temel kategoriye ayırır: 
Kaç kişiyi doğru yakaladın? (TP)
 Kaç kişiyi kaçırdun? (FN) 
Kaç kişiye boşuna risk dedin? (FP) 
Kaç kişiyi doğru şekilde risksiz gördün? (TN)
Model performansı tek bir skor değil, bu dört hücrenin dengesiyle anlam kazanır.


İK Analitiğinde Dengesiz Veriyle Karşılaşıldığında Teknik Olarak Neler Yapılabilir?


Dengesiz veri tespit edildiğinde, genellikle aşağıdaki teknikler kullanılır. Bunlar vb. teknikler doğru şekilde uygulandığında, model hem azınlık sınıfı daha iyi öğrenir hem de İK kararları daha güvenilir hale gelir.
Senaryo 1 – SMOTE ile Azınlık Sınıfını Arttırma (Oversampling)
Bir şirkette 950 çalışan ve 50 ayrılan olduğunu düşünelim. Model bu veriyi olduğu gibi kullandığında, ayrılan çalışanları temsil eden sınıf çok küçük olduğu için bu davranışları yeterince öğrenemez. SMOTE yöntemi ise azınlık sınıfına (ayrılanlar) yapay fakat istatistiksel olarak tutarlı örnekler ekleyerek veriyi dengeler ve modelin ayrılma sinyallerini daha iyi yakalamasını sağlar. Ancak bu yöntem her zaman tercih edilmez; çünkü üretilen yapay örnekler gerçek çalışan davranışını bozabilir, overfitting riskini artırabilir ve özellikle ayrılma oranının düşük olduğu yapılarda modeli gerçek dünyadan uzaklaştırarak gereksiz sayıda ayrılma alarmı üretmesine yol açabilir. Ancak SMOTE, her dengesiz İK verisi için standart bir çözüm değil; ayrılma davranışının örüntü içerdiği, erken risk tespitinin hedeflendiği ve model çıktısının destekleyici karar mekanizmalarında kullanıldığı durumlarda tercih edilmesi gereken bir tekniktir.
Senaryo 2 – Class Weight: Az Sınıfa Daha Fazla Ağırlık Verme
Bazı durumlarda veri çoğaltmak yerine, modelin iç ayarları değiştirilir. Azınlık sınıfına daha yüksek bir weight verilir. Bu sayede model az sınıfı daha ciddiye alır.
Bu yaklaşım özellikle; Performans değerlendirme dönemleri, Ücret artış döngüleri, Vardiya, iş yükü veya adalet algısının değiştiği zamanlar vb.  gibi belirli dönemlerde artan istifa risklerini daha gerçekçi biçimde modellemeye yardımcı olur. 
Ancak class weight yaklaşımı da her senaryo için ideal değildir. Azınlık sınıfına verilen ağırlık çok yükseltildiğinde model aşırı duyarlı hale gelebilir ve bu durum, gerçekte ayrılma riski düşük olan çalışanların da riskli olarak etiketlenmesine yol açabilir. Bu nedenle ağırlıkların dikkatli ayarlanması ve model çıktılarının iş bağlamında yorumlanması gerekir. 
Bu yaklaşım özellikle Logistic Regression, Random Forest, XGBoost gibi algoritmalar kullanıldığında, SMOTE’a göre daha güvenli ve daha sade bir çözüm sunar.
Senaryo 3 – Segment Bazlı Modelleme 
Bazı durumlarda dengesiz veri problemi, tek bir modelle çözülemeyecek kadar yapısaldır. Çünkü şirket genelinde bakıldığında çalışanlar tek tip davranmaz; departmanlar, roller veya lokasyonlar arasında ayrılma dinamikleri ciddi biçimde farklılaşabilir. Bu gibi durumlarda tüm şirket için tek bir model kurmak, önemli sinyallerin kaybolmasına neden olabilir.


Örneğin bir şirkette: IT departmanında ayrılma oranı %20, Satışta %12, Operasyonda ise yalnızca %5 seviyesindeyse,
bu üç grubun aynı model altında değerlendirilmesi, özellikle ayrılma oranı düşük olan segmentlerde modelin davranışı bastırmasına yol açar. Segment bazlı modelleme yaklaşımında ise her departman veya anlamlı çalışan grubu için ayrı modeller kurularak, her segmentin kendi gerçekliği içinde öğrenmesi sağlanır.
Bu sayede:
•    Departmanlara özgü ayrılma nedenleri (Örneğin; IT’de iş yükü, satışta prim yapısı, operasyonda vardiya düzeni) daha net ortaya çıkar,
•    Tek ve genel bir modelin kaçırdığı detaylı örüntüler görünür hale gelir,
•    Her segmente özel ve daha hedefli tutundurma (retention) stratejileri geliştirilebilir.


Segment bazlı modelleme, dengesiz veri problemini doğrudan “sayısal dengeleme” ile değil, iş bağlamını doğru ayırarak çözmeyi hedefler. Böylece model, birbirinden çok farklı davranış gösteren çalışan gruplarını tek bir ortalamaya sıkıştırmak yerine, her grubu kendi koşulları içinde anlamlandırır.
Sonuç olarak; 
İK analitiğinde imbalanced data (dengesiz veri) konusu yalnızca teknik bir modelleme problemi değildir; doğrudan İK’nın aldığı kararların doğruluğunu, zamanlamasını ve maliyetini etkileyen kritik bir faktördür. Dengesiz veriyle kurulan modeller çoğu zaman istatistiksel olarak “başarılı” görünse de, ayrılma riski taşıyan çalışanları yakalayamıyorsa bu başarı İK açısından gerçek bir değer üretmez.
Bu nedenle, yüksek doğruluk (accuracy) tek başına yeterli bir gösterge değildir. İK analitiğinde asıl önemli olan;
•    Gerçekten riskli olan çalışanları ne ölçüde yakalayabildiğimiz (Recall),
•    Riskli dediğimiz kişilerin ne kadarının gerçekten risk taşıdığı (Precision),
•    Bu iki metriğin dengeli performansını gösteren (F1-Score),
•    Ve tüm bu metriklerin Confusion Matrix üzerinden birlikte değerlendirilmesidir.
F1-Score burada kritik bir denge göstergesidir.
Modelin yalnızca “kaçırmama” ya da yalnızca “yanlış alarm üretmeme” performansını değil; bu iki boyut arasında ne kadar dengeli çalıştığını ortaya koyar.


SMOTE, class weight ve segment bazlı modelleme gibi yaklaşımlar, doğru senaryoda ve doğru amaçla kullanıldığında modeli matematiksel olarak iyileştirmenin ötesine geçerek İK için anlamlı ve aksiyona dönüşebilir içgörüler üretir.

Buradaki kritik nokta, tek bir “doğru teknik” aramak değil; şirketin yapısına, ayrılma dinamiklerine ve alınacak İK kararlarının niteliğine en uygun yaklaşımı seçmektir.
İyi bir İK analitiği modeli;
•    Sadece doğru tahmin yapan değil,
•    İK’nın gerçekten müdahale edebileceği kişileri zamanında ve güvenilir şekilde işaretleyen,
•    Karar süreçlerini destekleyen ve kaynakların doğru yere yönlendirilmesini sağlayan bir modeldir.
Bu bakış açısıyla ele alınan imbalanced data problemleri, İK analitiğini “raporlama yapan” bir yapıdan çıkarıp, stratejik karar destek mekanizmasına dönüştürür.

Not:Bu yazı HrAnalitik.com üzerinde yayınlanmış; Zeynep Taner tarafından yazılmıştır. Yazarımıza değerli katkıları için teşekkür ediyoruz.

Sizler de insan analitiği başlığında yazılarınızı info@HrAnalitik.com adresine Editor konu başlığı ile iletebilirsiniz. 

HrAnalitik.com

HrAnalitik.com

Tüm Yazıları