Kriter

  • Açıklama :

Criteo Yükseltme Modelleme Veri Kümesi

Bu veri kümesi şu makaleyle birlikte yayınlanmıştır: “A Large Scale Benchmark for Uplift Modeling” Eustache Diemert, Artem Betlei, Christophe Renaudin; (Criteo AI Lab), Massih-Reza Amini (LIG, Grenoble INP)

Bu çalışma, KDD 2018 ile birlikte AdKDD 2018 Çalıştayı'nda yayınlandı.

Veri tanımlaması

Bu veri seti, popülasyonun rastgele bir bölümünün reklamlar tarafından hedef alınmasının engellendiği belirli bir rastgele deneme prosedürü olan çeşitli artımlılık testlerinden elde edilen verilerin bir araya getirilmesiyle oluşturulmuştur. her biri 11 özellik, bir tedavi göstergesi ve 2 etiket (ziyaretler ve dönüşümler) ile bir kullanıcıyı temsil eden 25 milyon satırdan oluşur.

Alanlar

Alanların ayrıntılı açıklaması (dosyada virgülle ayrılmışlardır):

  • f0, f1, f2, f3, f4, f5, f6, f7, f8, f9, f10, f11: özellik değerleri (yoğun, kayan nokta)
  • tedavi: tedavi grubu (1 = tedavi edildi, 0 = kontrol)
  • dönüşüm: bu kullanıcı için bir dönüşüm olup olmadığı (ikili, etiket)
  • ziyaret: bu kullanıcı için bir ziyaretin gerçekleşip gerçekleşmediği (ikili, etiket)
  • maruz kalma: tedavi etkisi, kullanıcının etkin bir şekilde maruz kalıp kalmadığı (ikili)

Önemli noktalar

  • Biçim: CSV
  • Boyut: 459MB (sıkıştırılmış)
  • Satır: 25.309.483
  • Ortalama Ziyaret Oranı: .04132
  • Ortalama Dönüşüm Oranı: .00229
  • Tedavi Oranı: .846

Görevler

Veri seti, ana görev olarak artış tahmini göz önünde bulundurularak toplandı ve hazırlandı. Ek olarak, bunlarla sınırlı olmamak üzere aşağıdakiler gibi ilgili kullanımları öngörebiliriz:

Bölmek Örnekler
'train' 13.979.592
  • Özellik yapısı :
FeaturesDict({
    'conversion': tf.bool,
    'exposure': tf.bool,
    'f0': tf.float32,
    'f1': tf.float32,
    'f10': tf.float32,
    'f11': tf.float32,
    'f2': tf.float32,
    'f3': tf.float32,
    'f4': tf.float32,
    'f5': tf.float32,
    'f6': tf.float32,
    'f7': tf.float32,
    'f8': tf.float32,
    'f9': tf.float32,
    'treatment': tf.int64,
    'visit': tf.bool,
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
ÖzelliklerDict
dönüştürmek tensör tf.bool
maruziyet tensör tf.bool
f0 tensör tf.float32
f1 tensör tf.float32
f10 tensör tf.float32
f11 tensör tf.float32
f2 tensör tf.float32
f3 tensör tf.float32
f4 tensör tf.float32
f5 tensör tf.float32
f6 tensör tf.float32
f7 tensör tf.float32
f8 tensör tf.float32
f9 tensör tf.float32
tedavi tensör tf.int64
ziyaret etmek tensör tf.bool
  • Denetlenen anahtarlar (Bkz as_supervised doc ): ({'exposure': 'exposure', 'f0': 'f0', 'f1': 'f1', 'f10': 'f10', 'f11': 'f11', 'f2': 'f2', 'f3': 'f3', 'f4': 'f4', 'f5': 'f5', 'f6': 'f6', 'f7': 'f7', 'f8': 'f8', 'f9': 'f9', 'treatment': 'treatment'}, 'visit')

  • Şekil ( tfds.show_examples ): Desteklenmez.

  • Örnekler ( tfds.as_dataframe ):

  • alıntı :
@inproceedings{Diemert2018,
author = { {Diemert Eustache, Betlei Artem} and Renaudin, Christophe and Massih-Reza, Amini},
title={A Large Scale Benchmark for Uplift Modeling},
publisher = {ACM},
booktitle = {Proceedings of the AdKDD and TargetAd Workshop, KDD, London,United Kingdom, August, 20, 2018},
year = {2018}
}