- Açıklama :
Criteo Yükseltme Modelleme Veri Kümesi
Bu veri kümesi şu makaleyle birlikte yayınlanmıştır: “A Large Scale Benchmark for Uplift Modeling” Eustache Diemert, Artem Betlei, Christophe Renaudin; (Criteo AI Lab), Massih-Reza Amini (LIG, Grenoble INP)
Bu çalışma, KDD 2018 ile birlikte AdKDD 2018 Çalıştayı'nda yayınlandı.
Veri tanımlaması
Bu veri seti, popülasyonun rastgele bir bölümünün reklamlar tarafından hedef alınmasının engellendiği belirli bir rastgele deneme prosedürü olan çeşitli artımlılık testlerinden elde edilen verilerin bir araya getirilmesiyle oluşturulmuştur. her biri 11 özellik, bir tedavi göstergesi ve 2 etiket (ziyaretler ve dönüşümler) ile bir kullanıcıyı temsil eden 25 milyon satırdan oluşur.
Alanlar
Alanların ayrıntılı açıklaması (dosyada virgülle ayrılmışlardır):
- f0, f1, f2, f3, f4, f5, f6, f7, f8, f9, f10, f11: özellik değerleri (yoğun, kayan nokta)
- tedavi: tedavi grubu (1 = tedavi edildi, 0 = kontrol)
- dönüşüm: bu kullanıcı için bir dönüşüm olup olmadığı (ikili, etiket)
- ziyaret: bu kullanıcı için bir ziyaretin gerçekleşip gerçekleşmediği (ikili, etiket)
- maruz kalma: tedavi etkisi, kullanıcının etkin bir şekilde maruz kalıp kalmadığı (ikili)
Önemli noktalar
- Biçim: CSV
- Boyut: 459MB (sıkıştırılmış)
- Satır: 25.309.483
- Ortalama Ziyaret Oranı: .04132
- Ortalama Dönüşüm Oranı: .00229
- Tedavi Oranı: .846
Görevler
Veri seti, ana görev olarak artış tahmini göz önünde bulundurularak toplandı ve hazırlandı. Ek olarak, bunlarla sınırlı olmamak üzere aşağıdakiler gibi ilgili kullanımları öngörebiliriz:
- nedensel çıkarım için kriter
- yükselme modellemesi
- özellikler ve tedavi arasındaki etkileşimler
- tedavinin heterojenliği
gözlemsel nedensellik yöntemleri için kıyaslama
Ana sayfa : https://ailab.criteo.com/criteo-uplift-prediction-dataset/
Kaynak kodu :
tfds.recommendation.criteo.Criteo
Sürümler :
-
1.0.0
(varsayılan): İlk sürüm.
-
İndirme boyutu :
297.00 MiB
Veri kümesi boyutu :
3.55 GiB
Otomatik önbelleğe alınmış ( belgeler ): Hayır
Bölmeler :
Bölmek | Örnekler |
---|---|
'train' | 13.979.592 |
- Özellik yapısı :
FeaturesDict({
'conversion': tf.bool,
'exposure': tf.bool,
'f0': tf.float32,
'f1': tf.float32,
'f10': tf.float32,
'f11': tf.float32,
'f2': tf.float32,
'f3': tf.float32,
'f4': tf.float32,
'f5': tf.float32,
'f6': tf.float32,
'f7': tf.float32,
'f8': tf.float32,
'f9': tf.float32,
'treatment': tf.int64,
'visit': tf.bool,
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtype | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
dönüştürmek | tensör | tf.bool | ||
maruziyet | tensör | tf.bool | ||
f0 | tensör | tf.float32 | ||
f1 | tensör | tf.float32 | ||
f10 | tensör | tf.float32 | ||
f11 | tensör | tf.float32 | ||
f2 | tensör | tf.float32 | ||
f3 | tensör | tf.float32 | ||
f4 | tensör | tf.float32 | ||
f5 | tensör | tf.float32 | ||
f6 | tensör | tf.float32 | ||
f7 | tensör | tf.float32 | ||
f8 | tensör | tf.float32 | ||
f9 | tensör | tf.float32 | ||
tedavi | tensör | tf.int64 | ||
ziyaret etmek | tensör | tf.bool |
Denetlenen anahtarlar (Bkz
as_supervised
doc ):({'exposure': 'exposure', 'f0': 'f0', 'f1': 'f1', 'f10': 'f10', 'f11': 'f11', 'f2': 'f2', 'f3': 'f3', 'f4': 'f4', 'f5': 'f5', 'f6': 'f6', 'f7': 'f7', 'f8': 'f8', 'f9': 'f9', 'treatment': 'treatment'}, 'visit')
Şekil ( tfds.show_examples ): Desteklenmez.
Örnekler ( tfds.as_dataframe ):
- alıntı :
@inproceedings{Diemert2018,
author = { {Diemert Eustache, Betlei Artem} and Renaudin, Christophe and Massih-Reza, Amini},
title={A Large Scale Benchmark for Uplift Modeling},
publisher = {ACM},
booktitle = {Proceedings of the AdKDD and TargetAd Workshop, KDD, London,United Kingdom, August, 20, 2018},
year = {2018}
}