קריטיאו

  • תיאור :

ערכת נתונים של Criteo Uplift Modeling

מערך נתונים זה שוחרר יחד עם המאמר: "A Large Scale Benchmark for Uplift Modeling" Eustache Diemert, Artem Betlei, Christophe Renaudin; (Criteo AI Lab), Massih-Reza Amini (LIG, Grenoble INP)

עבודה זו פורסמה ב: AdKDD 2018 Workshop, בשיתוף עם KDD 2018.

תיאור הנתונים

מערך נתונים זה נבנה על ידי הרכבת נתונים הנובעים ממספר מבחני אינקרמנטליות, הליך ניסוי אקראי מסוים שבו חלק אקראי מהאוכלוסייה מונע ממוקד על ידי פרסום. הוא מורכב מ-25 מיליון שורות, כל אחת מייצגת משתמש עם 11 תכונות, מחוון טיפול ו-2 תוויות (ביקורים והמרות).

שדות

להלן תיאור מפורט של השדות (הם מופרדים בפסיקים בקובץ):

  • f0, f1, f2, f3, f4, f5, f6, f7, f8, f9, f10, f11: ערכי תכונה (צפוף, צף)
  • טיפול: קבוצת טיפול (1 = מטופל, 0 = ביקורת)
  • המרה: האם התרחשה המרה עבור משתמש זה (בינארי, תווית)
  • ביקור: האם התרחש ביקור עבור משתמש זה (בינארי, תווית)
  • חשיפה: השפעת הטיפול, האם המשתמש נחשף ביעילות (בינארי)

דמויות מפתח

  • פורמט: CSV
  • גודל: 459MB (דחוס)
  • שורות: 25,309,483
  • שיעור ביקור ממוצע: .04132
  • שיעור המרה ממוצע: .00229
  • יחס טיפול: .846

משימות

מערך הנתונים נאסף והוכן מתוך מחשבה על חיזוי העלאה כמשימה העיקרית. בנוסף אנו יכולים לחזות שימושים קשורים כגון אך לא רק:

לְפַצֵל דוגמאות
'train' 13,979,592
  • מבנה תכונה :
FeaturesDict({
    'conversion': bool,
    'exposure': bool,
    'f0': float32,
    'f1': float32,
    'f10': float32,
    'f11': float32,
    'f2': float32,
    'f3': float32,
    'f4': float32,
    'f5': float32,
    'f6': float32,
    'f7': float32,
    'f8': float32,
    'f9': float32,
    'treatment': int64,
    'visit': bool,
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
הֲמָרָה מוֹתֵחַ bool
חשיפה מוֹתֵחַ bool
f0 מוֹתֵחַ לצוף32
f1 מוֹתֵחַ לצוף32
f10 מוֹתֵחַ לצוף32
f11 מוֹתֵחַ לצוף32
f2 מוֹתֵחַ לצוף32
f3 מוֹתֵחַ לצוף32
f4 מוֹתֵחַ לצוף32
f5 מוֹתֵחַ לצוף32
f6 מוֹתֵחַ לצוף32
f7 מוֹתֵחַ לצוף32
f8 מוֹתֵחַ לצוף32
f9 מוֹתֵחַ לצוף32
יַחַס מוֹתֵחַ int64
לְבַקֵר מוֹתֵחַ bool
  • מפתחות בפיקוח (ראה as_supervised doc ): ({'exposure': 'exposure', 'f0': 'f0', 'f1': 'f1', 'f10': 'f10', 'f11': 'f11', 'f2': 'f2', 'f3': 'f3', 'f4': 'f4', 'f5': 'f5', 'f6': 'f6', 'f7': 'f7', 'f8': 'f8', 'f9': 'f9', 'treatment': 'treatment'}, 'visit')

  • איור ( tfds.show_examples ): לא נתמך.

  • דוגמאות ( tfds.as_dataframe ):

  • ציטוט :
@inproceedings{Diemert2018,
author = { {Diemert Eustache, Betlei Artem} and Renaudin, Christophe and Massih-Reza, Amini},
title={A Large Scale Benchmark for Uplift Modeling},
publisher = {ACM},
booktitle = {Proceedings of the AdKDD and TargetAd Workshop, KDD, London,United Kingdom, August, 20, 2018},
year = {2018}
}