criteo

  • Descripción :

Conjunto de datos de modelado Criteo Uplift

Este conjunto de datos se publica junto con el artículo: “A Large Scale Benchmark for Uplift Modeling” Eustache Diemert, Artem Betlei, Christophe Renaudin; (Criteo AI Lab), Massih-Reza Amini (LIG, INP de Grenoble)

Este trabajo fue publicado en: AdKDD 2018 Workshop, en conjunto con KDD 2018.

Descripción de datos

Este conjunto de datos se construye reuniendo los datos resultantes de varias pruebas de incrementalidad, un procedimiento de ensayo aleatorio particular en el que se evita que una parte aleatoria de la población sea el objetivo de la publicidad. consta de 25M filas, cada una representando un usuario con 11 características, un indicador de tratamiento y 2 etiquetas (visitas y conversiones).

Campos

Aquí hay una descripción detallada de los campos (están separados por comas en el archivo):

  • f0, f1, f2, f3, f4, f5, f6, f7, f8, f9, f10, f11: valores característicos (denso, flotante)
  • tratamiento: grupo de tratamiento (1 = tratado, 0 = control)
  • conversión: si se produjo una conversión para este usuario (binario, etiqueta)
  • visita: si se produjo una visita para este usuario (binario, etiqueta)
  • exposición: efecto del tratamiento, si el usuario ha estado efectivamente expuesto (binario)

Figuras claves

  • Formato: CSV
  • Tamaño: 459 MB (comprimido)
  • Filas: 25.309.483
  • Tasa promedio de visitas: .04132
  • Tasa de conversión promedio: .00229
  • Relación de tratamiento: .846

Tareas

El conjunto de datos se recopiló y preparó teniendo en cuenta la predicción del levantamiento como tarea principal. Además, podemos prever usos relacionados como, entre otros:

  • punto de referencia para la inferencia causal
  • modelado de elevación
  • interacciones entre las características y el tratamiento
  • heterogeneidad del tratamiento
  • punto de referencia para los métodos de causalidad observacional

  • Página de inicio: https://ailab.criteo.com/criteo-uplift-prediction-dataset/

  • Código fuente : tfds.recommendation.criteo.Criteo

  • Versiones :

    • 1.0.0 (predeterminado): versión inicial.
  • Tamaño de descarga : 297.00 MiB

  • Tamaño del conjunto de datos : 3.55 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'train' 13,979,592
  • Estructura de características :
FeaturesDict({
    'conversion': tf.bool,
    'exposure': tf.bool,
    'f0': tf.float32,
    'f1': tf.float32,
    'f10': tf.float32,
    'f11': tf.float32,
    'f2': tf.float32,
    'f3': tf.float32,
    'f4': tf.float32,
    'f5': tf.float32,
    'f6': tf.float32,
    'f7': tf.float32,
    'f8': tf.float32,
    'f9': tf.float32,
    'treatment': tf.int64,
    'visit': tf.bool,
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
conversión Tensor tf.bool
exposición Tensor tf.bool
f0 Tensor tf.float32
f1 Tensor tf.float32
f10 Tensor tf.float32
f11 Tensor tf.float32
f2 Tensor tf.float32
f3 Tensor tf.float32
f4 Tensor tf.float32
f5 Tensor tf.float32
f6 Tensor tf.float32
f7 Tensor tf.float32
f8 Tensor tf.float32
f9 Tensor tf.float32
tratamiento Tensor tf.int64
visitar Tensor tf.bool
  • Teclas supervisadas (Ver as_supervised ): ({'exposure': 'exposure', 'f0': 'f0', 'f1': 'f1', 'f10': 'f10', 'f11': 'f11', 'f2': 'f2', 'f3': 'f3', 'f4': 'f4', 'f5': 'f5', 'f6': 'f6', 'f7': 'f7', 'f8': 'f8', 'f9': 'f9', 'treatment': 'treatment'}, 'visit')

  • Figura ( tfds.show_examples ): no compatible.

  • Ejemplos ( tfds.as_dataframe ):

  • Cita :
@inproceedings{Diemert2018,
author = { {Diemert Eustache, Betlei Artem} and Renaudin, Christophe and Massih-Reza, Amini},
title={A Large Scale Benchmark for Uplift Modeling},
publisher = {ACM},
booktitle = {Proceedings of the AdKDD and TargetAd Workshop, KDD, London,United Kingdom, August, 20, 2018},
year = {2018}
}