критео

  • Описание :

Набор данных моделирования подъема Criteo

Этот набор данных выпущен вместе с документом: «Крупномасштабный контрольный показатель для моделирования поднятия» Юсташ Димерт, Артем Бетлей, Кристоф Реноден; (Criteo AI Lab), Массих-Реза Амини (LIG, Grenoble INP)

Эта работа была опубликована в AdKDD 2018 Workshop совместно с KDD 2018.

Описание данных

Этот набор данных создается путем сбора данных, полученных в результате нескольких тестов инкрементальности, особой процедуры рандомизированных испытаний, при которой реклама предотвращает попадание случайной части населения в таргетинг. он состоит из 25 миллионов строк, каждая из которых представляет пользователя с 11 функциями, индикатором обработки и 2 метками (посещения и конверсии).

Поля

Вот подробное описание полей (в файле они разделены запятыми):

  • f0, f1, f2, f3, f4, f5, f6, f7, f8, f9, f10, f11: значения функций (плотные, плавающие)
  • лечение: группа лечения (1 = обработанная, 0 = контрольная)
  • конверсия: произошла ли конверсия для этого пользователя (двоичный файл, ярлык)
  • посещение: произошло ли посещение для этого пользователя (бинарное, метка)
  • воздействие: эффект лечения, был ли пользователь подвергнут эффективному воздействию (бинарное)

Ключевые цифры

  • Формат: CSV
  • Размер: 459 МБ (в сжатом виде)
  • Ряды: 25 309 483
  • Средняя частота посещений: 0,04132
  • Средний коэффициент конверсии: 0,00229
  • Коэффициент лечения: 0,846

Задачи

Набор данных был собран и подготовлен с учетом прогнозирования поднятия в качестве основной задачи. Кроме того, мы можем предвидеть связанные варианты использования, такие как, но не ограничиваясь ими:

  • ориентир для причинно-следственной связи
  • моделирование подъема
  • взаимодействие между функциями и лечением
  • неоднородность лечения
  • эталон для методов причинно-следственной связи

  • Дополнительная документация : изучить документы с кодом

  • Домашняя страница : https://ailab.criteo.com/criteo-uplift-prediction-dataset/

  • Исходный код : tfds.recommendation.criteo.Criteo

  • Версии :

    • 1.0.0 : Первоначальный выпуск.
    • 1.0.1 (по умолчанию): Исправлен синтаксический анализ полей conversion , visit и exposure .
  • Размер загрузки : 297.00 MiB

  • Размер набора данных : 3.55 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'train' 13 979 592
  • Структура функции :
FeaturesDict({
    'conversion': bool,
    'exposure': bool,
    'f0': float32,
    'f1': float32,
    'f10': float32,
    'f11': float32,
    'f2': float32,
    'f3': float32,
    'f4': float32,
    'f5': float32,
    'f6': float32,
    'f7': float32,
    'f8': float32,
    'f9': float32,
    'treatment': int64,
    'visit': bool,
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
преобразование Тензор логический
экспозиция Тензор логический
f0 Тензор поплавок32
f1 Тензор поплавок32
f10 Тензор поплавок32
f11 Тензор поплавок32
f2 Тензор поплавок32
f3 Тензор поплавок32
f4 Тензор поплавок32
f5 Тензор поплавок32
f6 Тензор поплавок32
f7 Тензор поплавок32
f8 Тензор поплавок32
f9 Тензор поплавок32
лечение Тензор int64
посетить Тензор логический
  • Контролируемые ключи (см. as_supervised doc ): ({'exposure': 'exposure', 'f0': 'f0', 'f1': 'f1', 'f10': 'f10', 'f11': 'f11', 'f2': 'f2', 'f3': 'f3', 'f4': 'f4', 'f5': 'f5', 'f6': 'f6', 'f7': 'f7', 'f8': 'f8', 'f9': 'f9', 'treatment': 'treatment'}, 'visit')

  • Рисунок ( tfds.show_examples ): не поддерживается.

  • Примеры ( tfds.as_dataframe ):

  • Цитата :
@inproceedings{Diemert2018,
author = { {Diemert Eustache, Betlei Artem} and Renaudin, Christophe and Massih-Reza, Amini},
title={A Large Scale Benchmark for Uplift Modeling},
publisher = {ACM},
booktitle = {Proceedings of the AdKDD and TargetAd Workshop, KDD, London,United Kingdom, August, 20, 2018},
year = {2018}
}
,

  • Описание :

Набор данных моделирования подъема Criteo

Этот набор данных выпущен вместе с документом: «Крупномасштабный контрольный показатель для моделирования поднятия» Юсташ Димерт, Артем Бетлей, Кристоф Реноден; (Criteo AI Lab), Массих-Реза Амини (LIG, Grenoble INP)

Эта работа была опубликована в AdKDD 2018 Workshop совместно с KDD 2018.

Описание данных

Этот набор данных создается путем сбора данных, полученных в результате нескольких тестов инкрементальности, особой процедуры рандомизированных испытаний, при которой реклама предотвращает попадание случайной части населения в таргетинг. он состоит из 25 миллионов строк, каждая из которых представляет пользователя с 11 функциями, индикатором обработки и 2 метками (посещения и конверсии).

Поля

Вот подробное описание полей (в файле они разделены запятыми):

  • f0, f1, f2, f3, f4, f5, f6, f7, f8, f9, f10, f11: значения функций (плотные, плавающие)
  • лечение: группа лечения (1 = обработанная, 0 = контрольная)
  • конверсия: произошла ли конверсия для этого пользователя (двоичный файл, ярлык)
  • посещение: произошло ли посещение для этого пользователя (бинарное, метка)
  • воздействие: эффект лечения, был ли пользователь подвергнут эффективному воздействию (бинарное)

Ключевые цифры

  • Формат: CSV
  • Размер: 459 МБ (в сжатом виде)
  • Ряды: 25 309 483
  • Средняя частота посещений: 0,04132
  • Средний коэффициент конверсии: 0,00229
  • Коэффициент лечения: 0,846

Задачи

Набор данных был собран и подготовлен с учетом прогнозирования поднятия в качестве основной задачи. Кроме того, мы можем предвидеть связанные варианты использования, такие как, но не ограничиваясь ими:

  • ориентир для причинно-следственной связи
  • моделирование подъема
  • взаимодействие между функциями и лечением
  • неоднородность лечения
  • эталон для методов причинно-следственной связи

  • Дополнительная документация : изучить документы с кодом

  • Домашняя страница : https://ailab.criteo.com/criteo-uplift-prediction-dataset/

  • Исходный код : tfds.recommendation.criteo.Criteo

  • Версии :

    • 1.0.0 : Первоначальный выпуск.
    • 1.0.1 (по умолчанию): Исправлен синтаксический анализ полей conversion , visit и exposure .
  • Размер загрузки : 297.00 MiB

  • Размер набора данных : 3.55 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'train' 13 979 592
  • Структура функции :
FeaturesDict({
    'conversion': bool,
    'exposure': bool,
    'f0': float32,
    'f1': float32,
    'f10': float32,
    'f11': float32,
    'f2': float32,
    'f3': float32,
    'f4': float32,
    'f5': float32,
    'f6': float32,
    'f7': float32,
    'f8': float32,
    'f9': float32,
    'treatment': int64,
    'visit': bool,
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
преобразование Тензор логический
экспозиция Тензор логический
f0 Тензор поплавок32
f1 Тензор поплавок32
f10 Тензор поплавок32
f11 Тензор поплавок32
f2 Тензор поплавок32
f3 Тензор поплавок32
f4 Тензор поплавок32
f5 Тензор поплавок32
f6 Тензор поплавок32
f7 Тензор поплавок32
f8 Тензор поплавок32
f9 Тензор поплавок32
лечение Тензор int64
посетить Тензор логический
  • Контролируемые ключи (см. as_supervised doc ): ({'exposure': 'exposure', 'f0': 'f0', 'f1': 'f1', 'f10': 'f10', 'f11': 'f11', 'f2': 'f2', 'f3': 'f3', 'f4': 'f4', 'f5': 'f5', 'f6': 'f6', 'f7': 'f7', 'f8': 'f8', 'f9': 'f9', 'treatment': 'treatment'}, 'visit')

  • Рисунок ( tfds.show_examples ): не поддерживается.

  • Примеры ( tfds.as_dataframe ):

  • Цитата :
@inproceedings{Diemert2018,
author = { {Diemert Eustache, Betlei Artem} and Renaudin, Christophe and Massih-Reza, Amini},
title={A Large Scale Benchmark for Uplift Modeling},
publisher = {ACM},
booktitle = {Proceedings of the AdKDD and TargetAd Workshop, KDD, London,United Kingdom, August, 20, 2018},
year = {2018}
}