Google I/O — это обертка! Наверстать упущенное в сеансах TensorFlow Просмотреть сеансы

wikipedia_toxicity_subtypes

  • Описание:

Комментарии в этом наборе данных взяты из архива комментариев на странице обсуждения Википедии. Они были отмечены Jigsaw на предмет токсичности, а также (для основной конфигурации) различных подтипов токсичности, включая серьезную токсичность, непристойность, угрожающие выражения, оскорбительные выражения и атаки на идентичность. Этот набор данных является копией данных, выпущенных для конкурса Jigsaw Toxic Comment Classification Challenge и Jigsaw Multilingual Toxic Comment Classification на Kaggle, с тестовым набором данных, объединенным с test_labels, выпущенным после окончания соревнований. Данные теста, не используемые для оценки, были удалены. Этот набор данных выпущен под CC0, как и основной текст комментария.

  • Исходный код: tfds.text.WikipediaToxicitySubtypes

  • Версии:

    • 0.2.0 : Обновленные возможности для согласования с CivilComments данных.
    • 0.3.0 : Добавлен WikipediaToxicityMultilingual конфигурации.
    • 0.3.1 ( по умолчанию): Добавлен уникальный идентификатор для каждого комментария. (Для многоязычной конфигурации они уникальны только в пределах каждого разделения.)
  • Скачать Размер: 50.57 MiB

  • Авто-кэшируются ( документация ): Да

  • Контролируемые ключи (см as_supervised документ ): ('text', 'toxicity')

  • Рис ( tfds.show_examples ): Не поддерживается.

  • Образец цитирования:

@inproceedings{10.1145/3038912.3052591,
  author = {Wulczyn, Ellery and Thain, Nithum and Dixon, Lucas},
  title = {Ex Machina: Personal Attacks Seen at Scale},
  year = {2017},
  isbn = {9781450349130},
  publisher = {International World Wide Web Conferences Steering Committee},
  address = {Republic and Canton of Geneva, CHE},
  url = {https://doi.org/10.1145/3038912.3052591},
  doi = {10.1145/3038912.3052591},
  booktitle = {Proceedings of the 26th International Conference on World Wide Web},
  pages = {1391-1399},
  numpages = {9},
  keywords = {online discussions, wikipedia, online harassment},
  location = {Perth, Australia},
  series = {WWW '17}
}

wikipedia_toxicity_subtypes / EnglishSubtypes ( по умолчанию конфигурации)

  • Описание конфигурации: Комментарии в WikipediaToxicitySubtypes конфигурации находится из архива английской Википедии страницы обсуждения замечаний , которые были аннотированный по головоломке токсичности, а также пяти токсичности подтипа меток (тяжелая токсичность, непристойный, угрозы, оскорбление, identity_attack). Метки подтипа токсичности и токсичности представляют собой двоичные значения (0 или 1), указывающие, присвоили ли большинство аннотаторов этот атрибут тексту комментария. Эта конфигурация является копией данных, выпущенных для испытания Jigsaw Toxic Comment Classification Challenge на Kaggle, с тестовым набором данных, объединенным с test_labels, выпущенным после соревнования, а тестовые данные, не использованные для оценки, были удалены.

Смотрите документацию Kaggle https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data или https://figshare.com/articles/Wikipedia_Talk_Labels_Toxicity/4563973 для более подробной информации.

Расколоть Примеры
'test' 63 978
'train' 159 571
  • Особенности:
FeaturesDict({
    'id': Text(shape=(), dtype=tf.string),
    'identity_attack': tf.float32,
    'insult': tf.float32,
    'language': Text(shape=(), dtype=tf.string),
    'obscene': tf.float32,
    'severe_toxicity': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
})

wikipedia_toxicity_subtypes / Multilingual

  • Config Описание: Комментарии в WikipediaToxicityMultilingual конфиг вот из архива не на английском языке Википедии Обсуждения страницы комментариев аннотированных по головоломке токсичности, с двоичным значением (0 или 1) , указывающее большинство комментаторов оценило ли текст комментария как токсичные. Комментарии в этой конфигурации представлены на нескольких языках (турецком, итальянском, испанском, португальском, русском и французском). Эта конфигурация является копией данных, выпущенных для многоязычной классификации токсичных комментариев Jigsaw на Kaggle, с тестовым набором данных, объединенным с test_labels, выпущенным после соревнования.

Обратитесь к документации Kaggle https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data для более подробной информации.

Расколоть Примеры
'test' 63 812
'validation' 8 000
  • Особенности:
FeaturesDict({
    'id': Text(shape=(), dtype=tf.string),
    'language': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
    'toxicity': tf.float32,
})