امروز برای رویداد محلی TensorFlow خود در همه جا پاسخ دهید!
این صفحه به‌وسیله ‏Cloud Translation API‏ ترجمه شده است.
Switch to English

نظرات_مدنی

  • توضیحات :

این نسخه از مجموعه داده CivilComments دسترسی به هفت برچسب اصلی را که توسط کارگران جمعیت حاشیه نویسی شده اند فراهم می کند ، سمیت و سایر برچسب ها مقداری بین 0 تا 1 است که نشان دهنده کسری از حاشیه نویسان است که این ویژگی ها را به متن نظر اختصاص داده اند.

سایر برچسب ها فقط برای کسری از نمونه های ورودی موجود است. آنها در حال حاضر برای مجموعه داده اصلی نادیده گرفته می شوند. مجموعه CivilCommentsIdentities شامل این برچسب ها است ، اما فقط از زیر مجموعه داده های همراه آنها تشکیل شده است. ویژگی های دیگری که بخشی از نسخه اصلی CivilComments بودند فقط در داده های خام موجود است. برای جزئیات بیشتر در مورد ویژگی های موجود ، به اسناد کاگل مراجعه کنید.

نظرات در این مجموعه داده از بایگانی پلت فرم Civil Comments ، یک افزونه نظر برای سایت های خبری مستقل است. این نظرات عمومی از سال 2015 - 2017 ایجاد شده و تقریباً در 50 سایت خبری انگلیسی زبان در سراسر جهان ظاهر شده است. هنگامی که نظرات مدنی در سال 2017 خاموش شد ، آنها تصمیم گرفتند تا نظرات عمومی را در یک بایگانی باز و ماندگار در دسترس قرار دهند تا تحقیقات آینده را فراهم کنند. داده های اصلی ، منتشر شده در figshare ، شامل متن نظرات عمومی ، برخی از فراداده های مرتبط مانند شناسه های مقاله ، مهر زمان و برچسب های "مدنی" تولید شده توسط نظر دهنده است ، اما شناسه های کاربر را شامل نمی شود. Jigsaw این مجموعه داده را با افزودن برچسب های اضافی برای ذکر سمیت و هویت ، گسترش داد. این مجموعه داده ها کپی دقیق داده های منتشر شده برای چالش Kaggle طبقه بندی سمیت اره منبت کاری اره مویی ناخواسته است. این مجموعه داده تحت متن CC0 منتشر می شود ، همانطور که متن زیر نظر دارد.

@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

civil_comments / CivilComments (پیکربندی پیش فرض)

  • توضیحات پیکربندی : CivilComments که در اینجا تنظیم شده شامل همه داده ها است ، اما فقط هفت برچسب اساسی (سمیت ، سمیت_سمی ، ناپسند ، تهدید ، توهین ، حمله به هویت و صریح_جنسی) است.

  • اندازه مجموعه داده : 929.13 MiB

  • تقسیم :

شکاف مثال ها
'test' 97،320
'train' 1،804،874
'validation' 97،320
  • ویژگی ها :
FeaturesDict({
    'identity_attack': tf.float32,
    'insult': tf.float32,
    'obscene': tf.float32,
    'severe_toxicity': tf.float32,
    'sexual_explicit': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
})

civil_comments / CivilCommentsIdentities

  • شرح پیکربندی : CivilCommentsIdentities که در اینجا تنظیم شده است علاوه بر هفت برچسب اساسی ، مجموعه گسترده ای از برچسب های هویت را نیز شامل می شود. با این حال ، این فقط شامل زیر مجموعه (تقریباً یک چهارم) داده ها با همه این ویژگی ها است.

  • اندازه مجموعه داده : 503.34 MiB

  • تقسیم :

شکاف مثال ها
'test' 21،577
'train' 405،130
'validation' 21،293
  • ویژگی ها :
FeaturesDict({
    'asian': tf.float32,
    'atheist': tf.float32,
    'bisexual': tf.float32,
    'black': tf.float32,
    'buddhist': tf.float32,
    'christian': tf.float32,
    'female': tf.float32,
    'heterosexual': tf.float32,
    'hindu': tf.float32,
    'homosexual_gay_or_lesbian': tf.float32,
    'identity_attack': tf.float32,
    'insult': tf.float32,
    'intellectual_or_learning_disability': tf.float32,
    'jewish': tf.float32,
    'latino': tf.float32,
    'male': tf.float32,
    'muslim': tf.float32,
    'obscene': tf.float32,
    'other_disability': tf.float32,
    'other_gender': tf.float32,
    'other_race_or_ethnicity': tf.float32,
    'other_religion': tf.float32,
    'other_sexual_orientation': tf.float32,
    'physical_disability': tf.float32,
    'psychiatric_or_mental_illness': tf.float32,
    'severe_toxicity': tf.float32,
    'sexual_explicit': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
    'transgender': tf.float32,
    'white': tf.float32,
})