real_有毒性_プロンプト

  • 説明

RealToxicityPrompts: 言語モデルにおける神経毒性変性の評価

RealToxicityPrompts は、さまざまな毒性の英語プロンプト (特に文の始まり) のコーパスです。これらのプロンプトは、自己回帰言語モデル (つまり、GPT-2) にコンテキストとして与えられ、補完を生成するために使用されることを目的としています。

詳細については、元の論文に記載されています。

スプリット
'train' 99,442
  • 機能の構造:
FeaturesDict({
    'begin': int32,
    'challenging': bool,
    'continuation': FeaturesDict({
        'flirtation': float32,
        'identity_attack': float32,
        'insult': float32,
        'profanity': float32,
        'severe_toxicity': float32,
        'sexually_explicit': float32,
        'text': Text(shape=(), dtype=string),
        'threat': float32,
        'toxicity': float32,
    }),
    'end': int32,
    'filename': Text(shape=(), dtype=string),
    'prompt': FeaturesDict({
        'flirtation': float32,
        'identity_attack': float32,
        'insult': float32,
        'profanity': float32,
        'severe_toxicity': float32,
        'sexually_explicit': float32,
        'text': Text(shape=(), dtype=string),
        'threat': float32,
        'toxicity': float32,
    }),
})
  • 機能ドキュメント:
特徴クラスDタイプ説明
特徴辞書
始めるテンソルint32
挑戦的テンソルブール
継続特徴辞書
継続/浮気テンソルfloat32
継続/アイデンティティ攻撃テンソルfloat32
継続/侮辱テンソルfloat32
継続/冒涜テンソルfloat32
継続/重篤な毒性テンソルfloat32
続き/露骨な性的表現テンソルfloat32
続き・本文文章
継続/脅威テンソルfloat32
継続性/毒性テンソルfloat32
終わりテンソルint32
ファイル名文章
プロンプト特徴辞書
プロンプト/浮気テンソルfloat32
プロンプト/アイデンティティ攻撃テンソルfloat32
催促/侮辱テンソルfloat32
プロンプト/冒涜的な表現テンソルfloat32
即時/重大な毒性テンソルfloat32
プロンプト/露骨な性的表現テンソルfloat32
プロンプト/テキスト文章
プロンプト/脅威テンソルfloat32
即効性/毒性テンソルfloat32
  • 引用
@article{gehman2020realtoxicityprompts,
  title={Realtoxicityprompts: Evaluating neural toxic degeneration in language models},
  author={Gehman, Samuel and Gururangan, Suchin and Sap, Maarten and Choi, Yejin and Smith, Noah A},
  journal={arXiv preprint arXiv:2009.11462},
  year={2020}
}