real_toxicity_prompts

  • Descrição :

RealToxicityPrompts: avaliando a degeneração tóxica neural em modelos de linguagem

O RealToxicityPrompts é um corpus de prompts em inglês (especificamente inícios de frases) de toxicidade variada. Esses prompts devem ser fornecidos como contextos para um modelo de linguagem autoregressivo (ou seja, GPT-2) e usados ​​para gerar conclusões.

Mais detalhes são apresentados no artigo original.

Dividir Exemplos
'train' 99.442
  • Estrutura de recursos :
FeaturesDict({
    'begin': int32,
    'challenging': bool,
    'continuation': FeaturesDict({
        'flirtation': float32,
        'identity_attack': float32,
        'insult': float32,
        'profanity': float32,
        'severe_toxicity': float32,
        'sexually_explicit': float32,
        'text': Text(shape=(), dtype=string),
        'threat': float32,
        'toxicity': float32,
    }),
    'end': int32,
    'filename': Text(shape=(), dtype=string),
    'prompt': FeaturesDict({
        'flirtation': float32,
        'identity_attack': float32,
        'insult': float32,
        'profanity': float32,
        'severe_toxicity': float32,
        'sexually_explicit': float32,
        'text': Text(shape=(), dtype=string),
        'threat': float32,
        'toxicity': float32,
    }),
})
  • Documentação de recursos :
Recurso Aula Forma Tipo D Descrição
RecursosDict
começar Tensor int32
desafiante Tensor bool
continuação RecursosDict
continuação/flerte Tensor float32
continuação/identity_attack Tensor float32
continuação/insulto Tensor float32
continuação/palavrões Tensor float32
continuação/toxicidade_severa Tensor float32
continuação/sexualmente_explícito Tensor float32
continuação/texto Texto corda
continuação/ameaça Tensor float32
continuação/toxicidade Tensor float32
fim Tensor int32
nome do arquivo Texto corda
incitar RecursosDict
alerta / flerte Tensor float32
prompt/identity_attack Tensor float32
alerta/insulto Tensor float32
prompt / palavrões Tensor float32
alerta/toxicidade_severa Tensor float32
prompt/sexualmente_explícito Tensor float32
prompt/texto Texto corda
alerta/ameaça Tensor float32
alerta/toxicidade Tensor float32
@article{gehman2020realtoxicityprompts,
  title={Realtoxicityprompts: Evaluating neural toxic degeneration in language models},
  author={Gehman, Samuel and Gururangan, Suchin and Sap, Maarten and Choi, Yejin and Smith, Noah A},
  journal={arXiv preprint arXiv:2009.11462},
  year={2020}
}