real_toxicity_prompts

  • Descripción :

RealToxicityPrompts: Evaluación de la degeneración tóxica neuronal en modelos de lenguaje

RealToxicityPrompts es un corpus de indicaciones en inglés (específicamente comienzos de oraciones) de diversa toxicidad. Estas indicaciones deben brindarse como contextos para un modelo de lenguaje autorregresivo (es decir, GPT-2) y usarse para generar terminaciones.

Se presentan más detalles en el artículo original.

Dividir Ejemplos
'train' 99,442
  • Estructura de características :
FeaturesDict({
    'begin': int32,
    'challenging': bool,
    'continuation': FeaturesDict({
        'flirtation': float32,
        'identity_attack': float32,
        'insult': float32,
        'profanity': float32,
        'severe_toxicity': float32,
        'sexually_explicit': float32,
        'text': Text(shape=(), dtype=string),
        'threat': float32,
        'toxicity': float32,
    }),
    'end': int32,
    'filename': Text(shape=(), dtype=string),
    'prompt': FeaturesDict({
        'flirtation': float32,
        'identity_attack': float32,
        'insult': float32,
        'profanity': float32,
        'severe_toxicity': float32,
        'sexually_explicit': float32,
        'text': Text(shape=(), dtype=string),
        'threat': float32,
        'toxicity': float32,
    }),
})
  • Documentación de funciones :
Característica Clase Forma tipo D Descripción
FuncionesDict
comenzar Tensor int32
desafiante Tensor booleano
continuación FuncionesDict
continuación/coqueteo Tensor flotador32
continuación/ataque_identidad Tensor flotador32
continuación/insulto Tensor flotador32
continuación/blasfemia Tensor flotador32
continuación/toxicidad_severa Tensor flotador32
continuación/sexualmente_explícito Tensor flotador32
continuación/texto Texto cadena
continuación/amenaza Tensor flotador32
continuación/toxicidad Tensor flotador32
fin Tensor int32
Nombre del archivo Texto cadena
inmediato FuncionesDict
incitación/coqueteo Tensor flotador32
aviso/identidad_ataque Tensor flotador32
aviso/insulto Tensor flotador32
pronto/blasfemia Tensor flotador32
pronto/toxicidad_severa Tensor flotador32
rápido/sexualmente_explícito Tensor flotador32
mensaje/texto Texto cadena
aviso/amenaza Tensor flotador32
rápido/toxicidad Tensor flotador32
@article{gehman2020realtoxicityprompts,
  title={Realtoxicityprompts: Evaluating neural toxic degeneration in language models},
  author={Gehman, Samuel and Gururangan, Suchin and Sap, Maarten and Choi, Yejin and Smith, Noah A},
  journal={arXiv preprint arXiv:2009.11462},
  year={2020}
}