bot_adversarial_dialogue

  • Descrição :

Conjunto de dados de diálogo adversário de bot.

Conjuntos de dados de diálogo rotulados com ofensiva da tarefa Bot Adversarial Dialogue. Os diálogos foram coletados pedindo aos humanos que conversassem de forma adversária com os bots.

Mais detalhes no artigo .

@misc{xu2021recipes,
      title={Recipes for Safety in Open-domain Chatbots},
      author={Jing Xu and Da Ju and Margaret Li and Y-Lan Boureau and Jason Weston and Emily Dinan},
      year={2021},
      eprint={2010.07079},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

bot_adversarial_dialogue/dialogue_datasets (configuração padrão)

  • Descrição da configuração : os conjuntos de dados de diálogo, divididos em divisões de treinamento, validação e teste.

  • Tamanho do download : 3.06 MiB

  • Tamanho do conjunto de dados : 23.38 MiB

  • Divisões :

Dividir Exemplos
'test' 2.598
'train' 69.274
'valid' 7.002
  • Estrutura de recursos :
FeaturesDict({
    'bot_persona': Sequence(Text(shape=(), dtype=string)),
    'dialogue_id': float32,
    'episode_done': bool,
    'id': Text(shape=(), dtype=string),
    'labels': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'round_id': float32,
    'speaker_to_eval': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
})
  • Documentação de recursos :
Recurso Aula Forma Tipo D Descrição
RecursosDict
bot_persona Sequência (Texto) (Nenhum,) corda A persona personificada pelo bot.
dialog_id Tensor float32
episódio_feito Tensor bool
eu ia Texto corda O ID da amostra.
rótulos ClassLabel int64
round_id Tensor float32
alto-falante_para_eval Texto corda O locutor dos enunciados rotulados.
texto Texto corda A expressão a ser classificada.

bot_adversarial_dialogue/human_nonadv_safety_eval

  • Descrição da configuração : um conjunto de avaliação de segurança humana avaliado por trabalhadores de crowdsourcing quanto à ofensiva.

  • Tamanho do download : 10.57 KiB

  • Tamanho do conjunto de dados : 34.55 KiB

  • Divisões :

Dividir Exemplos
'test' 180
  • Estrutura de recursos :
FeaturesDict({
    'episode_done': bool,
    'id': Text(shape=(), dtype=string),
    'labels': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(), dtype=string),
})
  • Documentação de recursos :
Recurso Aula Forma Tipo D Descrição
RecursosDict
episódio_feito Tensor bool
eu ia Texto corda O ID da amostra.
rótulos ClassLabel int64
texto Texto corda A expressão a ser classificada.