ai2_arc

  • Description:

Un nouvel ensemble de données de 7 787 véritables questions scientifiques à choix multiples de niveau scolaire, assemblés pour encourager la recherche en matière de questions-réponses avancées. L'ensemble de données est divisé en un ensemble de défi et un ensemble facile, où le premier ne contient que des questions dont les réponses sont incorrectes à la fois par un algorithme basé sur la récupération et un algorithme de cooccurrence de mots. Nous incluons également un corpus de plus de 14 millions de phrases scientifiques pertinentes pour la tâche, et une mise en œuvre de trois modèles de base neuronaux pour cet ensemble de données. Nous posons l'ARC comme un défi pour la communauté.

FeaturesDict({
    'answerKey': ClassLabel(shape=(), dtype=tf.int64, num_classes=5),
    'choices': Sequence({
        'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=5),
        'text': Text(shape=(), dtype=tf.string),
    }),
    'id': Text(shape=(), dtype=tf.string),
    'question': Text(shape=(), dtype=tf.string),
})
@article{allenai:arc,
      author    = {Peter Clark  and Isaac Cowhey and Oren Etzioni and Tushar Khot and
                    Ashish Sabharwal and Carissa Schoenick and Oyvind Tafjord},
      title     = {Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge},
      journal   = {arXiv:1803.05457v1},
      year      = {2018},
}

ai2_arc/ARC-Challenge (configuration par défaut)

  • Description Config: DÉFI de 2590 questions « dures » (ceux qui à la fois une récupération et une méthode de co-occurrence ne parviennent pas à répondre correctement)

  • Dataset Taille: 939.91 KiB

  • scissions:

Diviser Exemples
'test' 1 172
'train' 1 119
'validation' 299

ai2_arc/ARC-Easy

  • Description Config: Easy Set de 5197 questions pour l'ARC Défi.

  • Dataset Taille: 1.63 MiB

  • scissions:

Diviser Exemples
'test' 2 376
'train' 2 251
'validation' 570