ai2_arc_with_ir

  • Description:

Un nouvel ensemble de données de 7 787 véritables questions scientifiques à choix multiples de niveau scolaire, assemblés pour encourager la recherche en matière de questions-réponses avancées. L'ensemble de données est divisé en un ensemble de défi et un ensemble facile, où le premier ne contient que des questions dont les réponses sont incorrectes à la fois par un algorithme basé sur la récupération et un algorithme de cooccurrence de mots. Nous incluons également un corpus de plus de 14 millions de phrases scientifiques pertinentes pour la tâche, et une mise en œuvre de trois modèles de base neuronaux pour cet ensemble de données. Nous posons l'ARC comme un défi pour la communauté.

Par rapport à l'ensemble de données d' origine, ce qui ajoute des phrases de contexte obtenues par la recherche d'information de la même manière que UnifiedQA (voir: https://arxiv.org/abs/2005.00700 ).

FeaturesDict({
    'answerKey': ClassLabel(shape=(), dtype=tf.int64, num_classes=5),
    'choices': Sequence({
        'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=5),
        'text': Text(shape=(), dtype=tf.string),
    }),
    'id': Text(shape=(), dtype=tf.string),
    'paragraph': Text(shape=(), dtype=tf.string),
    'question': Text(shape=(), dtype=tf.string),
})
@article{allenai:arc,
      author    = {Peter Clark  and Isaac Cowhey and Oren Etzioni and Tushar Khot and
                    Ashish Sabharwal and Carissa Schoenick and Oyvind Tafjord},
      title     = {Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge},
      journal   = {arXiv:1803.05457v1},
      year      = {2018},
}
@article{2020unifiedqa,
    title={UnifiedQA: Crossing Format Boundaries With a Single QA System},
    author={D. Khashabi and S. Min and T. Khot and A. Sabhwaral and O. Tafjord and P. Clark and H. Hajishirzi},
    journal={arXiv preprint},
    year={2020}
}

ai2_arc_with_ir/ARC-Challenge-IR (configuration par défaut)

  • Description Config: DÉFI de 2590 questions « dures » (ceux qui à la fois une récupération et une méthode de co-occurrence ne parviennent pas à répondre correctement)

  • Dataset Taille: 3.76 MiB

  • scissions:

Diviser Exemples
'test' 1 172
'train' 1 119
'validation' 299

ai2_arc_with_ir/ARC-Easy-IR

  • Description Config: Easy Set de 5197 questions pour l'ARC Défi.

  • Dataset Taille: 7.49 MiB

  • scissions:

Diviser Exemples
'test' 2 376
'train' 2 251
'validation' 570