ai2_arc_with_ir

Descriptif :

Un nouvel ensemble de données de 7 787 véritables questions scientifiques à choix multiples de niveau scolaire, rassemblées pour encourager la recherche dans les questions-réponses avancées. L'ensemble de données est divisé en un ensemble Challenge et un ensemble facile, où le premier ne contient que des questions auxquelles ont répondu de manière incorrecte à la fois par un algorithme basé sur la récupération et un algorithme de cooccurrence de mots. Nous incluons également un corpus de plus de 14 millions de phrases scientifiques pertinentes pour la tâche, et une mise en œuvre de trois modèles de base neuronaux pour cet ensemble de données. Nous posons l'ARC comme un défi pour la communauté.

Par rapport à l'ensemble de données d'origine, cela ajoute des phrases contextuelles obtenues par récupération d'informations de la même manière que UnifiedQA (voir : https://arxiv.org/abs/2005.00700 ).

Documentation complémentaire : Explorer sur Papers With Code
Page d' accueil : https://allenai.org/data/arc
Code source : tfds.datasets.ai2_arc_with_ir.Builder
Versions :
- 1.0.0 (par défaut) : aucune note de version.
Taille du téléchargement : 3.68 MiB
Mise en cache automatique ( documentation ): Oui
Structure des fonctionnalités :

FeaturesDict({
    'answerKey': ClassLabel(shape=(), dtype=int64, num_classes=5),
    'choices': Sequence({
        'label': ClassLabel(shape=(), dtype=int64, num_classes=5),
        'text': Text(shape=(), dtype=string),
    }),
    'id': Text(shape=(), dtype=string),
    'paragraph': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
})

Documentation des fonctionnalités :

Caractéristique	Classer	Dtype
	FonctionnalitésDict
answerKey	Étiquette de classe	int64
les choix	Séquence
choix/étiquette	Étiquette de classe	int64
choix/texte	Texte	chaîne de caractères
identifiant	Texte	chaîne de caractères
paragraphe	Texte	chaîne de caractères
question	Texte	chaîne de caractères

Clés supervisées (Voir as_supervised doc ): None
Figure ( tfds.show_examples ) : non pris en charge.
Citation :

@article{allenai:arc,
      author    = {Peter Clark  and Isaac Cowhey and Oren Etzioni and Tushar Khot and
                    Ashish Sabharwal and Carissa Schoenick and Oyvind Tafjord},
      title     = {Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge},
      journal   = {arXiv:1803.05457v1},
      year      = {2018},
}
@article{2020unifiedqa,
    title={UnifiedQA: Crossing Format Boundaries With a Single QA System},
    author={D. Khashabi and S. Min and T. Khot and A. Sabhwaral and O. Tafjord and P. Clark and H. Hajishirzi},
    journal={arXiv preprint},
    year={2020}
}

ai2_arc_with_ir/ARC-Challenge-IR (configuration par défaut)

Description de la configuration : Défi Ensemble de 2590 questions "difficiles" (celles auxquelles une méthode de récupération et une méthode de cooccurrence échouent à répondre correctement)
Taille du jeu de données : 3.76 MiB
Fractionnements :

Diviser	Exemples
`'test'`	1 172
`'train'`	1 119
`'validation'`	299

Exemples ( tfds.as_dataframe ):

ai2_arc_with_ir/ARC-Easy-IR

Description de la configuration : Easy Set de 5197 questions pour l'ARC Challenge.
Taille du jeu de données : 7.49 MiB
Fractionnements :

Diviser	Exemples
`'test'`	2 376
`'train'`	2 251
`'validation'`	570

Exemples ( tfds.as_dataframe ):

ai2_arc_with_ir Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

ai2_arc_with_ir/ARC-Challenge-IR (configuration par défaut)

ai2_arc_with_ir/ARC-Easy-IR

ai2_arc_with_ir