asqa

  • Descriptif :

L'ASQA est le premier ensemble de données de questions-réponses de forme longue qui se concentre sur des questions factoïdes ambiguës. Différent des ensembles de données de réponses longues précédentes, chaque question est annotée à la fois avec des réponses longues et des paires question-réponse extractives, qui doivent répondre par le passage généré. Une réponse détaillée générée sera évaluée en utilisant à la fois la précision ROUGE et QA. Nous avons montré que ces métriques d'évaluation étaient bien corrélées avec le jugement humain. Dans ce référentiel, nous publions l'ensemble de données ASQA, ainsi que le code d'évaluation : <a href="https://github.com/google-research/language/tree/master/language/asqa">https://github.com/google-research/language/tree/master/language/asqa</a>

Diviser Exemples
'dev' 948
'train' 4 353
  • Structure des fonctionnalités :
FeaturesDict({
    'ambiguous_question': Text(shape=(), dtype=string),
    'annotations': Sequence({
        'knowledge': Sequence({
            'content': Text(shape=(), dtype=string),
            'wikipage': Text(shape=(), dtype=string),
        }),
        'long_answer': Text(shape=(), dtype=string),
    }),
    'qa_pairs': Sequence({
        'context': Text(shape=(), dtype=string),
        'question': Text(shape=(), dtype=string),
        'short_answers': Sequence(Text(shape=(), dtype=string)),
        'wikipage': Text(shape=(), dtype=string),
    }),
    'sample_id': int32,
    'wikipages': Sequence({
        'title': Text(shape=(), dtype=string),
        'url': Text(shape=(), dtype=string),
    }),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
question_ambiguë Texte chaîne de caractères Question désambiguïsée d'AmbigQA.
annotations Séquence Réponses longues à la question ambiguë construite par les annotateurs de l'ASQA.
annotations/connaissances Séquence Liste des connaissances supplémentaires.
annotations/connaissances/contenu Texte chaîne de caractères Un passage de Wikipédia.
annotations/connaissances/wikipage Texte chaîne de caractères Titre de la page Wikipédia d'où provient le passage.
annotations/réponse_longue Texte chaîne de caractères Annotation.
qa_pairs Séquence Paires Q&A d'AmbigQA qui sont utilisées pour la désambiguïsation.
qa_pairs/contexte Texte chaîne de caractères Contexte supplémentaire fourni.
qa_pairs/question Texte chaîne de caractères
qa_pairs/short_answers Séquence (texte) (Aucun,) chaîne de caractères Liste de réponses courtes d'AmbigQA.
qa_pairs/wikipage Texte chaîne de caractères Titre de la page Wikipédia dont le contexte supplémentaire a été extrait.
sample_id Tenseur int32
pages wiki Séquence Liste des pages Wikipédia visitées par les annotateurs AmbigQA.
pages wiki/titre Texte chaîne de caractères Titre de la page Wikipédia.
pages wiki/url Texte chaîne de caractères Lien vers la page Wikipédia.
  • Citation :
@misc{https://doi.org/10.48550/arxiv.2204.06092,
doi = {10.48550/ARXIV.2204.06092},
url = {https://arxiv.org/abs/2204.06092},
author = {Stelmakh, Ivan and Luan, Yi and Dhingra, Bhuwan and Chang, Ming-Wei},
keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {ASQA: Factoid Questions Meet Long-Form Answers},
publisher = {arXiv},
year = {2022},
copyright = {arXiv.org perpetual, non-exclusive license}
}