trivia_qa

  • Description:

TriviaqQA est un ensemble de données de compréhension de lecture contenant plus de 650 000 triplets questions-réponses-preuves. TriviaqQA comprend 95 000 paires de questions-réponses rédigées par des passionnés de jeux-questionnaires et des documents de preuves rassemblés de manière indépendante, six par question en moyenne, qui offrent une supervision à distance de haute qualité pour répondre aux questions.

Diviser Exemples
'test' 10 832
'train' 87 622
'validation' 11 313
  • Caractéristiques:
FeaturesDict({
    'answer': FeaturesDict({
        'aliases': Sequence(Text(shape=(), dtype=tf.string)),
        'matched_wiki_entity_name': Text(shape=(), dtype=tf.string),
        'normalized_aliases': Sequence(Text(shape=(), dtype=tf.string)),
        'normalized_matched_wiki_entity_name': Text(shape=(), dtype=tf.string),
        'normalized_value': Text(shape=(), dtype=tf.string),
        'type': Text(shape=(), dtype=tf.string),
        'value': Text(shape=(), dtype=tf.string),
    }),
    'entity_pages': Sequence({
        'doc_source': Text(shape=(), dtype=tf.string),
        'filename': Text(shape=(), dtype=tf.string),
        'title': Text(shape=(), dtype=tf.string),
        'wiki_context': Text(shape=(), dtype=tf.string),
    }),
    'question': Text(shape=(), dtype=tf.string),
    'question_id': Text(shape=(), dtype=tf.string),
    'question_source': Text(shape=(), dtype=tf.string),
    'search_results': Sequence({
        'description': Text(shape=(), dtype=tf.string),
        'filename': Text(shape=(), dtype=tf.string),
        'rank': tf.int32,
        'search_context': Text(shape=(), dtype=tf.string),
        'title': Text(shape=(), dtype=tf.string),
        'url': Text(shape=(), dtype=tf.string),
    }),
})
@article{2017arXivtriviaqa,
       author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
                 Daniel and {Zettlemoyer}, Luke},
        title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
      journal = {arXiv e-prints},
         year = 2017,
          eid = {arXiv:1705.03551},
        pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
       eprint = {1705.03551},
}

trivia_qa/rc (configuration par défaut)

  • Description Config: paires Question-réponse où tous les documents pour une question donnée contenant la chaîne de réponse (s). Comprend le contexte de Wikipedia et les résultats de recherche.

  • Exemples ( tfds.as_dataframe ):

trivia_qa/rc.nocontext

  • Description Config: paires Question-réponse où tous les documents pour une question donnée contenant la chaîne de réponse (s).

  • Exemples ( tfds.as_dataframe ):

trivia_qa/non filtré

  • Description Config: 110k paires de questions-réponses pour le domaine ouvert AQ où pas tous les documents pour une question donnée contiennent la chaîne de réponse (s). Cela rend l'ensemble de données non filtré plus approprié pour le contrôle qualité de style IR. Comprend le contexte de Wikipédia et les résultats de recherche.

  • Exemples ( tfds.as_dataframe ):

trivia_qa/unfiltered.nocontext

  • Description Config: 110k paires de questions-réponses pour le domaine ouvert AQ où pas tous les documents pour une question donnée contiennent la chaîne de réponse (s). Cela rend l'ensemble de données non filtré plus approprié pour le contrôle qualité de style IR.

  • Exemples ( tfds.as_dataframe ):