natural_questions

  • Açıklama :

NQ corpus, gerçek kullanıcılardan gelen soruları içerir ve QA sistemlerinin, sorunun yanıtını içerebilecek veya içermeyebilecek bir Wikipedia makalesinin tamamını okumasını ve anlamasını gerektirir. Gerçek kullanıcı sorularının dahil edilmesi ve çözümlerin cevabı bulmak için tüm sayfayı okuması gerekliliği, NQ'nun önceki QA veri setlerinden daha gerçekçi ve zorlu bir görev olmasına neden olur.

Bölmek Örnekler
'train' 307.373
'validation' 7.830
@article{47761,
title = {Natural Questions: a Benchmark for Question Answering Research},
author = {Tom Kwiatkowski and Jennimaria Palomaki and Olivia Redfield and Michael Collins and Ankur Parikh and Chris Alberti and Danielle Epstein and Illia Polosukhin and Matthew Kelcey and Jacob Devlin and Kenton Lee and Kristina N. Toutanova and Llion Jones and Ming-Wei Chang and Andrew Dai and Jakob Uszkoreit and Quoc Le and Slav Petrov},
year = {2019},
journal = {Transactions of the Association of Computational Linguistics}
}

natural_questions/varsayılan (varsayılan yapılandırma)

  • Yapılandırma açıklaması : Varsayılan natural_questions yapılandırması

  • Veri kümesi boyutu : 90.26 GiB

  • Özellik yapısı :

FeaturesDict({
    'annotations': Sequence({
        'id': tf.string,
        'long_answer': FeaturesDict({
            'end_byte': tf.int64,
            'end_token': tf.int64,
            'start_byte': tf.int64,
            'start_token': tf.int64,
        }),
        'short_answers': Sequence({
            'end_byte': tf.int64,
            'end_token': tf.int64,
            'start_byte': tf.int64,
            'start_token': tf.int64,
            'text': Text(shape=(), dtype=tf.string),
        }),
        'yes_no_answer': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    }),
    'document': FeaturesDict({
        'html': Text(shape=(), dtype=tf.string),
        'title': Text(shape=(), dtype=tf.string),
        'tokens': Sequence({
            'is_html': tf.bool,
            'token': Text(shape=(), dtype=tf.string),
        }),
        'url': Text(shape=(), dtype=tf.string),
    }),
    'id': tf.string,
    'question': FeaturesDict({
        'text': Text(shape=(), dtype=tf.string),
        'tokens': Sequence(tf.string),
    }),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
ÖzelliklerDict
ek açıklamalar Sekans
ek açıklamalar/kimlik tensör tf.string
ek açıklamalar/uzun_cevap ÖzelliklerDict
ek açıklamalar/long_answer/end_byte tensör tf.int64
ek açıklamalar/long_answer/end_token tensör tf.int64
ek açıklamalar/long_answer/start_byte tensör tf.int64
ek açıklamalar/long_answer/start_token tensör tf.int64
ek açıklamalar/short_cevaplar Sekans
ek açıklamalar/short_answers/end_byte tensör tf.int64
ek açıklamalar/short_answers/end_token tensör tf.int64
ek açıklamalar/short_answers/start_byte tensör tf.int64
ek açıklamalar/short_answers/start_token tensör tf.int64
ek açıklamalar/short_answers/metin Metin tf.string
ek açıklamalar/yes_no_answer sınıf etiketi tf.int64
belge ÖzelliklerDict
belge/html Metin tf.string
belge başlığı Metin tf.string
belge/belirteçler Sekans
belge/belirteçler/is_html tensör tf.bool
belge/belirteçler/belirteç Metin tf.string
belge/url Metin tf.string
İD tensör tf.string
soru ÖzelliklerDict
soru/metin Metin tf.string
soru/belirteçler Sıra (Tensor) (Hiçbiri,) tf.string

natural_questions/longt5

  • Yapılandırma açıklaması : longT5 karşılaştırmasında olduğu gibi önceden işlenmiş natural_questions

  • Veri kümesi boyutu : 8.91 GiB

  • Özellik yapısı :

FeaturesDict({
    'all_answers': Sequence(Text(shape=(), dtype=tf.string)),
    'answer': Text(shape=(), dtype=tf.string),
    'context': Text(shape=(), dtype=tf.string),
    'id': Text(shape=(), dtype=tf.string),
    'question': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
ÖzelliklerDict
all_answers Sıra(Metin) (Hiçbiri,) tf.string
Cevap Metin tf.string
bağlam Metin tf.string
İD Metin tf.string
soru Metin tf.string
Başlık Metin tf.string