natural_questions

Açıklama :

NQ külliyatı, gerçek kullanıcılardan gelen soruları içerir ve QA sistemlerinin, sorunun yanıtını içerebilecek veya içermeyebilecek tüm bir Wikipedia makalesini okumasını ve anlamasını gerektirir. Gerçek kullanıcı sorularının dahil edilmesi ve çözümlerin yanıtı bulmak için tüm sayfayı okuması gerekliliği, NQ'nun önceki KG veri kümelerinden daha gerçekçi ve zorlu bir görev olmasına neden olur.

Ek Belgeler : Belgeleri Keşfedin
Ana Sayfa : https://ai.google.com/research/NaturalQuestions/dataset
Kaynak kodu : tfds.datasets.natural_questions.Builder
sürümler :
- 0.0.2 : Sürüm notu yok.
- 0.1.0 (varsayılan): Sürüm notu yok.
İndirme boyutu : 41.97 GiB
Otomatik önbelleğe alınmış ( belgeleme ): Hayır
bölmeler :

Bölmek	örnekler
`'train'`	307.373
`'validation'`	7.830

Denetlenen anahtarlar (Bkz as_supervised doc ): None
Şekil ( tfds.show_examples ): Desteklenmiyor.
Alıntı :

@article{47761,
title = {Natural Questions: a Benchmark for Question Answering Research},
author = {Tom Kwiatkowski and Jennimaria Palomaki and Olivia Redfield and Michael Collins and Ankur Parikh and Chris Alberti and Danielle Epstein and Illia Polosukhin and Matthew Kelcey and Jacob Devlin and Kenton Lee and Kristina N. Toutanova and Llion Jones and Ming-Wei Chang and Andrew Dai and Jakob Uszkoreit and Quoc Le and Slav Petrov},
year = {2019},
journal = {Transactions of the Association of Computational Linguistics}
}

natural_questions/default (varsayılan yapılandırma)

Yapılandırma açıklaması : Varsayılan natural_questions yapılandırması
Veri kümesi boyutu : 90.26 GiB
Özellik yapısı :

FeaturesDict({
    'annotations': Sequence({
        'id': string,
        'long_answer': FeaturesDict({
            'end_byte': int64,
            'end_token': int64,
            'start_byte': int64,
            'start_token': int64,
        }),
        'short_answers': Sequence({
            'end_byte': int64,
            'end_token': int64,
            'start_byte': int64,
            'start_token': int64,
            'text': Text(shape=(), dtype=string),
        }),
        'yes_no_answer': ClassLabel(shape=(), dtype=int64, num_classes=2),
    }),
    'document': FeaturesDict({
        'html': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'tokens': Sequence({
            'is_html': bool,
            'token': Text(shape=(), dtype=string),
        }),
        'url': Text(shape=(), dtype=string),
    }),
    'id': string,
    'question': FeaturesDict({
        'text': Text(shape=(), dtype=string),
        'tokens': Sequence(string),
    }),
})

Özellik belgeleri :

Özellik	Sınıf	Şekil	Dtipi
	ÖzelliklerDict
açıklamalar	Sekans
ek açıklamalar/kimlik	tensör		sicim
ek açıklamalar/uzun_cevap	ÖzelliklerDict
ek açıklamalar/long_answer/end_byte	tensör		int64
ek açıklamalar/long_answer/end_token	tensör		int64
ek açıklamalar/long_answer/start_byte	tensör		int64
ek açıklamalar/long_answer/start_token	tensör		int64
ek açıklamalar/kısa_cevaplar	Sekans
ek açıklamalar/short_answers/end_byte	tensör		int64
ek açıklamalar/short_answers/end_token	tensör		int64
ek açıklamalar/short_answers/start_byte	tensör		int64
ek açıklamalar/short_answers/start_token	tensör		int64
ek açıklamalar/kısa_cevaplar/metin	Metin		sicim
ek açıklamalar/yes_no_answer	SınıfEtiketi		int64
belge	ÖzelliklerDict
belge/html	Metin		sicim
belge başlığı	Metin		sicim
belge/belirteçler	Sekans
belge/belirteçler/is_html	tensör		bool
belge/belirteçler/belirteç	Metin		sicim
belge/url	Metin		sicim
İD	tensör		sicim
soru	ÖzelliklerDict
soru/metin	Metin		sicim
soru/jetonlar	Sıra(Tensor)	(Hiçbiri,)	sicim

Örnekler ( tfds.as_dataframe ):

doğal_sorular/uzunt5

Yapılandırma açıklaması : longT5 kıyaslamasında olduğu gibi önceden işlenmiş natural_questions
Veri kümesi boyutu : 8.91 GiB
Özellik yapısı :

FeaturesDict({
    'all_answers': Sequence(Text(shape=(), dtype=string)),
    'answer': Text(shape=(), dtype=string),
    'context': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})

Özellik belgeleri :

Özellik	Sınıf	Şekil	Dtipi
	ÖzelliklerDict
tüm_cevaplar	Sıra(Metin)	(Hiçbiri,)	sicim
cevap	Metin		sicim
bağlam	Metin		sicim
İD	Metin		sicim
soru	Metin		sicim
başlık	Metin		sicim

Örnekler ( tfds.as_dataframe ):

natural_questions Koleksiyonlar ile düzeninizi koruyun İçeriği tercihlerinize göre kaydedin ve kategorilere ayırın.

natural_questions/default (varsayılan yapılandırma)

doğal_sorular/uzunt5

natural_questions