- Açıklama :
TriviaqQA, 650 binden fazla soru-cevap-kanıt üçlüsünü içeren bir okuduğunu anlama veri setidir. TriviaqQA, soruların yanıtlanması için yüksek kaliteli uzaktan denetim sağlayan, soru başına ortalama altı adet olmak üzere, trivia meraklıları tarafından yazılan 95 bin soru-cevap çiftini ve bağımsız olarak toplanmış kanıt belgelerini içerir.
Ana sayfa : http://nlp.cs.washington.edu/triviaqa/
Kaynak kodu :
tfds.question_answering.TriviaQA
Sürümler :
-
1.1.0
(varsayılan): Sürüm notu yok.
-
İndirme boyutu :
Unknown size
Veri kümesi boyutu :
119.78 MiB
Otomatik önbelleğe alınmış ( belgeler ): Evet
Bölmeler :
Bölmek | Örnekler |
---|---|
'test' | 10.832 |
'train' | 87.622 |
'validation' | 11.313 |
- Özellik yapısı :
FeaturesDict({
'answer': FeaturesDict({
'aliases': Sequence(Text(shape=(), dtype=tf.string)),
'matched_wiki_entity_name': Text(shape=(), dtype=tf.string),
'normalized_aliases': Sequence(Text(shape=(), dtype=tf.string)),
'normalized_matched_wiki_entity_name': Text(shape=(), dtype=tf.string),
'normalized_value': Text(shape=(), dtype=tf.string),
'type': Text(shape=(), dtype=tf.string),
'value': Text(shape=(), dtype=tf.string),
}),
'entity_pages': Sequence({
'doc_source': Text(shape=(), dtype=tf.string),
'filename': Text(shape=(), dtype=tf.string),
'title': Text(shape=(), dtype=tf.string),
'wiki_context': Text(shape=(), dtype=tf.string),
}),
'question': Text(shape=(), dtype=tf.string),
'question_id': Text(shape=(), dtype=tf.string),
'question_source': Text(shape=(), dtype=tf.string),
'search_results': Sequence({
'description': Text(shape=(), dtype=tf.string),
'filename': Text(shape=(), dtype=tf.string),
'rank': tf.int32,
'search_context': Text(shape=(), dtype=tf.string),
'title': Text(shape=(), dtype=tf.string),
'url': Text(shape=(), dtype=tf.string),
}),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtype | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
Cevap | ÖzelliklerDict | |||
cevap/takma adlar | Sıra(Metin) | (Hiçbiri,) | tf.string | |
answer/matched_wiki_entity_name | Metin | tf.string | ||
cevap/normalleştirilmiş_aliases | Sıra(Metin) | (Hiçbiri,) | tf.string | |
answer/normalized_matched_wiki_entity_name | Metin | tf.string | ||
cevap/normalleştirilmiş_değer | Metin | tf.string | ||
cevap/tür | Metin | tf.string | ||
cevap/değer | Metin | tf.string | ||
varlık_sayfaları | Sekans | |||
entity_pages/doc_source | Metin | tf.string | ||
varlık_sayfaları/dosya adı | Metin | tf.string | ||
varlık_sayfaları/başlık | Metin | tf.string | ||
entity_pages/wiki_context | Metin | tf.string | ||
soru | Metin | tf.string | ||
soru_kimliği | Metin | tf.string | ||
soru_kaynağı | Metin | tf.string | ||
Arama Sonuçları | Sekans | |||
arama_sonuçları/açıklama | Metin | tf.string | ||
arama_sonuçları/dosya adı | Metin | tf.string | ||
arama_sonuçları/sıralama | tensör | tf.int32 | ||
search_results/search_context | Metin | tf.string | ||
arama_sonuçları/başlık | Metin | tf.string | ||
arama_sonuçları/url | Metin | tf.string |
Denetimli anahtarlar (bkz
as_supervised
doc ):None
Şekil ( tfds.show_examples ): Desteklenmez.
Örnekler ( tfds.as_dataframe ): Eksik.
alıntı :
@article{2017arXivtriviaqa,
author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
Daniel and {Zettlemoyer}, Luke},
title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
journal = {arXiv e-prints},
year = 2017,
eid = {arXiv:1705.03551},
pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
eprint = {1705.03551},
}
trivia_qa/rc (varsayılan yapılandırma)
- Yapılandırma açıklaması : Belirli bir soru için tüm belgelerin yanıt dizelerini içerdiği soru-cevap çiftleri. Wikipedia ve arama sonuçlarından bağlam içerir.
trivia_qa/rc.nocontext
- Yapılandırma açıklaması : Belirli bir soru için tüm belgelerin yanıt dizelerini içerdiği soru-cevap çiftleri.
trivia_qa/filtrelenmemiş
- Yapılandırma açıklaması : Belirli bir soru için tüm belgelerin yanıt dizelerini içermediği açık alan QA için 110 bin soru-cevap çifti. Bu, filtrelenmemiş veri kümesini IR tarzı QA için daha uygun hale getirir. Wikipedia ve arama sonuçlarından bağlam içerir.
trivia_qa/filtrelenmemiş.nocontext
- Yapılandırma açıklaması : Belirli bir soru için tüm belgelerin yanıt dizelerini içermediği açık alan QA için 110 bin soru-cevap çifti. Bu, filtrelenmemiş veri kümesini IR tarzı QA için daha uygun hale getirir.