- Açıklama:
Metin Alma Konferansı (TREC) Soru Sınıflandırma veri seti, eğitim setinde 5500 etiketli soru ve test seti için başka bir 500 soru içerir. Veri setinde 6 etiket, 47 seviye-2 etiket bulunmaktadır. Her cümlenin ortalama uzunluğu 10, kelime boyutu 8700'dür. Veriler dört kaynaktan toplanmıştır: USC tarafından yayınlanan 4.500 İngilizce soru (Hovy ve diğerleri, 2001), birkaç nadir sınıf için yaklaşık 500 elle oluşturulmuş soru, 894 TREC 8 ve TREC 9 soruları ve ayrıca test seti olarak hizmet veren TREC 10'dan 500 soru.
Kaynak kodu:
tfds.text.trec.Trec
sürümleri:
-
1.0.0
(varsayılan): Hayır sürüm notları.
-
İndirme boyutu:
350.79 KiB
Veri kümesi boyutu:
636.90 KiB
Otomatik önbelleğe ( dokümantasyon ): Evet
Splits:
Bölmek | Örnekler |
---|---|
'test' | 500 |
'train' | 5.452 |
- Özellikler:
FeaturesDict({
'label-coarse': ClassLabel(shape=(), dtype=tf.int64, num_classes=6),
'label-fine': ClassLabel(shape=(), dtype=tf.int64, num_classes=47),
'text': Text(shape=(), dtype=tf.string),
})
Denetimli tuşları (Bkz
as_supervised
doc ):None
Şekil ( tfds.show_examples ): desteklenmez.
Örnekler ( tfds.as_dataframe ):
- Citation:
@inproceedings{li-roth-2002-learning,
title = "Learning Question Classifiers",
author = "Li, Xin and
Roth, Dan",
booktitle = "{COLING} 2002: The 19th International Conference on Computational Linguistics",
year = "2002",
url = "https://www.aclweb.org/anthology/C02-1150",
}
@inproceedings{hovy-etal-2001-toward,
title = "Toward Semantics-Based Answer Pinpointing",
author = "Hovy, Eduard and
Gerber, Laurie and
Hermjakob, Ulf and
Lin, Chin-Yew and
Ravichandran, Deepak",
booktitle = "Proceedings of the First International Conference on Human Language Technology Research",
year = "2001",
url = "https://www.aclweb.org/anthology/H01-1069",
}