- توضیحات :
مجموعه داده طبقه بندی س Conferenceالات کنفرانس بازیابی متن (TREC) شامل 5500 س questionsال با برچسب در مجموعه آموزش و 500 س questionsال دیگر برای مجموعه آزمون است. مجموعه داده دارای 6 برچسب ، 47 برچسب سطح 2 است. طول متوسط هر جمله 10 ، اندازه واژگان 8700 است. داده ها از چهار منبع جمع آوری شده است: 4500 س questionsال انگلیسی منتشر شده توسط USC (Hovy و همکاران ، 2001) ، حدود 500 س questionsال ساخته شده دستی برای چند کلاس نادر ، 894 TREC 8 و سوالات TREC 9 و همچنین 500 سوال از TREC 10 که به عنوان مجموعه آزمون عمل می کند.
صفحه اصلی : https://cogcomp.seas.upenn.edu/Data/QA/QC/
کد منبع :
tfds.text.trec.Trec
نسخه ها :
-
1.0.0
(پیش فرض): بدون یادداشت انتشار.
-
اندازه
350.79 KiB
:350.79 KiB
اندازه مجموعه داده :
636.90 KiB
ذخیره خودکار ( مستندات ): بله
تقسیم :
شکاف | مثال ها |
---|---|
'test' | 500 |
'train' | 5452 |
- ویژگی ها :
FeaturesDict({
'label-coarse': ClassLabel(shape=(), dtype=tf.int64, num_classes=6),
'label-fine': ClassLabel(shape=(), dtype=tf.int64, num_classes=47),
'text': Text(shape=(), dtype=tf.string),
})
کلیدهای تحت نظارت (به
as_supervised
سند نظارت شده مراجعه کنید):None
نقل قول :
@inproceedings{li-roth-2002-learning,
title = "Learning Question Classifiers",
author = "Li, Xin and
Roth, Dan",
booktitle = "{COLING} 2002: The 19th International Conference on Computational Linguistics",
year = "2002",
url = "https://www.aclweb.org/anthology/C02-1150",
}
@inproceedings{hovy-etal-2001-toward,
title = "Toward Semantics-Based Answer Pinpointing",
author = "Hovy, Eduard and
Gerber, Laurie and
Hermjakob, Ulf and
Lin, Chin-Yew and
Ravichandran, Deepak",
booktitle = "Proceedings of the First International Conference on Human Language Technology Research",
year = "2001",
url = "https://www.aclweb.org/anthology/H01-1069",
}
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثالها ( tfds.as_dataframe ):