- توضیحات :
یک مجموعه معیار برای اندازه گیری پیشرفت در مدل سازی زبان آماری استفاده می شود. این تقریباً یک میلیارد کلمه در داده های آموزش دارد.
صفحه اصلی : http://www.statmt.org/lm-benchmark/
کد منبع :
tfds.text.Lm1b
نسخه ها :
-
1.1.0
(پیش فرض): بدون یادداشت انتشار.
-
اندازه بارگیری :
1.67 GiB
اندازه مجموعه داده :
4.40 GiB
ذخیره خودکار ( مستندات ): خیر
تقسیم :
شکاف | مثال ها |
---|---|
'test' | 306.688 |
'train' | 30،301،028 |
- ویژگی ها :
FeaturesDict({
'text': Text(shape=(), dtype=tf.string),
})
کلیدهای تحت نظارت (به
as_supervised
سند نظارت شده مراجعه کنید):('text', 'text')
نقل قول :
@article{DBLP:journals/corr/ChelbaMSGBK13,
author = {Ciprian Chelba and
Tomas Mikolov and
Mike Schuster and
Qi Ge and
Thorsten Brants and
Phillipp Koehn},
title = {One Billion Word Benchmark for Measuring Progress in Statistical Language
Modeling},
journal = {CoRR},
volume = {abs/1312.3005},
year = {2013},
url = {http://arxiv.org/abs/1312.3005},
archivePrefix = {arXiv},
eprint = {1312.3005},
timestamp = {Mon, 13 Aug 2018 16:46:16 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/ChelbaMSGBK13},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثالها ( tfds.as_dataframe ):