wikitext_tl39

منابع:

wikitext-tl-39

برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:

ds = tfds.load('huggingface:wikitext_tl39/wikitext-tl-39')
  • شرح :
Large scale, unlabeled text dataset with 39 Million tokens in the training set. Inspired by the original WikiText Long Term Dependency dataset (Merity et al., 2016). TL means "Tagalog." Originally published in Cruz & Cheng (2019).
  • مجوز : GPL-3.0
  • نسخه : 1.0.0
  • تقسیمات :
شکاف مثال ها
'test' 376737
'train' 1766072
'validation' 381763
  • امکانات :
{
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}