วิกิข้อความ_tl39

อ้างอิง:

วิกิเท็กซ์-tl-39

ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:

ds = tfds.load('huggingface:wikitext_tl39/wikitext-tl-39')
  • คำอธิบาย :
Large scale, unlabeled text dataset with 39 Million tokens in the training set. Inspired by the original WikiText Long Term Dependency dataset (Merity et al., 2016). TL means "Tagalog." Originally published in Cruz & Cheng (2019).
  • ใบอนุญาต : GPL-3.0
  • เวอร์ชัน : 1.0.0
  • แยก :
แยก ตัวอย่าง
'test' 376737
'train' 1766072
'validation' 381763
  • คุณสมบัติ :
{
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}