ช่วยปกป้อง Great Barrier Reef กับ TensorFlow บน Kaggle เข้าร่วมท้าทาย

wiki40b

 • รายละเอียด:

ล้างข้อความสำหรับหน้าภาษาวิกิพีเดียมากกว่า 40 ฉบับที่สอดคล้องกับเอนทิตี ชุดข้อมูลมีการแยกฝึก/พัฒนา/ทดสอบตามภาษา ชุดข้อมูลจะถูกล้างโดยการกรองหน้าเพื่อลบหน้าแก้ความกำกวม หน้าเปลี่ยนเส้นทาง หน้าที่ถูกลบ และหน้าที่ไม่ใช่เอนทิตี แต่ละตัวอย่างมีรหัส wikidata ของเอนทิตี และบทความ Wikipedia ฉบับเต็มหลังการประมวลผลหน้าซึ่งจะลบส่วนที่ไม่ใช่เนื้อหาและออบเจ็กต์ที่มีโครงสร้าง รุ่นภาษาการฝึกอบรมในคลังนี้ - รวมทั้ง 41 รูปแบบเดียวและ 2 รุ่นพูดได้หลายภาษา - สามารถพบได้ที่ https: //tfhub.dev/ Google / คอลเลกชัน / wiki40b-lm/1.

 • โฮมเพจ: https://research.google/pubs/pub49029/

 • รหัสที่มา: tfds.text.Wiki40b

 • รุ่น:

  • 1.3.0 (เริ่มต้น): ไม่มีบันทึกประจำรุ่น
 • ขนาดการดาวน์โหลด: Unknown size

 • คุณสมบัติ:

FeaturesDict({
  'text': Text(shape=(), dtype=tf.string),
  'version_id': Text(shape=(), dtype=tf.string),
  'wikidata_id': Text(shape=(), dtype=tf.string),
})
 • คีย์ภายใต้การดูแล (ดู as_supervised doc ): None

 • รูป ( tfds.show_examples ): ไม่ได้รับการสนับสนุน

 • อ้างอิง:

@inproceedings{49029,
title = {Wiki-40B: Multilingual Language Model Dataset},
author = {Mandy Guo and Zihang Dai and Denny Vrandecic and Rami Al-Rfou},
year = {2020},
booktitle  = {LREC 2020}
}

wiki40b/en (การกำหนดค่าเริ่มต้น)

 • คำอธิบาย Config: Wiki40B ชุดสำหรับห้องน้ำ

 • ขนาดชุด: 9.91 GiB

 • ออโต้แคช ( เอกสาร ): ไม่มี

 • แยก:

แยก ตัวอย่าง
'test' 162,274
'train' 2,926,536
'validation' 163,597

wiki40b/ar

 • คำอธิบาย Config: Wiki40B ชุดสำหรับ AR

 • ขนาดชุด: 833.20 MiB

 • ออโต้แคช ( เอกสาร ): ไม่มี

 • แยก:

แยก ตัวอย่าง
'test' 12,271
'train' 220,885
'validation' 12,198

wiki40b/zh-cn

 • คำอธิบาย Config: Wiki40B ชุดสำหรับ zh-CN

 • ขนาดชุด: 985.53 MiB

 • ออโต้แคช ( เอกสาร ): ไม่มี

 • แยก:

แยก ตัวอย่าง
'test' 30,355
'train' 549,672
'validation' 30,299

wiki40b/zh-tw

 • คำอธิบาย Config: Wiki40B ชุดสำหรับ zh-tw

 • ขนาดชุด: 986.45 MiB

 • ออโต้แคช ( เอกสาร ): ไม่มี

 • แยก:

แยก ตัวอย่าง
'test' 30,670
'train' 552,031
'validation' 30,739

wiki40b/nl

 • คำอธิบาย Config: Wiki40B ชุดสำหรับ NL

 • ขนาดชุดข้อมูล: 961.82 MiB

 • ออโต้แคช ( เอกสาร ): ไม่มี

 • แยก:

แยก ตัวอย่าง
'test' 24,776
'train' 447,555
'validation' 25,201

wiki40b/fr

 • คำอธิบาย Config: Wiki40B ชุดสำหรับเ

 • ขนาดชุด: 3.37 GiB

 • ออโต้แคช ( เอกสาร ): ไม่มี

 • แยก:

แยก ตัวอย่าง
'test' 68,004
'train' 1,227,206
'validation' 68,655

wiki40b/de

 • คำอธิบาย Config: Wiki40B ชุดสำหรับเด

 • ขนาดชุด: 4.78 GiB

 • ออโต้แคช ( เอกสาร ): ไม่มี

 • แยก:

แยก ตัวอย่าง
'test' 86,594
'train' 1,554,910
'validation' 86,068

wiki40b/it

 • คำอธิบาย Config: Wiki40B ชุดสำหรับมัน

 • ขนาดชุด: 2.00 GiB

 • ออโต้แคช ( เอกสาร ): ไม่มี

 • แยก:

แยก ตัวอย่าง
'test' 40,443
'train' 732,609
'validation' 40,684

wiki40b/ja

 • คำอธิบาย Config: Wiki40B ชุดสำหรับ ja

 • ขนาดชุด: 2.19 GiB

 • ออโต้แคช ( เอกสาร ): ไม่มี

 • แยก:

แยก ตัวอย่าง
'test' 41,268
'train' 745,392
'validation' 41,576

wiki40b/ko

 • คำอธิบาย Config: Wiki40B ชุดสำหรับเกาะ

 • ขนาดชุด: 453.98 MiB

 • ออโต้แคช ( เอกสาร ): ไม่มี

 • แยก:

แยก ตัวอย่าง
'test' 10,802
'train' 194,977
'validation' 10,805

wiki40b/pl

 • คำอธิบาย Config: Wiki40B ชุดสำหรับพี

 • ขนาดชุด: 1.03 GiB

 • ออโต้แคช ( เอกสาร ): ไม่มี

 • แยก:

แยก ตัวอย่าง
'test' 27,987
'train' 505,191
'validation' 28,310

wiki40b/pt

 • คำอธิบาย Config: สำหรับชุดข้อมูล Wiki40B จุด

 • ขนาดชุด: 1.08 GiB

 • ออโต้แคช ( เอกสาร ): ไม่มี

 • แยก:

แยก ตัวอย่าง
'test' 22,693
'train' 406,507
'validation' 22,301

wiki40b/ru

 • คำอธิบาย Config: Wiki40B ชุดสำหรับ RU

 • ขนาดชุด: 4.13 GiB

 • ออโต้แคช ( เอกสาร ): ไม่มี

 • แยก:

แยก ตัวอย่าง
'test' 51,885
'train' 926,037
'validation' 51,287

wiki40b/es

 • คำอธิบาย Config: Wiki40B ชุดสำหรับ ES

 • ไซส์ชุดข้อมูล: 2.70 GiB

 • ออโต้แคช ( เอกสาร ): ไม่มี

 • แยก:

แยก ตัวอย่าง
'test' 48,764
'train' 872,541
'validation' 48,592

wiki40b/th

 • คำอธิบาย Config: Wiki40B ชุดสำหรับวันที่

 • ขนาดชุด: 326.29 MiB

 • ออโต้แคช ( เอกสาร ): ไม่มี

 • แยก:

แยก ตัวอย่าง
'test' 3,114
'train' 56,798
'validation' 3,093

wiki40b/tr

 • คำอธิบาย Config: Wiki40B ชุดสำหรับ TR

 • ขนาดชุด: 308.87 MiB

 • ออโต้แคช ( เอกสาร ): ไม่มี

 • แยก:

แยก ตัวอย่าง
'test' 7,890
'train' 142,576
'validation' 7,845

wiki40b/bg

 • คำอธิบาย Config: สำหรับชุดข้อมูล Wiki40B BG

 • ขนาดชุด: 433.20 MiB

 • ออโต้แคช ( เอกสาร ): ไม่มี

 • แยก:

แยก ตัวอย่าง
'test' 7,289
'train' 130,670
'validation' 7,259

wiki40b/ca

 • คำอธิบาย Config: Wiki40B ชุดสำหรับแคลิฟอร์เนีย

 • ขนาดชุด: 753.00 MiB

 • ออโต้แคช ( เอกสาร ): ไม่มี

 • แยก:

แยก ตัวอย่าง
'test' 15,568
'train' 277,313
'validation' 15,362

wiki40b/cs

 • คำอธิบาย Config: Wiki40B ชุดสำหรับ cs

 • ขนาดชุด: 631.84 MiB

 • ออโต้แคช ( เอกสาร ): ไม่มี

 • แยก:

แยก ตัวอย่าง
'test' 12,984
'train' 235,971
'validation' 13,096

wiki40b/da

 • คำอธิบาย Config: Wiki40B ชุดสำหรับดา

 • ขนาดชุด: 240.51 MiB

 • ออโต้แคช ( เอกสาร ): ใช่ (การทดสอบการตรวจสอบ) เฉพาะเมื่อ shuffle_files=False (รถไฟ)

 • แยก:

แยก ตัวอย่าง
'test' 6,219
'train' 109,486
'validation' 6,173

wiki40b/el

 • คำอธิบาย Config: Wiki40B ชุดสำหรับเอล

 • ขนาดชุด: 524.77 MiB

 • ออโต้แคช ( เอกสาร ): ไม่มี

 • แยก:

แยก ตัวอย่าง
'test' 5,261
'train' 93,596
'validation' 5,130

wiki40b/et

 • คำอธิบาย Config: Wiki40B ชุดสำหรับ et

 • ขนาดชุด: 184.07 MiB

 • ออโต้แคช ( เอกสาร ): ใช่ (การทดสอบการตรวจสอบ) เฉพาะเมื่อ shuffle_files=False (รถไฟ)

 • แยก:

แยก ตัวอย่าง
'test' 6,205
'train' 114,464
'validation' 6,351

wiki40b/fa

 • คำอธิบาย Config: Wiki40B ชุดข้อมูลที่เอฟเอ

 • ขนาดชุด: 482.55 MiB

 • ออโต้แคช ( เอกสาร ): ไม่มี

 • แยก:

แยก ตัวอย่าง
'test' 11,262
'train' 203,145
'validation' 11,180

wiki40b/fi

 • คำอธิบาย Config: Wiki40B ชุดสำหรับ Fi

 • ขนาดชุด: 534.13 MiB

 • ออโต้แคช ( เอกสาร ): ไม่มี

 • แยก:

แยก ตัวอย่าง
'test' 14,179
'train' 255,822
'validation' 13,962

wiki40b/เขา

 • คำอธิบาย Config: Wiki40B ชุดสำหรับเขา

 • ขนาดชุด: 869.51 MiB

 • ออโต้แคช ( เอกสาร ): ไม่มี

 • แยก:

แยก ตัวอย่าง
'test' 9,344
'train' 165,359
'validation' 9,231

wiki40b/hi

 • คำอธิบาย Config: Wiki40B ชุดสำหรับ Hi

 • ขนาดชุด: 277.56 MiB

 • ออโต้แคช ( เอกสาร ): ไม่มี

 • แยก:

แยก ตัวอย่าง
'test' 2,643
'train' 45,737
'validation' 2,596

wiki40b/ชม

 • คำอธิบาย Config: Wiki40B ชุดสำหรับชม

 • ขนาดชุด: 235.58 MiB

 • ออโต้แคช ( เอกสาร ): ใช่ (การทดสอบการตรวจสอบ) เฉพาะเมื่อ shuffle_files=False (รถไฟ)

 • แยก:

แยก ตัวอย่าง
'test' 5,724
'train' 103,857
'validation' 5,792

wiki40b/hu

 • คำอธิบาย Config: Wiki40B ชุดสำหรับอู่

 • ขนาดชุด: 634.25 MiB

 • ออโต้แคช ( เอกสาร ): ไม่มี

 • แยก:

แยก ตัวอย่าง
'test' 15,258
'train' 273,248
'validation' 15,208

wiki40b/id

 • คำอธิบาย Config: Wiki40B ชุดสำหรับ ID

 • ขนาดชุด: 334.06 MiB

 • ออโต้แคช ( เอกสาร ): ไม่มี

 • แยก:

แยก ตัวอย่าง
'test' 8,598
'train' 156,255
'validation' 8,714

wiki40b/lt

 • คำอธิบาย Config: Wiki40B ชุดสำหรับ LT

 • ไซส์ชุด: 140.46 MiB

 • ออโต้แคช ( เอกสาร ): ใช่

 • แยก:

แยก ตัวอย่าง
'test' 4,683
'train' 84,854
'validation' 4,754

wiki40b/lv

 • คำอธิบาย Config: Wiki40B ชุดสำหรับ LV

 • ขนาดชุด: 80.07 MiB

 • ออโต้แคช ( เอกสาร ): ใช่

 • แยก:

แยก ตัวอย่าง
'test' 1,932
'train' 33,064
'validation' 1,857

wiki40b/ms

 • คำอธิบาย Config: Wiki40B ชุดสำหรับ MS

 • ขนาดชุด: 142.49 MiB

 • ออโต้แคช ( เอกสาร ): ใช่ (การทดสอบการตรวจสอบ) เฉพาะเมื่อ shuffle_files=False (รถไฟ)

 • แยก:

แยก ตัวอย่าง
'test' 5,235
'train' 97,509
'validation' 5,357

wiki40b/no

 • คำอธิบาย Config: Wiki40B ชุดข้อมูลที่ไม่มี

 • ขนาดชุด: 382.03 MiB

 • ออโต้แคช ( เอกสาร ): ไม่มี

 • แยก:

แยก ตัวอย่าง
'test' 10,588
'train' 190,588
'validation' 10,547

wiki40b/ro

 • คำอธิบาย Config: Wiki40B ชุดสำหรับ RO

 • ขนาดชุด: 319.68 MiB

 • ออโต้แคช ( เอกสาร ): ไม่มี

 • แยก:

แยก ตัวอย่าง
'test' 7,870
'train' 139,615
'validation' 7,624

wiki40b/sk

 • คำอธิบาย Config: Wiki40B ชุดสำหรับ sk

 • ขนาดชุด: 170.20 MiB

 • ออโต้แคช ( เอกสาร ): ใช่ (การทดสอบการตรวจสอบ) เฉพาะเมื่อ shuffle_files=False (รถไฟ)

 • แยก:

แยก ตัวอย่าง
'test' 5,741
'train' 103,095
'validation' 5,604

wiki40b/sl

 • คำอธิบาย Config: Wiki40B ชุดสำหรับ SL

 • ขนาดชุด: 157.38 MiB

 • ออโต้แคช ( เอกสาร ): ใช่ (การทดสอบการตรวจสอบ) เฉพาะเมื่อ shuffle_files=False (รถไฟ)

 • แยก:

แยก ตัวอย่าง
'test' 3,341
'train' 60,927
'validation' 3,287

wiki40b/sr

 • คำอธิบาย Config: Wiki40B ชุดสำหรับ sr

 • ขนาดชุด: 582.20 MiB

 • ออโต้แคช ( เอกสาร ): ไม่มี

 • แยก:

แยก ตัวอย่าง
'test' 17,997
'train' 327,313
'validation' 18,100

wiki40b/sv

 • คำอธิบาย Config: Wiki40B ชุดสำหรับ sv

 • ขนาดชุด: 613.62 MiB

 • ออโต้แคช ( เอกสาร ): ไม่มี

 • แยก:

แยก ตัวอย่าง
'test' 22,291
'train' 400,742
'validation' 22,263

wiki40b/tl

 • คำอธิบาย Config: Wiki40B ชุดสำหรับ TL

 • ขนาดชุด: 29.04 MiB

 • ออโต้แคช ( เอกสาร ): ใช่

 • แยก:

แยก ตัวอย่าง
'test' 1,446
'train' 25,940
'validation' 1,472

wiki40b/uk

 • คำอธิบาย Config: Wiki40B ชุดสำหรับสหราชอาณาจักร

 • ขนาดชุด: 1.67 GiB

 • ออโต้แคช ( เอกสาร ): ไม่มี

 • แยก:

แยก ตัวอย่าง
'test' 26,581
'train' 477,618
'validation' 26,324

wiki40b/vi

 • คำอธิบาย Config: Wiki40B ชุดสำหรับ vi

 • ขนาดชุด: 497.70 MiB

 • ออโต้แคช ( เอกสาร ): ไม่มี

 • แยก:

แยก ตัวอย่าง
'test' 7,942
'train' 146,255
'validation' 8,195