- คำอธิบาย :
ข้อความการล้างข้อมูลสำหรับหน้ารุ่นภาษาวิกิพีเดียมากกว่า 40 หน้าที่สอดคล้องกับเอนทิตี ชุดข้อมูลมีการแบ่งการฝึก/การพัฒนา/การทดสอบสำหรับแต่ละภาษา ชุดข้อมูลถูกล้างโดยการกรองหน้าเพื่อลบหน้าแก้ความกำกวม หน้าเปลี่ยนเส้นทาง หน้าที่ถูกลบ และหน้าที่ไม่ใช่เอนทิตี แต่ละตัวอย่างมีรหัสวิกิข้อมูลของเอนทิตี และบทความวิกิพีเดียแบบเต็มหลังการประมวลผลหน้าที่ลบส่วนที่ไม่ใช่เนื้อหาและวัตถุที่มีโครงสร้าง โมเดลภาษาที่ได้รับการฝึกฝนในคลังข้อมูลนี้ - รวมถึงโมเดลภาษาเดียว 41 รายการ และโมเดลหลายภาษา 2 รายการ - ดูได้ที่ https://tfhub.dev/google/collections/ wiki40b-lm/1.
เอกสารประกอบเพิ่มเติม : สำรวจเอกสารด้วยรหัส
หน้าแรก : https://research.google/pubs/pub49029/
รหัสที่มา :
tfds.text.Wiki40b
รุ่น :
-
1.3.0
(ค่าเริ่มต้น): ไม่มีบันทึกประจำรุ่น
-
ขนาดการดาวน์โหลด :
Unknown size
โครงสร้างคุณลักษณะ :
FeaturesDict({
'text': Text(shape=(), dtype=string),
'version_id': Text(shape=(), dtype=string),
'wikidata_id': Text(shape=(), dtype=string),
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
ข้อความ | ข้อความ | สตริง | ||
version_id | ข้อความ | สตริง | ||
wikidata_id | ข้อความ | สตริง |
คีย์ภายใต้การดูแล (ดู
as_supervised
doc ):None
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
การอ้างอิง :
@inproceedings{49029,
title = {Wiki-40B: Multilingual Language Model Dataset},
author = {Mandy Guo and Zihang Dai and Denny Vrandecic and Rami Al-Rfou},
year = {2020},
booktitle = {LREC 2020}
}
wiki40b/en (การกำหนดค่าเริ่มต้น)
คำอธิบาย การกำหนดค่า : ชุดข้อมูล Wiki40B สำหรับ en
ขนาดชุดข้อมูล :
9.91 GiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 162,274 |
'train' | 2,926,536 |
'validation' | 163,597 |
- ตัวอย่าง ( tfds.as_dataframe ):
wiki40b/ar
คำอธิบาย การกำหนดค่า : ชุดข้อมูล Wiki40B สำหรับ ar
ขนาดชุดข้อมูล :
833.20 MiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 12,271 |
'train' | 220,885 |
'validation' | 12,198 |
- ตัวอย่าง ( tfds.as_dataframe ):
wiki40b/zh-cn
คำอธิบาย การกำหนดค่า : ชุดข้อมูล Wiki40B สำหรับ zh-cn
ขนาดชุดข้อมูล :
985.53 MiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 30,355 |
'train' | 549,672 |
'validation' | 30,299 |
- ตัวอย่าง ( tfds.as_dataframe ):
wiki40b/zh-tw
คำอธิบาย การกำหนดค่า : ชุดข้อมูล Wiki40B สำหรับ zh-tw
ขนาดชุดข้อมูล :
986.45 MiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 30,670 |
'train' | 552,031 |
'validation' | 30,739 |
- ตัวอย่าง ( tfds.as_dataframe ):
wiki40b/nl
คำอธิบาย การกำหนดค่า : ชุดข้อมูล Wiki40B สำหรับ nl
ขนาดชุดข้อมูล :
961.82 MiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 24,776 |
'train' | 447,555 |
'validation' | 25,201 |
- ตัวอย่าง ( tfds.as_dataframe ):
wiki40b/fr
คำอธิบาย การกำหนดค่า : ชุดข้อมูล Wiki40B สำหรับ fr.
ขนาดชุดข้อมูล :
3.37 GiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 68,004 |
'train' | 1,227,206 |
'validation' | 68,655 |
- ตัวอย่าง ( tfds.as_dataframe ):
wiki40b/de
คำอธิบาย การกำหนดค่า : ชุดข้อมูล Wiki40B สำหรับ de
ขนาดชุดข้อมูล :
4.78 GiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 86,594 |
'train' | 1,554,910 |
'validation' | 86,068 |
- ตัวอย่าง ( tfds.as_dataframe ):
wiki40b/it
คำอธิบาย การกำหนดค่า : ชุดข้อมูล Wiki40B สำหรับมัน
ขนาดชุดข้อมูล :
2.00 GiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 40,443 |
'train' | 732,609 |
'validation' | 40,684 |
- ตัวอย่าง ( tfds.as_dataframe ):
wiki40b/ja
คำอธิบาย การกำหนดค่า : ชุดข้อมูล Wiki40B สำหรับ ja
ขนาดชุดข้อมูล :
2.19 GiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 41,268 |
'train' | 745,392 |
'validation' | 41,576 |
- ตัวอย่าง ( tfds.as_dataframe ):
wiki40b/โค
คำอธิบาย การกำหนดค่า : ชุดข้อมูล Wiki40B สำหรับ ko
ขนาดชุดข้อมูล :
453.98 MiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 10,802 |
'train' | 194,977 |
'validation' | 10,805 |
- ตัวอย่าง ( tfds.as_dataframe ):
wiki40b/pl
คำอธิบาย การกำหนดค่า : ชุดข้อมูล Wiki40B สำหรับ pl
ขนาดชุดข้อมูล :
1.03 GiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 27,987 |
'train' | 505,191 |
'validation' | 28,310 |
- ตัวอย่าง ( tfds.as_dataframe ):
wiki40b/pt
คำอธิบาย การกำหนดค่า : ชุดข้อมูล Wiki40B สำหรับ pt.
ขนาดชุดข้อมูล :
1.08 GiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 22,693 |
'train' | 406,507 |
'validation' | 22,301 |
- ตัวอย่าง ( tfds.as_dataframe ):
wiki40b/ru
คำอธิบาย การกำหนดค่า : ชุดข้อมูล Wiki40B สำหรับ ru
ขนาดชุดข้อมูล :
4.13 GiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 51,885 |
'train' | 926,037 |
'validation' | 51,287 |
- ตัวอย่าง ( tfds.as_dataframe ):
wiki40b/es
คำอธิบาย การกำหนดค่า : ชุดข้อมูล Wiki40B สำหรับ es
ขนาดชุดข้อมูล :
2.70 GiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 48,764 |
'train' | 872,541 |
'validation' | 48,592 |
- ตัวอย่าง ( tfds.as_dataframe ):
wiki40b/th
คำอธิบาย การกำหนดค่า : ชุดข้อมูล Wiki40B สำหรับ th.
ขนาดชุดข้อมูล :
326.29 MiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 3,114 |
'train' | 56,798 |
'validation' | 3,093 |
- ตัวอย่าง ( tfds.as_dataframe ):
wiki40b/tr
คำอธิบาย การกำหนดค่า : ชุดข้อมูล Wiki40B สำหรับ tr
ขนาดชุดข้อมูล :
308.87 MiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 7,890 |
'train' | 142,576 |
'validation' | 7,845 |
- ตัวอย่าง ( tfds.as_dataframe ):
wiki40b/bg
คำอธิบาย การกำหนดค่า : ชุดข้อมูล Wiki40B สำหรับ bg
ขนาดชุดข้อมูล :
433.20 MiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 7,289 |
'train' | 130,670 |
'validation' | 7,259 |
- ตัวอย่าง ( tfds.as_dataframe ):
wiki40b/แคลิฟอร์เนีย
คำอธิบาย การกำหนดค่า : ชุดข้อมูล Wiki40B สำหรับแคลิฟอร์เนีย
ขนาดชุดข้อมูล :
753.00 MiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 15,568 |
'train' | 277,313 |
'validation' | 15,362 |
- ตัวอย่าง ( tfds.as_dataframe ):
wiki40b/cs
คำอธิบาย การกำหนดค่า : ชุดข้อมูล Wiki40B สำหรับ cs
ขนาดชุดข้อมูล :
631.84 MiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 12,984 |
'train' | 235,971 |
'validation' | 13,096 |
- ตัวอย่าง ( tfds.as_dataframe ):
wiki40b/ดา
คำอธิบาย การกำหนดค่า : ชุดข้อมูล Wiki40B สำหรับดา
ขนาดชุดข้อมูล :
240.51 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่ (ทดสอบ ตรวจสอบ) เฉพาะเมื่อ
shuffle_files=False
(รถไฟ)แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 6,219 |
'train' | 109,486 |
'validation' | 6,173 |
- ตัวอย่าง ( tfds.as_dataframe ):
wiki40b/เอล
คำอธิบาย การกำหนดค่า : ชุดข้อมูล Wiki40B สำหรับ el
ขนาดชุดข้อมูล :
524.77 MiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 5,261 |
'train' | 93,596 |
'validation' | 5,130 |
- ตัวอย่าง ( tfds.as_dataframe ):
wiki40b/เอต
คำอธิบาย การกำหนดค่า : ชุดข้อมูล Wiki40B สำหรับ et
ขนาดชุดข้อมูล :
184.07 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่ (ทดสอบ ตรวจสอบ) เฉพาะเมื่อ
shuffle_files=False
(รถไฟ)แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 6,205 |
'train' | 114,464 |
'validation' | 6,351 |
- ตัวอย่าง ( tfds.as_dataframe ):
wiki40b/ฟ้า
คำอธิบาย การกำหนดค่า : ชุดข้อมูล Wiki40B สำหรับ fa
ขนาดชุดข้อมูล :
482.55 MiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 11,262 |
'train' | 203,145 |
'validation' | 11,180 |
- ตัวอย่าง ( tfds.as_dataframe ):
wiki40b/fi
คำอธิบาย การกำหนดค่า : ชุดข้อมูล Wiki40B สำหรับ fi
ขนาดชุดข้อมูล :
534.13 MiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 14,179 |
'train' | 255,822 |
'validation' | 13,962 |
- ตัวอย่าง ( tfds.as_dataframe ):
wiki40b/เขา
คำอธิบาย การกำหนดค่า : ชุดข้อมูล Wiki40B สำหรับเขา
ขนาดชุดข้อมูล :
869.51 MiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 9,344 |
'train' | 165,359 |
'validation' | 9,231 |
- ตัวอย่าง ( tfds.as_dataframe ):
wiki40b/สวัสดี
คำอธิบาย การกำหนดค่า : ชุดข้อมูล Wiki40B สำหรับสวัสดี
ขนาดชุดข้อมูล :
277.56 MiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 2,643 |
'train' | 45,737 |
'validation' | 2,596 |
- ตัวอย่าง ( tfds.as_dataframe ):
wiki40b/ชม
คำอธิบาย การกำหนดค่า : ชุดข้อมูล Wiki40B สำหรับชั่วโมง
ขนาดชุดข้อมูล :
235.58 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่ (ทดสอบ ตรวจสอบ) เฉพาะเมื่อ
shuffle_files=False
(รถไฟ)แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 5,724 |
'train' | 103,857 |
'validation' | 5,792 |
- ตัวอย่าง ( tfds.as_dataframe ):
wiki40b/hu
คำอธิบาย การกำหนดค่า : ชุดข้อมูล Wiki40B สำหรับ hu
ขนาดชุดข้อมูล :
634.25 MiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 15,258 |
'train' | 273,248 |
'validation' | 15,208 |
- ตัวอย่าง ( tfds.as_dataframe ):
wiki40b/รหัส
คำอธิบาย การกำหนดค่า : ชุดข้อมูล Wiki40B สำหรับ id
ขนาดชุดข้อมูล :
334.06 MiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 8,598 |
'train' | 156,255 |
'validation' | 8,714 |
- ตัวอย่าง ( tfds.as_dataframe ):
wiki40b/ลิตร
คำอธิบาย การกำหนดค่า : ชุดข้อมูล Wiki40B สำหรับ lt
ขนาดชุดข้อมูล :
140.46 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 4,683 |
'train' | 84,854 |
'validation' | 4,754 |
- ตัวอย่าง ( tfds.as_dataframe ):
wiki40b/เลเวล
คำอธิบาย การกำหนดค่า : ชุดข้อมูล Wiki40B สำหรับ lv.
ขนาดชุดข้อมูล :
80.07 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 1,932 |
'train' | 33,064 |
'validation' | 1,857 |
- ตัวอย่าง ( tfds.as_dataframe ):
wiki40b/ms
คำอธิบาย การกำหนดค่า : ชุดข้อมูล Wiki40B สำหรับ ms
ขนาดชุดข้อมูล :
142.49 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่ (ทดสอบ ตรวจสอบ) เฉพาะเมื่อ
shuffle_files=False
(รถไฟ)แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 5,235 |
'train' | 97,509 |
'validation' | 5,357 |
- ตัวอย่าง ( tfds.as_dataframe ):
wiki40b/ไม่
คำอธิบาย การกำหนดค่า : ชุดข้อมูล Wiki40B สำหรับหมายเลข
ขนาดชุดข้อมูล :
382.03 MiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 10,588 |
'train' | 190,588 |
'validation' | 10,547 |
- ตัวอย่าง ( tfds.as_dataframe ):
wiki40b/ro
คำอธิบาย การกำหนดค่า : ชุดข้อมูล Wiki40B สำหรับ ro
ขนาดชุดข้อมูล :
319.68 MiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 7,870 |
'train' | 139,615 |
'validation' | 7,624 |
- ตัวอย่าง ( tfds.as_dataframe ):
wiki40b/sk
คำอธิบาย การกำหนดค่า : ชุดข้อมูล Wiki40B สำหรับ sk
ขนาดชุดข้อมูล :
170.20 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่ (ทดสอบ ตรวจสอบ) เฉพาะเมื่อ
shuffle_files=False
(รถไฟ)แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 5,741 |
'train' | 103,095 |
'validation' | 5,604 |
- ตัวอย่าง ( tfds.as_dataframe ):
wiki40b/sl
คำอธิบาย การกำหนดค่า : ชุดข้อมูล Wiki40B สำหรับ sl
ขนาดชุดข้อมูล :
157.38 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่ (ทดสอบ ตรวจสอบ) เฉพาะเมื่อ
shuffle_files=False
(รถไฟ)แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 3,341 |
'train' | 60,927 |
'validation' | 3,287 |
- ตัวอย่าง ( tfds.as_dataframe ):
wiki40b/sr
คำอธิบาย การกำหนดค่า : ชุดข้อมูล Wiki40B สำหรับ sr.
ขนาดชุดข้อมูล :
582.20 MiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 17,997 |
'train' | 327,313 |
'validation' | 18,100 |
- ตัวอย่าง ( tfds.as_dataframe ):
wiki40b/sv
คำอธิบาย การกำหนดค่า : ชุดข้อมูล Wiki40B สำหรับ sv.
ขนาดชุดข้อมูล :
613.62 MiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 22,291 |
'train' | 400,742 |
'validation' | 22,263 |
- ตัวอย่าง ( tfds.as_dataframe ):
wiki40b/tl
คำอธิบาย การกำหนดค่า : ชุดข้อมูล Wiki40B สำหรับ tl
ขนาดชุดข้อมูล :
29.04 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 1,446 |
'train' | 25,940 |
'validation' | 1,472 |
- ตัวอย่าง ( tfds.as_dataframe ):
wiki40b/สหราชอาณาจักร
คำอธิบาย การกำหนดค่า : ชุดข้อมูล Wiki40B สำหรับสหราชอาณาจักร
ขนาดชุดข้อมูล :
1.67 GiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 26,581 |
'train' | 477,618 |
'validation' | 26,324 |
- ตัวอย่าง ( tfds.as_dataframe ):
wiki40b/vi
คำอธิบาย การกำหนดค่า : ชุดข้อมูล Wiki40B สำหรับ vi
ขนาดชุดข้อมูล :
497.70 MiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 7,942 |
'train' | 146,255 |
'validation' | 8,195 |
- ตัวอย่าง ( tfds.as_dataframe ):