อ้างอิง:
unshuffled_deduplicated_af
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_af')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
ใบอนุญาต : ข้อมูลเหล่านี้เผยแพร่ภายใต้รูปแบบใบอนุญาตนี้ เราไม่ได้เป็นเจ้าของข้อความใด ๆ ที่ดึงข้อมูลเหล่านี้ออกมา เราอนุญาตบรรจุภัณฑ์จริงของข้อมูลเหล่านี้ภายใต้ใบอนุญาต Creative Commons CC0 ("ไม่มีลิขสิทธิ์") http://creativecommons.org/publicdomain/zero/1.0/ ในขอบเขตที่เป็นไปได้ภายใต้กฎหมาย Inria ได้สละลิขสิทธิ์ทั้งหมดและที่เกี่ยวข้องหรือ สิทธิที่อยู่ใกล้เคียงกับ OSCAR งานนี้เผยแพร่จาก: ฝรั่งเศส
หากคุณพิจารณาว่าข้อมูลของเรามีเนื้อหาที่คุณเป็นเจ้าของและดังนั้นจึงไม่ควรทำซ้ำที่นี่ โปรด:
- ระบุตัวตนให้ชัดเจน พร้อมข้อมูลติดต่อโดยละเอียด เช่น ที่อยู่ หมายเลขโทรศัพท์ หรือที่อยู่อีเมลที่สามารถติดต่อได้
- ระบุงานลิขสิทธิ์ที่อ้างว่าถูกละเมิดอย่างชัดเจน
- ระบุเนื้อหาที่ถูกอ้างว่าละเมิดอย่างชัดเจนและมีข้อมูลที่เพียงพอพอสมควรเพื่อให้เราค้นหาเนื้อหาได้
เราจะปฏิบัติตามคำขอที่ถูกต้องตามกฎหมายโดยการลบแหล่งที่มาที่ได้รับผลกระทบออกจากคลังข้อมูลรุ่นถัดไป
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 130640 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_als
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_als')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
ใบอนุญาต : ข้อมูลเหล่านี้เผยแพร่ภายใต้รูปแบบใบอนุญาตนี้ เราไม่ได้เป็นเจ้าของข้อความใด ๆ ที่ดึงข้อมูลเหล่านี้ออกมา เราอนุญาตบรรจุภัณฑ์จริงของข้อมูลเหล่านี้ภายใต้ใบอนุญาต Creative Commons CC0 ("ไม่มีลิขสิทธิ์") http://creativecommons.org/publicdomain/zero/1.0/ ในขอบเขตที่เป็นไปได้ภายใต้กฎหมาย Inria ได้สละลิขสิทธิ์ทั้งหมดและที่เกี่ยวข้องหรือ สิทธิ์ที่อยู่ใกล้เคียงกับ OSCAR งานนี้เผยแพร่จาก: ฝรั่งเศส
หากคุณพิจารณาว่าข้อมูลของเรามีเนื้อหาที่คุณเป็นเจ้าของและดังนั้นจึงไม่ควรทำซ้ำที่นี่ โปรด:
- ระบุตัวตนให้ชัดเจน พร้อมข้อมูลติดต่อโดยละเอียด เช่น ที่อยู่ หมายเลขโทรศัพท์ หรือที่อยู่อีเมลที่สามารถติดต่อได้
- ระบุงานลิขสิทธิ์ที่อ้างว่าถูกละเมิดอย่างชัดเจน
- ระบุเนื้อหาที่ถูกอ้างว่าละเมิดอย่างชัดเจนและมีข้อมูลที่เพียงพอพอสมควรเพื่อให้เราค้นหาเนื้อหาได้
เราจะปฏิบัติตามคำขอที่ถูกต้องตามกฎหมายโดยการลบแหล่งที่มาที่ได้รับผลกระทบออกจากคลังข้อมูลรุ่นถัดไป
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 4518 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_arz
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_arz')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
ใบอนุญาต : ข้อมูลเหล่านี้เผยแพร่ภายใต้รูปแบบใบอนุญาตนี้ เราไม่ได้เป็นเจ้าของข้อความใด ๆ ที่ดึงข้อมูลเหล่านี้ออกมา เราอนุญาตบรรจุภัณฑ์จริงของข้อมูลเหล่านี้ภายใต้ใบอนุญาต Creative Commons CC0 ("ไม่มีลิขสิทธิ์") http://creativecommons.org/publicdomain/zero/1.0/ ในขอบเขตที่เป็นไปได้ภายใต้กฎหมาย Inria ได้สละลิขสิทธิ์ทั้งหมดและที่เกี่ยวข้องหรือ สิทธิ์ที่อยู่ใกล้เคียงกับ OSCAR งานนี้เผยแพร่จาก: ฝรั่งเศส
หากคุณพิจารณาว่าข้อมูลของเรามีเนื้อหาที่คุณเป็นเจ้าของและดังนั้นจึงไม่ควรทำซ้ำที่นี่ โปรด:
- ระบุตัวตนให้ชัดเจน พร้อมข้อมูลติดต่อโดยละเอียด เช่น ที่อยู่ หมายเลขโทรศัพท์ หรือที่อยู่อีเมลที่สามารถติดต่อได้
- ระบุงานลิขสิทธิ์ที่อ้างว่าถูกละเมิดอย่างชัดเจน
- ระบุเนื้อหาที่ถูกอ้างว่าละเมิดอย่างชัดเจนและมีข้อมูลที่เพียงพอพอสมควรเพื่อให้เราค้นหาเนื้อหาได้
เราจะปฏิบัติตามคำขอที่ถูกต้องตามกฎหมายโดยการลบแหล่งที่มาที่ได้รับผลกระทบออกจากคลังข้อมูลรุ่นถัดไป
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 79928 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_an
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_an')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
ใบอนุญาต : ข้อมูลเหล่านี้เผยแพร่ภายใต้รูปแบบใบอนุญาตนี้ เราไม่ได้เป็นเจ้าของข้อความใด ๆ ที่ดึงข้อมูลเหล่านี้ออกมา เราอนุญาตบรรจุภัณฑ์จริงของข้อมูลเหล่านี้ภายใต้ใบอนุญาต Creative Commons CC0 ("ไม่มีลิขสิทธิ์") http://creativecommons.org/publicdomain/zero/1.0/ ในขอบเขตที่เป็นไปได้ภายใต้กฎหมาย Inria ได้สละลิขสิทธิ์ทั้งหมดและที่เกี่ยวข้องหรือ สิทธิ์ที่อยู่ใกล้เคียงกับ OSCAR งานนี้เผยแพร่จาก: ฝรั่งเศส
หากคุณพิจารณาว่าข้อมูลของเรามีเนื้อหาที่คุณเป็นเจ้าของและดังนั้นจึงไม่ควรทำซ้ำที่นี่ โปรด:
- ระบุตัวตนให้ชัดเจน พร้อมข้อมูลติดต่อโดยละเอียด เช่น ที่อยู่ หมายเลขโทรศัพท์ หรือที่อยู่อีเมลที่สามารถติดต่อได้
- ระบุงานลิขสิทธิ์ที่อ้างว่าถูกละเมิดอย่างชัดเจน
- ระบุเนื้อหาที่ถูกอ้างว่าละเมิดอย่างชัดเจนและมีข้อมูลที่เพียงพอพอสมควรเพื่อให้เราค้นหาเนื้อหาได้
เราจะปฏิบัติตามคำขอที่ถูกต้องตามกฎหมายโดยการลบแหล่งที่มาที่ได้รับผลกระทบออกจากคลังข้อมูลรุ่นถัดไป
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 2025 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ast
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ast')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
ใบอนุญาต : ข้อมูลเหล่านี้เผยแพร่ภายใต้รูปแบบใบอนุญาตนี้ เราไม่ได้เป็นเจ้าของข้อความใด ๆ ที่ดึงข้อมูลเหล่านี้ออกมา เราอนุญาตบรรจุภัณฑ์จริงของข้อมูลเหล่านี้ภายใต้ใบอนุญาต Creative Commons CC0 ("ไม่มีลิขสิทธิ์") http://creativecommons.org/publicdomain/zero/1.0/ ในขอบเขตที่เป็นไปได้ภายใต้กฎหมาย Inria ได้สละลิขสิทธิ์ทั้งหมดและที่เกี่ยวข้องหรือ สิทธิ์ที่อยู่ใกล้เคียงกับ OSCAR งานนี้เผยแพร่จาก: ฝรั่งเศส
หากคุณพิจารณาว่าข้อมูลของเรามีเนื้อหาที่คุณเป็นเจ้าของและดังนั้นจึงไม่ควรทำซ้ำที่นี่ โปรด:
- ระบุตัวตนให้ชัดเจน พร้อมข้อมูลติดต่อโดยละเอียด เช่น ที่อยู่ หมายเลขโทรศัพท์ หรือที่อยู่อีเมลที่สามารถติดต่อได้
- ระบุงานลิขสิทธิ์ที่อ้างว่าถูกละเมิดอย่างชัดเจน
- ระบุเนื้อหาที่ถูกอ้างว่าละเมิดอย่างชัดเจนและมีข้อมูลที่เพียงพอพอสมควรเพื่อให้เราค้นหาเนื้อหาได้
เราจะปฏิบัติตามคำขอที่ถูกต้องตามกฎหมายโดยการลบแหล่งที่มาที่ได้รับผลกระทบออกจากคลังข้อมูลรุ่นถัดไป
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 5343 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ba
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ba')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
ใบอนุญาต : ข้อมูลเหล่านี้เผยแพร่ภายใต้รูปแบบใบอนุญาตนี้ เราไม่ได้เป็นเจ้าของข้อความใด ๆ ที่ดึงข้อมูลเหล่านี้ออกมา เราอนุญาตบรรจุภัณฑ์จริงของข้อมูลเหล่านี้ภายใต้ใบอนุญาต Creative Commons CC0 ("ไม่มีลิขสิทธิ์") http://creativecommons.org/publicdomain/zero/1.0/ ในขอบเขตที่เป็นไปได้ภายใต้กฎหมาย Inria ได้สละลิขสิทธิ์ทั้งหมดและที่เกี่ยวข้องหรือ สิทธิ์ที่อยู่ใกล้เคียงกับ OSCAR งานนี้เผยแพร่จาก: ฝรั่งเศส
หากคุณพิจารณาว่าข้อมูลของเรามีเนื้อหาที่คุณเป็นเจ้าของและดังนั้นจึงไม่ควรทำซ้ำที่นี่ โปรด:
- ระบุตัวตนให้ชัดเจน พร้อมข้อมูลติดต่อโดยละเอียด เช่น ที่อยู่ หมายเลขโทรศัพท์ หรือที่อยู่อีเมลที่สามารถติดต่อได้
- ระบุงานลิขสิทธิ์ที่อ้างว่าถูกละเมิดอย่างชัดเจน
- ระบุเนื้อหาที่ถูกอ้างว่าละเมิดอย่างชัดเจนและมีข้อมูลที่เพียงพอพอสมควรเพื่อให้เราค้นหาเนื้อหาได้
เราจะปฏิบัติตามคำขอที่ถูกต้องตามกฎหมายโดยการลบแหล่งที่มาที่ได้รับผลกระทบออกจากคลังข้อมูลรุ่นถัดไป
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 27050 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_am
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_am')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
ใบอนุญาต : ข้อมูลเหล่านี้เผยแพร่ภายใต้รูปแบบใบอนุญาตนี้ เราไม่ได้เป็นเจ้าของข้อความใด ๆ ที่ดึงข้อมูลเหล่านี้ออกมา เราอนุญาตบรรจุภัณฑ์จริงของข้อมูลเหล่านี้ภายใต้ใบอนุญาต Creative Commons CC0 ("ไม่มีลิขสิทธิ์") http://creativecommons.org/publicdomain/zero/1.0/ ในขอบเขตที่เป็นไปได้ภายใต้กฎหมาย Inria ได้สละลิขสิทธิ์ทั้งหมดและที่เกี่ยวข้องหรือ สิทธิที่อยู่ใกล้เคียงกับ OSCAR งานนี้เผยแพร่จาก: ฝรั่งเศส
หากคุณพิจารณาว่าข้อมูลของเรามีเนื้อหาที่คุณเป็นเจ้าของและดังนั้นจึงไม่ควรทำซ้ำที่นี่ โปรด:
- ระบุตัวตนให้ชัดเจน พร้อมข้อมูลติดต่อโดยละเอียด เช่น ที่อยู่ หมายเลขโทรศัพท์ หรือที่อยู่อีเมลที่สามารถติดต่อได้
- ระบุงานลิขสิทธิ์ที่อ้างว่าถูกละเมิดอย่างชัดเจน
- ระบุเนื้อหาที่ถูกอ้างว่าละเมิดอย่างชัดเจนและมีข้อมูลที่เพียงพอพอสมควรเพื่อให้เราค้นหาเนื้อหาได้
เราจะปฏิบัติตามคำขอที่ถูกต้องตามกฎหมายโดยการลบแหล่งที่มาที่ได้รับผลกระทบออกจากคลังข้อมูลรุ่นถัดไป
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 43102 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_as
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_as')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
ใบอนุญาต : ข้อมูลเหล่านี้เผยแพร่ภายใต้รูปแบบใบอนุญาตนี้ เราไม่ได้เป็นเจ้าของข้อความใด ๆ ที่ดึงข้อมูลเหล่านี้ออกมา เราอนุญาตบรรจุภัณฑ์จริงของข้อมูลเหล่านี้ภายใต้ใบอนุญาต Creative Commons CC0 ("ไม่มีลิขสิทธิ์") http://creativecommons.org/publicdomain/zero/1.0/ ในขอบเขตที่เป็นไปได้ภายใต้กฎหมาย Inria ได้สละลิขสิทธิ์ทั้งหมดและที่เกี่ยวข้องหรือ สิทธิ์ที่อยู่ใกล้เคียงกับ OSCAR งานนี้เผยแพร่จาก: ฝรั่งเศส
หากคุณพิจารณาว่าข้อมูลของเรามีเนื้อหาที่คุณเป็นเจ้าของและดังนั้นจึงไม่ควรทำซ้ำที่นี่ โปรด:
- ระบุตัวตนให้ชัดเจน พร้อมข้อมูลติดต่อโดยละเอียด เช่น ที่อยู่ หมายเลขโทรศัพท์ หรือที่อยู่อีเมลที่สามารถติดต่อได้
- ระบุงานลิขสิทธิ์ที่อ้างว่าถูกละเมิดอย่างชัดเจน
- ระบุเนื้อหาที่ถูกอ้างว่าละเมิดอย่างชัดเจนและมีข้อมูลที่เพียงพอพอสมควรเพื่อให้เราค้นหาเนื้อหาได้
เราจะปฏิบัติตามคำขอที่ถูกต้องตามกฎหมายโดยการลบแหล่งที่มาที่ได้รับผลกระทบออกจากคลังข้อมูลรุ่นถัดไป
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 9212 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_azb
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_azb')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
ใบอนุญาต : ข้อมูลเหล่านี้เผยแพร่ภายใต้รูปแบบใบอนุญาตนี้ เราไม่ได้เป็นเจ้าของข้อความใด ๆ ที่ดึงข้อมูลเหล่านี้ออกมา เราอนุญาตบรรจุภัณฑ์จริงของข้อมูลเหล่านี้ภายใต้ใบอนุญาต Creative Commons CC0 ("ไม่มีลิขสิทธิ์") http://creativecommons.org/publicdomain/zero/1.0/ ในขอบเขตที่เป็นไปได้ภายใต้กฎหมาย Inria ได้สละลิขสิทธิ์ทั้งหมดและที่เกี่ยวข้องหรือ สิทธิ์ที่อยู่ใกล้เคียงกับ OSCAR งานนี้เผยแพร่จาก: ฝรั่งเศส
หากคุณพิจารณาว่าข้อมูลของเรามีเนื้อหาที่คุณเป็นเจ้าของและดังนั้นจึงไม่ควรทำซ้ำที่นี่ โปรด:
- ระบุตัวตนให้ชัดเจน พร้อมข้อมูลติดต่อโดยละเอียด เช่น ที่อยู่ หมายเลขโทรศัพท์ หรือที่อยู่อีเมลที่สามารถติดต่อได้
- ระบุงานลิขสิทธิ์ที่อ้างว่าถูกละเมิดอย่างชัดเจน
- ระบุเนื้อหาที่ถูกอ้างว่าละเมิดอย่างชัดเจนและมีข้อมูลที่เพียงพอพอสมควรเพื่อให้เราค้นหาเนื้อหาได้
เราจะปฏิบัติตามคำขอที่ถูกต้องตามกฎหมายโดยการลบแหล่งที่มาที่ได้รับผลกระทบออกจากคลังข้อมูลรุ่นถัดไป
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 9985 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_be
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_be')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
ใบอนุญาต : ข้อมูลเหล่านี้เผยแพร่ภายใต้รูปแบบใบอนุญาตนี้ เราไม่ได้เป็นเจ้าของข้อความใด ๆ ที่ดึงข้อมูลเหล่านี้ออกมา เราอนุญาตบรรจุภัณฑ์จริงของข้อมูลเหล่านี้ภายใต้ใบอนุญาต Creative Commons CC0 ("ไม่มีลิขสิทธิ์") http://creativecommons.org/publicdomain/zero/1.0/ ในขอบเขตที่เป็นไปได้ภายใต้กฎหมาย Inria ได้สละลิขสิทธิ์ทั้งหมดและที่เกี่ยวข้องหรือ สิทธิ์ที่อยู่ใกล้เคียงกับ OSCAR งานนี้เผยแพร่จาก: ฝรั่งเศส
หากคุณพิจารณาว่าข้อมูลของเรามีเนื้อหาที่คุณเป็นเจ้าของและดังนั้นจึงไม่ควรทำซ้ำที่นี่ โปรด:
- ระบุตัวตนให้ชัดเจน พร้อมข้อมูลติดต่อโดยละเอียด เช่น ที่อยู่ หมายเลขโทรศัพท์ หรือที่อยู่อีเมลที่สามารถติดต่อได้
- ระบุงานลิขสิทธิ์ที่อ้างว่าถูกละเมิดอย่างชัดเจน
- ระบุเนื้อหาที่ถูกอ้างว่าละเมิดอย่างชัดเจนและมีข้อมูลที่เพียงพอพอสมควรเพื่อให้เราค้นหาเนื้อหาได้
เราจะปฏิบัติตามคำขอที่ถูกต้องตามกฎหมายโดยการลบแหล่งที่มาที่ได้รับผลกระทบออกจากคลังข้อมูลรุ่นถัดไป
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 307405 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_bo
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bo')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
ใบอนุญาต : ข้อมูลเหล่านี้เผยแพร่ภายใต้รูปแบบใบอนุญาตนี้ เราไม่ได้เป็นเจ้าของข้อความใด ๆ ที่ดึงข้อมูลเหล่านี้ออกมา เราอนุญาตบรรจุภัณฑ์จริงของข้อมูลเหล่านี้ภายใต้ใบอนุญาต Creative Commons CC0 ("ไม่มีลิขสิทธิ์") http://creativecommons.org/publicdomain/zero/1.0/ ในขอบเขตที่เป็นไปได้ภายใต้กฎหมาย Inria ได้สละลิขสิทธิ์ทั้งหมดและที่เกี่ยวข้องหรือ สิทธิ์ที่อยู่ใกล้เคียงกับ OSCAR งานนี้เผยแพร่จาก: ฝรั่งเศส
หากคุณพิจารณาว่าข้อมูลของเรามีเนื้อหาที่คุณเป็นเจ้าของและดังนั้นจึงไม่ควรทำซ้ำที่นี่ โปรด:
- ระบุตัวตนให้ชัดเจน พร้อมข้อมูลติดต่อโดยละเอียด เช่น ที่อยู่ หมายเลขโทรศัพท์ หรือที่อยู่อีเมลที่สามารถติดต่อได้
- ระบุงานลิขสิทธิ์ที่อ้างว่าถูกละเมิดอย่างชัดเจน
- ระบุเนื้อหาที่ถูกอ้างว่าละเมิดอย่างชัดเจนและมีข้อมูลที่เพียงพอพอสมควรเพื่อให้เราค้นหาเนื้อหาได้
เราจะปฏิบัติตามคำขอที่ถูกต้องตามกฎหมายโดยการลบแหล่งที่มาที่ได้รับผลกระทบออกจากคลังข้อมูลรุ่นถัดไป
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 15762 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_bxr
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bxr')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
ใบอนุญาต : ข้อมูลเหล่านี้เผยแพร่ภายใต้รูปแบบใบอนุญาตนี้ เราไม่ได้เป็นเจ้าของข้อความใด ๆ ที่ดึงข้อมูลเหล่านี้ออกมา เราอนุญาตบรรจุภัณฑ์จริงของข้อมูลเหล่านี้ภายใต้ใบอนุญาต Creative Commons CC0 ("ไม่มีลิขสิทธิ์") http://creativecommons.org/publicdomain/zero/1.0/ ในขอบเขตที่เป็นไปได้ภายใต้กฎหมาย Inria ได้สละลิขสิทธิ์ทั้งหมดและที่เกี่ยวข้องหรือ สิทธิ์ที่อยู่ใกล้เคียงกับ OSCAR งานนี้เผยแพร่จาก: ฝรั่งเศส
หากคุณพิจารณาว่าข้อมูลของเรามีเนื้อหาที่คุณเป็นเจ้าของและดังนั้นจึงไม่ควรทำซ้ำที่นี่ โปรด:
- ระบุตัวตนให้ชัดเจน พร้อมข้อมูลติดต่อโดยละเอียด เช่น ที่อยู่ หมายเลขโทรศัพท์ หรือที่อยู่อีเมลที่สามารถติดต่อได้
- ระบุงานลิขสิทธิ์ที่อ้างว่าถูกละเมิดอย่างชัดเจน
- ระบุเนื้อหาที่ถูกอ้างว่าละเมิดอย่างชัดเจนและมีข้อมูลที่เพียงพอพอสมควรเพื่อให้เราค้นหาเนื้อหาได้
เราจะปฏิบัติตามคำขอที่ถูกต้องตามกฎหมายโดยการลบแหล่งที่มาที่ได้รับผลกระทบออกจากคลังข้อมูลรุ่นถัดไป
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 36 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ceb
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ceb')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
ใบอนุญาต : ข้อมูลเหล่านี้เผยแพร่ภายใต้รูปแบบใบอนุญาตนี้ เราไม่ได้เป็นเจ้าของข้อความใด ๆ ที่ดึงข้อมูลเหล่านี้ออกมา เราอนุญาตบรรจุภัณฑ์จริงของข้อมูลเหล่านี้ภายใต้ใบอนุญาต Creative Commons CC0 ("ไม่มีลิขสิทธิ์") http://creativecommons.org/publicdomain/zero/1.0/ ในขอบเขตที่เป็นไปได้ภายใต้กฎหมาย Inria ได้สละลิขสิทธิ์ทั้งหมดและที่เกี่ยวข้องหรือ สิทธิ์ที่อยู่ใกล้เคียงกับ OSCAR งานนี้เผยแพร่จาก: ฝรั่งเศส
หากคุณพิจารณาว่าข้อมูลของเรามีเนื้อหาที่คุณเป็นเจ้าของและดังนั้นจึงไม่ควรทำซ้ำที่นี่ โปรด:
- ระบุตัวตนให้ชัดเจน พร้อมข้อมูลติดต่อโดยละเอียด เช่น ที่อยู่ หมายเลขโทรศัพท์ หรือที่อยู่อีเมลที่สามารถติดต่อได้
- ระบุงานลิขสิทธิ์ที่อ้างว่าถูกละเมิดอย่างชัดเจน
- ระบุเนื้อหาที่ถูกอ้างว่าละเมิดอย่างชัดเจนและมีข้อมูลที่เพียงพอพอสมควรเพื่อให้เราค้นหาเนื้อหาได้
เราจะปฏิบัติตามคำขอที่ถูกต้องตามกฎหมายโดยการลบแหล่งที่มาที่ได้รับผลกระทบออกจากคลังข้อมูลรุ่นถัดไป
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 26145 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_az
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_az')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
ใบอนุญาต : ข้อมูลเหล่านี้เผยแพร่ภายใต้รูปแบบใบอนุญาตนี้ เราไม่ได้เป็นเจ้าของข้อความใด ๆ ที่ดึงข้อมูลเหล่านี้ออกมา เราอนุญาตบรรจุภัณฑ์จริงของข้อมูลเหล่านี้ภายใต้ใบอนุญาต Creative Commons CC0 ("ไม่มีลิขสิทธิ์") http://creativecommons.org/publicdomain/zero/1.0/ ในขอบเขตที่เป็นไปได้ภายใต้กฎหมาย Inria ได้สละลิขสิทธิ์ทั้งหมดและที่เกี่ยวข้องหรือ สิทธิ์ที่อยู่ใกล้เคียงกับ OSCAR งานนี้เผยแพร่จาก: ฝรั่งเศส
หากคุณพิจารณาว่าข้อมูลของเรามีเนื้อหาที่คุณเป็นเจ้าของและดังนั้นจึงไม่ควรทำซ้ำที่นี่ โปรด:
- ระบุตัวตนให้ชัดเจน พร้อมข้อมูลติดต่อโดยละเอียด เช่น ที่อยู่ หมายเลขโทรศัพท์ หรือที่อยู่อีเมลที่สามารถติดต่อได้
- ระบุงานลิขสิทธิ์ที่อ้างว่าถูกละเมิดอย่างชัดเจน
- ระบุเนื้อหาที่ถูกอ้างว่าละเมิดอย่างชัดเจนและมีข้อมูลที่เพียงพอพอสมควรเพื่อให้เราค้นหาเนื้อหาได้
เราจะปฏิบัติตามคำขอที่ถูกต้องตามกฎหมายโดยการลบแหล่งที่มาที่ได้รับผลกระทบออกจากคลังข้อมูลรุ่นถัดไป
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 626796 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_bcl
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bcl')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
ใบอนุญาต : ข้อมูลเหล่านี้เผยแพร่ภายใต้รูปแบบใบอนุญาตนี้ เราไม่ได้เป็นเจ้าของข้อความใด ๆ ที่ดึงข้อมูลเหล่านี้ออกมา เราอนุญาตบรรจุภัณฑ์จริงของข้อมูลเหล่านี้ภายใต้ใบอนุญาต Creative Commons CC0 ("ไม่มีลิขสิทธิ์") http://creativecommons.org/publicdomain/zero/1.0/ ในขอบเขตที่เป็นไปได้ภายใต้กฎหมาย Inria ได้สละลิขสิทธิ์ทั้งหมดและที่เกี่ยวข้องหรือ สิทธิที่อยู่ใกล้เคียงกับ OSCAR งานนี้เผยแพร่จาก: ฝรั่งเศส
หากคุณพิจารณาว่าข้อมูลของเรามีเนื้อหาที่คุณเป็นเจ้าของและดังนั้นจึงไม่ควรทำซ้ำที่นี่ โปรด:
- ระบุตัวตนให้ชัดเจน พร้อมข้อมูลติดต่อโดยละเอียด เช่น ที่อยู่ หมายเลขโทรศัพท์ หรือที่อยู่อีเมลที่สามารถติดต่อได้
- ระบุงานลิขสิทธิ์ที่อ้างว่าถูกละเมิดอย่างชัดเจน
- ระบุเนื้อหาที่ถูกอ้างว่าละเมิดอย่างชัดเจนและมีข้อมูลที่เพียงพอพอสมควรเพื่อให้เราค้นหาเนื้อหาได้
เราจะปฏิบัติตามคำขอที่ถูกต้องตามกฎหมายโดยการลบแหล่งที่มาที่ได้รับผลกระทบออกจากคลังข้อมูลรุ่นถัดไป
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 1 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_cy
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_cy')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
ใบอนุญาต : ข้อมูลเหล่านี้เผยแพร่ภายใต้รูปแบบใบอนุญาตนี้ เราไม่ได้เป็นเจ้าของข้อความใด ๆ ที่ดึงข้อมูลเหล่านี้ออกมา เราอนุญาตบรรจุภัณฑ์จริงของข้อมูลเหล่านี้ภายใต้ใบอนุญาต Creative Commons CC0 ("ไม่มีลิขสิทธิ์") http://creativecommons.org/publicdomain/zero/1.0/ ในขอบเขตที่เป็นไปได้ภายใต้กฎหมาย Inria ได้สละลิขสิทธิ์ทั้งหมดและที่เกี่ยวข้องหรือ สิทธิ์ที่อยู่ใกล้เคียงกับ OSCAR งานนี้เผยแพร่จาก: ฝรั่งเศส
หากคุณพิจารณาว่าข้อมูลของเรามีเนื้อหาที่คุณเป็นเจ้าของและดังนั้นจึงไม่ควรทำซ้ำที่นี่ โปรด:
- ระบุตัวตนให้ชัดเจน พร้อมข้อมูลติดต่อโดยละเอียด เช่น ที่อยู่ หมายเลขโทรศัพท์ หรือที่อยู่อีเมลที่สามารถติดต่อได้
- ระบุงานลิขสิทธิ์ที่อ้างว่าถูกละเมิดอย่างชัดเจน
- ระบุเนื้อหาที่ถูกอ้างว่าละเมิดอย่างชัดเจนและมีข้อมูลที่เพียงพอพอสมควรเพื่อให้เราค้นหาเนื้อหาได้
เราจะปฏิบัติตามคำขอที่ถูกต้องตามกฎหมายโดยการลบแหล่งที่มาที่ได้รับผลกระทบออกจากคลังข้อมูลรุ่นถัดไป
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 98225 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_dsb
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_dsb')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
ใบอนุญาต : ข้อมูลเหล่านี้เผยแพร่ภายใต้รูปแบบใบอนุญาตนี้ เราไม่ได้เป็นเจ้าของข้อความใด ๆ ที่ดึงข้อมูลเหล่านี้ออกมา เราอนุญาตบรรจุภัณฑ์จริงของข้อมูลเหล่านี้ภายใต้ใบอนุญาต Creative Commons CC0 ("ไม่มีลิขสิทธิ์") http://creativecommons.org/publicdomain/zero/1.0/ ในขอบเขตที่เป็นไปได้ภายใต้กฎหมาย Inria ได้สละลิขสิทธิ์ทั้งหมดและที่เกี่ยวข้องหรือ สิทธิ์ที่อยู่ใกล้เคียงกับ OSCAR งานนี้เผยแพร่จาก: ฝรั่งเศส
หากคุณพิจารณาว่าข้อมูลของเรามีเนื้อหาที่คุณเป็นเจ้าของและดังนั้นจึงไม่ควรทำซ้ำที่นี่ โปรด:
- ระบุตัวตนให้ชัดเจน พร้อมข้อมูลติดต่อโดยละเอียด เช่น ที่อยู่ หมายเลขโทรศัพท์ หรือที่อยู่อีเมลที่สามารถติดต่อได้
- ระบุงานลิขสิทธิ์ที่อ้างว่าถูกละเมิดอย่างชัดเจน
- ระบุเนื้อหาที่ถูกอ้างว่าละเมิดอย่างชัดเจนและมีข้อมูลที่เพียงพอพอสมควรเพื่อให้เราค้นหาเนื้อหาได้
เราจะปฏิบัติตามคำขอที่ถูกต้องตามกฎหมายโดยการลบแหล่งที่มาที่ได้รับผลกระทบออกจากคลังข้อมูลรุ่นถัดไป
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 37 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_bn
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bn')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
ใบอนุญาต : ข้อมูลเหล่านี้เผยแพร่ภายใต้รูปแบบใบอนุญาตนี้ เราไม่ได้เป็นเจ้าของข้อความใด ๆ ที่ดึงข้อมูลเหล่านี้ออกมา เราอนุญาตบรรจุภัณฑ์จริงของข้อมูลเหล่านี้ภายใต้ใบอนุญาต Creative Commons CC0 ("ไม่มีลิขสิทธิ์") http://creativecommons.org/publicdomain/zero/1.0/ ในขอบเขตที่เป็นไปได้ภายใต้กฎหมาย Inria ได้สละลิขสิทธิ์ทั้งหมดและที่เกี่ยวข้องหรือ สิทธิ์ที่อยู่ใกล้เคียงกับ OSCAR งานนี้เผยแพร่จาก: ฝรั่งเศส
หากคุณพิจารณาว่าข้อมูลของเรามีเนื้อหาที่คุณเป็นเจ้าของและดังนั้นจึงไม่ควรทำซ้ำที่นี่ โปรด:
- ระบุตัวตนให้ชัดเจน พร้อมข้อมูลติดต่อโดยละเอียด เช่น ที่อยู่ หมายเลขโทรศัพท์ หรือที่อยู่อีเมลที่สามารถติดต่อได้
- ระบุงานลิขสิทธิ์ที่อ้างว่าถูกละเมิดอย่างชัดเจน
- ระบุเนื้อหาที่ถูกอ้างว่าละเมิดอย่างชัดเจนและมีข้อมูลที่เพียงพอพอสมควรเพื่อให้เราค้นหาเนื้อหาได้
เราจะปฏิบัติตามคำขอที่ถูกต้องตามกฎหมายโดยการลบแหล่งที่มาที่ได้รับผลกระทบออกจากคลังข้อมูลรุ่นถัดไป
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 1114481 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_bs
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bs')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
ใบอนุญาต : ข้อมูลเหล่านี้เผยแพร่ภายใต้รูปแบบใบอนุญาตนี้ เราไม่ได้เป็นเจ้าของข้อความใด ๆ ที่ดึงข้อมูลเหล่านี้ออกมา เราอนุญาตบรรจุภัณฑ์จริงของข้อมูลเหล่านี้ภายใต้ใบอนุญาต Creative Commons CC0 ("ไม่มีลิขสิทธิ์") http://creativecommons.org/publicdomain/zero/1.0/ ในขอบเขตที่เป็นไปได้ภายใต้กฎหมาย Inria ได้สละลิขสิทธิ์ทั้งหมดและที่เกี่ยวข้องหรือ สิทธิ์ที่อยู่ใกล้เคียงกับ OSCAR งานนี้เผยแพร่จาก: ฝรั่งเศส
หากคุณพิจารณาว่าข้อมูลของเรามีเนื้อหาที่คุณเป็นเจ้าของและดังนั้นจึงไม่ควรทำซ้ำที่นี่ โปรด:
- ระบุตัวตนให้ชัดเจน พร้อมข้อมูลติดต่อโดยละเอียด เช่น ที่อยู่ หมายเลขโทรศัพท์ หรือที่อยู่อีเมลที่สามารถติดต่อได้
- ระบุงานลิขสิทธิ์ที่อ้างว่าถูกละเมิดอย่างชัดเจน
- ระบุเนื้อหาที่ถูกอ้างว่าละเมิดอย่างชัดเจนและมีข้อมูลที่เพียงพอพอสมควรเพื่อให้เราค้นหาเนื้อหาได้
เราจะปฏิบัติตามคำขอที่ถูกต้องตามกฎหมายโดยการลบแหล่งที่มาที่ได้รับผลกระทบออกจากคลังข้อมูลรุ่นถัดไป
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 702 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ce
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ce')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
ใบอนุญาต : ข้อมูลเหล่านี้เผยแพร่ภายใต้รูปแบบใบอนุญาตนี้ เราไม่ได้เป็นเจ้าของข้อความใด ๆ ที่ดึงข้อมูลเหล่านี้ออกมา เราอนุญาตบรรจุภัณฑ์จริงของข้อมูลเหล่านี้ภายใต้ใบอนุญาต Creative Commons CC0 ("ไม่มีลิขสิทธิ์") http://creativecommons.org/publicdomain/zero/1.0/ ในขอบเขตที่เป็นไปได้ภายใต้กฎหมาย Inria ได้สละลิขสิทธิ์ทั้งหมดและที่เกี่ยวข้องหรือ สิทธิ์ที่อยู่ใกล้เคียงกับ OSCAR งานนี้เผยแพร่จาก: ฝรั่งเศส
หากคุณพิจารณาว่าข้อมูลของเรามีเนื้อหาที่คุณเป็นเจ้าของและดังนั้นจึงไม่ควรทำซ้ำที่นี่ โปรด:
- ระบุตัวตนให้ชัดเจน พร้อมข้อมูลติดต่อโดยละเอียด เช่น ที่อยู่ หมายเลขโทรศัพท์ หรือที่อยู่อีเมลที่สามารถติดต่อได้
- ระบุงานลิขสิทธิ์ที่อ้างว่าถูกละเมิดอย่างชัดเจน
- ระบุเนื้อหาที่ถูกอ้างว่าละเมิดอย่างชัดเจนและมีข้อมูลที่เพียงพอพอสมควรเพื่อให้เราค้นหาเนื้อหาได้
เราจะปฏิบัติตามคำขอที่ถูกต้องตามกฎหมายโดยการลบแหล่งที่มาที่ได้รับผลกระทบออกจากคลังข้อมูลรุ่นถัดไป
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 2984 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_cv
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_cv')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
ใบอนุญาต : ข้อมูลเหล่านี้เผยแพร่ภายใต้รูปแบบใบอนุญาตนี้ เราไม่ได้เป็นเจ้าของข้อความใด ๆ ที่ดึงข้อมูลเหล่านี้ออกมา เราอนุญาตบรรจุภัณฑ์จริงของข้อมูลเหล่านี้ภายใต้ใบอนุญาต Creative Commons CC0 ("ไม่มีลิขสิทธิ์") http://creativecommons.org/publicdomain/zero/1.0/ ในขอบเขตที่เป็นไปได้ภายใต้กฎหมาย Inria ได้สละลิขสิทธิ์ทั้งหมดและที่เกี่ยวข้องหรือ สิทธิ์ที่อยู่ใกล้เคียงกับ OSCAR งานนี้เผยแพร่จาก: ฝรั่งเศส
หากคุณพิจารณาว่าข้อมูลของเรามีเนื้อหาที่คุณเป็นเจ้าของและดังนั้นจึงไม่ควรทำซ้ำที่นี่ โปรด:
- ระบุตัวตนให้ชัดเจน พร้อมข้อมูลติดต่อโดยละเอียด เช่น ที่อยู่ หมายเลขโทรศัพท์ หรือที่อยู่อีเมลที่สามารถติดต่อได้
- ระบุงานลิขสิทธิ์ที่อ้างว่าถูกละเมิดอย่างชัดเจน
- ระบุเนื้อหาที่ถูกอ้างว่าละเมิดอย่างชัดเจนและมีข้อมูลที่เพียงพอพอสมควรเพื่อให้เราค้นหาเนื้อหาได้
เราจะปฏิบัติตามคำขอที่ถูกต้องตามกฎหมายโดยการลบแหล่งที่มาที่ได้รับผลกระทบออกจากคลังข้อมูลรุ่นถัดไป
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 10130 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_diq
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_diq')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
ใบอนุญาต : ข้อมูลเหล่านี้เผยแพร่ภายใต้รูปแบบใบอนุญาตนี้ เราไม่ได้เป็นเจ้าของข้อความใด ๆ ที่ดึงข้อมูลเหล่านี้ออกมา เราอนุญาตบรรจุภัณฑ์จริงของข้อมูลเหล่านี้ภายใต้ใบอนุญาต Creative Commons CC0 ("ไม่มีลิขสิทธิ์") http://creativecommons.org/publicdomain/zero/1.0/ ในขอบเขตที่เป็นไปได้ภายใต้กฎหมาย Inria ได้สละลิขสิทธิ์ทั้งหมดและที่เกี่ยวข้องหรือ สิทธิ์ที่อยู่ใกล้เคียงกับ OSCAR งานนี้เผยแพร่จาก: ฝรั่งเศส
หากคุณพิจารณาว่าข้อมูลของเรามีเนื้อหาที่คุณเป็นเจ้าของและดังนั้นจึงไม่ควรทำซ้ำที่นี่ โปรด:
- ระบุตัวตนให้ชัดเจน พร้อมข้อมูลติดต่อโดยละเอียด เช่น ที่อยู่ หมายเลขโทรศัพท์ หรือที่อยู่อีเมลที่สามารถติดต่อได้
- ระบุงานลิขสิทธิ์ที่อ้างว่าถูกละเมิดอย่างชัดเจน
- ระบุเนื้อหาที่ถูกอ้างว่าละเมิดอย่างชัดเจนและมีข้อมูลที่เพียงพอพอสมควรเพื่อให้เราค้นหาเนื้อหาได้
เราจะปฏิบัติตามคำขอที่ถูกต้องตามกฎหมายโดยการลบแหล่งที่มาที่ได้รับผลกระทบออกจากคลังข้อมูลรุ่นถัดไป
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 1 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_eml
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_eml')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
ใบอนุญาต : ข้อมูลเหล่านี้เผยแพร่ภายใต้รูปแบบใบอนุญาตนี้ เราไม่ได้เป็นเจ้าของข้อความใด ๆ ที่ดึงข้อมูลเหล่านี้ออกมา เราอนุญาตบรรจุภัณฑ์จริงของข้อมูลเหล่านี้ภายใต้ใบอนุญาต Creative Commons CC0 ("ไม่มีลิขสิทธิ์") http://creativecommons.org/publicdomain/zero/1.0/ ในขอบเขตที่เป็นไปได้ภายใต้กฎหมาย Inria ได้สละลิขสิทธิ์ทั้งหมดและที่เกี่ยวข้องหรือ สิทธิที่อยู่ใกล้เคียงกับ OSCAR งานนี้เผยแพร่จาก: ฝรั่งเศส
หากคุณพิจารณาว่าข้อมูลของเรามีเนื้อหาที่คุณเป็นเจ้าของและดังนั้นจึงไม่ควรทำซ้ำที่นี่ โปรด:
- ระบุตัวตนให้ชัดเจน พร้อมข้อมูลติดต่อโดยละเอียด เช่น ที่อยู่ หมายเลขโทรศัพท์ หรือที่อยู่อีเมลที่สามารถติดต่อได้
- ระบุงานลิขสิทธิ์ที่อ้างว่าถูกละเมิดอย่างชัดเจน
- ระบุเนื้อหาที่ถูกอ้างว่าละเมิดอย่างชัดเจนและมีข้อมูลที่เพียงพอพอสมควรเพื่อให้เราค้นหาเนื้อหาได้
เราจะปฏิบัติตามคำขอที่ถูกต้องตามกฎหมายโดยการลบแหล่งที่มาที่ได้รับผลกระทบออกจากคลังข้อมูลรุ่นถัดไป
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 80 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_et
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_et')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
ใบอนุญาต : ข้อมูลเหล่านี้เผยแพร่ภายใต้รูปแบบใบอนุญาตนี้ เราไม่ได้เป็นเจ้าของข้อความใด ๆ ที่ดึงข้อมูลเหล่านี้ออกมา เราอนุญาตบรรจุภัณฑ์จริงของข้อมูลเหล่านี้ภายใต้ใบอนุญาต Creative Commons CC0 ("ไม่มีลิขสิทธิ์") http://creativecommons.org/publicdomain/zero/1.0/ ในขอบเขตที่เป็นไปได้ภายใต้กฎหมาย Inria ได้สละลิขสิทธิ์ทั้งหมดและที่เกี่ยวข้องหรือ สิทธิ์ที่อยู่ใกล้เคียงกับ OSCAR งานนี้เผยแพร่จาก: ฝรั่งเศส
หากคุณพิจารณาว่าข้อมูลของเรามีเนื้อหาที่คุณเป็นเจ้าของและดังนั้นจึงไม่ควรทำซ้ำที่นี่ โปรด:
- ระบุตัวตนให้ชัดเจน พร้อมข้อมูลติดต่อโดยละเอียด เช่น ที่อยู่ หมายเลขโทรศัพท์ หรือที่อยู่อีเมลที่สามารถติดต่อได้
- ระบุงานลิขสิทธิ์ที่อ้างว่าถูกละเมิดอย่างชัดเจน
- ระบุเนื้อหาที่ถูกอ้างว่าละเมิดอย่างชัดเจนและมีข้อมูลที่เพียงพอพอสมควรเพื่อให้เราค้นหาเนื้อหาได้
เราจะปฏิบัติตามคำขอที่ถูกต้องตามกฎหมายโดยการลบแหล่งที่มาที่ได้รับผลกระทบออกจากคลังข้อมูลรุ่นถัดไป
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 1172041 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_bg
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bg')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
ใบอนุญาต : ข้อมูลเหล่านี้เผยแพร่ภายใต้รูปแบบใบอนุญาตนี้ เราไม่ได้เป็นเจ้าของข้อความใด ๆ ที่ดึงข้อมูลเหล่านี้ออกมา เราอนุญาตบรรจุภัณฑ์จริงของข้อมูลเหล่านี้ภายใต้ใบอนุญาต Creative Commons CC0 ("ไม่มีลิขสิทธิ์") http://creativecommons.org/publicdomain/zero/1.0/ ในขอบเขตที่เป็นไปได้ภายใต้กฎหมาย Inria ได้สละลิขสิทธิ์ทั้งหมดและที่เกี่ยวข้องหรือ สิทธิ์ที่อยู่ใกล้เคียงกับ OSCAR งานนี้เผยแพร่จาก: ฝรั่งเศส
หากคุณพิจารณาว่าข้อมูลของเรามีเนื้อหาที่คุณเป็นเจ้าของและดังนั้นจึงไม่ควรทำซ้ำที่นี่ โปรด:
- ระบุตัวตนให้ชัดเจน พร้อมข้อมูลติดต่อโดยละเอียด เช่น ที่อยู่ หมายเลขโทรศัพท์ หรือที่อยู่อีเมลที่สามารถติดต่อได้
- ระบุงานลิขสิทธิ์ที่อ้างว่าถูกละเมิดอย่างชัดเจน
- ระบุเนื้อหาที่ถูกอ้างว่าละเมิดอย่างชัดเจนและมีข้อมูลที่เพียงพอพอสมควรเพื่อให้เราค้นหาเนื้อหาได้
เราจะปฏิบัติตามคำขอที่ถูกต้องตามกฎหมายโดยการลบแหล่งที่มาที่ได้รับผลกระทบออกจากคลังข้อมูลรุ่นถัดไป
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 3398679 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_bpy
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bpy')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
ใบอนุญาต : ข้อมูลเหล่านี้เผยแพร่ภายใต้รูปแบบใบอนุญาตนี้ เราไม่ได้เป็นเจ้าของข้อความใด ๆ ที่ดึงข้อมูลเหล่านี้ออกมา เราอนุญาตบรรจุภัณฑ์จริงของข้อมูลเหล่านี้ภายใต้ใบอนุญาต Creative Commons CC0 ("ไม่มีลิขสิทธิ์") http://creativecommons.org/publicdomain/zero/1.0/ ในขอบเขตที่เป็นไปได้ภายใต้กฎหมาย Inria ได้สละลิขสิทธิ์ทั้งหมดและที่เกี่ยวข้องหรือ สิทธิ์ที่อยู่ใกล้เคียงกับ OSCAR งานนี้เผยแพร่จาก: ฝรั่งเศส
หากคุณพิจารณาว่าข้อมูลของเรามีเนื้อหาที่คุณเป็นเจ้าของและดังนั้นจึงไม่ควรทำซ้ำที่นี่ โปรด:
- ระบุตัวตนให้ชัดเจน พร้อมข้อมูลติดต่อโดยละเอียด เช่น ที่อยู่ หมายเลขโทรศัพท์ หรือที่อยู่อีเมลที่สามารถติดต่อได้
- ระบุงานลิขสิทธิ์ที่อ้างว่าถูกละเมิดอย่างชัดเจน
- ระบุเนื้อหาที่ถูกอ้างว่าละเมิดอย่างชัดเจนและมีข้อมูลที่เพียงพอพอสมควรเพื่อให้เราค้นหาเนื้อหาได้
เราจะปฏิบัติตามคำขอที่ถูกต้องตามกฎหมายโดยการลบแหล่งที่มาที่ได้รับผลกระทบออกจากคลังข้อมูลรุ่นถัดไป
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | พ.ศ. 2313 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ca
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ca')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
ใบอนุญาต : ข้อมูลเหล่านี้เผยแพร่ภายใต้รูปแบบใบอนุญาตนี้ เราไม่ได้เป็นเจ้าของข้อความใด ๆ ที่ดึงข้อมูลเหล่านี้ออกมา เราอนุญาตบรรจุภัณฑ์จริงของข้อมูลเหล่านี้ภายใต้ใบอนุญาต Creative Commons CC0 ("ไม่มีลิขสิทธิ์") http://creativecommons.org/publicdomain/zero/1.0/ ในขอบเขตที่เป็นไปได้ภายใต้กฎหมาย Inria ได้สละลิขสิทธิ์ทั้งหมดและที่เกี่ยวข้องหรือ สิทธิ์ที่อยู่ใกล้เคียงกับ OSCAR งานนี้เผยแพร่จาก: ฝรั่งเศส
หากคุณพิจารณาว่าข้อมูลของเรามีเนื้อหาที่คุณเป็นเจ้าของและดังนั้นจึงไม่ควรทำซ้ำที่นี่ โปรด:
- ระบุตัวตนให้ชัดเจน พร้อมข้อมูลติดต่อโดยละเอียด เช่น ที่อยู่ หมายเลขโทรศัพท์ หรือที่อยู่อีเมลที่สามารถติดต่อได้
- ระบุงานลิขสิทธิ์ที่อ้างว่าถูกละเมิดอย่างชัดเจน
- ระบุเนื้อหาที่ถูกอ้างว่าละเมิดอย่างชัดเจนและมีข้อมูลที่เพียงพอพอสมควรเพื่อให้เราค้นหาเนื้อหาได้
เราจะปฏิบัติตามคำขอที่ถูกต้องตามกฎหมายโดยการลบแหล่งที่มาที่ได้รับผลกระทบออกจากคลังข้อมูลรุ่นถัดไป
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 2458067 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ckb
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ckb')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
ใบอนุญาต : ข้อมูลเหล่านี้เผยแพร่ภายใต้รูปแบบใบอนุญาตนี้ เราไม่ได้เป็นเจ้าของข้อความใด ๆ ที่ดึงข้อมูลเหล่านี้ออกมา เราอนุญาตบรรจุภัณฑ์จริงของข้อมูลเหล่านี้ภายใต้ใบอนุญาต Creative Commons CC0 ("ไม่มีลิขสิทธิ์") http://creativecommons.org/publicdomain/zero/1.0/ ในขอบเขตที่เป็นไปได้ภายใต้กฎหมาย Inria ได้สละลิขสิทธิ์ทั้งหมดและที่เกี่ยวข้องหรือ สิทธิ์ที่อยู่ใกล้เคียงกับ OSCAR งานนี้เผยแพร่จาก: ฝรั่งเศส
หากคุณพิจารณาว่าข้อมูลของเรามีเนื้อหาที่คุณเป็นเจ้าของและดังนั้นจึงไม่ควรทำซ้ำที่นี่ โปรด:
- ระบุตัวตนให้ชัดเจน พร้อมข้อมูลติดต่อโดยละเอียด เช่น ที่อยู่ หมายเลขโทรศัพท์ หรือที่อยู่อีเมลที่สามารถติดต่อได้
- ระบุงานลิขสิทธิ์ที่อ้างว่าถูกละเมิดอย่างชัดเจน
- ระบุเนื้อหาที่ถูกอ้างว่าละเมิดอย่างชัดเจนและมีข้อมูลที่เพียงพอพอสมควรเพื่อให้เราค้นหาเนื้อหาได้
เราจะปฏิบัติตามคำขอที่ถูกต้องตามกฎหมายโดยการลบแหล่งที่มาที่ได้รับผลกระทบออกจากคลังข้อมูลรุ่นถัดไป
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 68210 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ar
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ar')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
ใบอนุญาต : ข้อมูลเหล่านี้เผยแพร่ภายใต้รูปแบบใบอนุญาตนี้ เราไม่ได้เป็นเจ้าของข้อความใด ๆ ที่ดึงข้อมูลเหล่านี้ออกมา เราอนุญาตบรรจุภัณฑ์จริงของข้อมูลเหล่านี้ภายใต้ใบอนุญาต Creative Commons CC0 ("ไม่มีลิขสิทธิ์") http://creativecommons.org/publicdomain/zero/1.0/ ในขอบเขตที่เป็นไปได้ภายใต้กฎหมาย Inria ได้สละลิขสิทธิ์ทั้งหมดและที่เกี่ยวข้องหรือ สิทธิ์ที่อยู่ใกล้เคียงกับ OSCAR งานนี้เผยแพร่จาก: ฝรั่งเศส
หากคุณพิจารณาว่าข้อมูลของเรามีเนื้อหาที่คุณเป็นเจ้าของและดังนั้นจึงไม่ควรทำซ้ำที่นี่ โปรด:
- ระบุตัวตนให้ชัดเจน พร้อมข้อมูลติดต่อโดยละเอียด เช่น ที่อยู่ หมายเลขโทรศัพท์ หรือที่อยู่อีเมลที่สามารถติดต่อได้
- ระบุงานลิขสิทธิ์ที่อ้างว่าถูกละเมิดอย่างชัดเจน
- ระบุเนื้อหาที่ถูกอ้างว่าละเมิดอย่างชัดเจนและมีข้อมูลที่เพียงพอพอสมควรเพื่อให้เราค้นหาเนื้อหาได้
เราจะปฏิบัติตามคำขอที่ถูกต้องตามกฎหมายโดยการลบแหล่งที่มาที่ได้รับผลกระทบออกจากคลังข้อมูลรุ่นถัดไป
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 9006977 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_av
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_av')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
ใบอนุญาต : ข้อมูลเหล่านี้เผยแพร่ภายใต้รูปแบบใบอนุญาตนี้ เราไม่ได้เป็นเจ้าของข้อความใด ๆ ที่ดึงข้อมูลเหล่านี้ออกมา เราอนุญาตบรรจุภัณฑ์จริงของข้อมูลเหล่านี้ภายใต้ใบอนุญาต Creative Commons CC0 ("ไม่มีลิขสิทธิ์") http://creativecommons.org/publicdomain/zero/1.0/ ในขอบเขตที่เป็นไปได้ภายใต้กฎหมาย Inria ได้สละลิขสิทธิ์ทั้งหมดและที่เกี่ยวข้องหรือ สิทธิ์ที่อยู่ใกล้เคียงกับ OSCAR งานนี้เผยแพร่จาก: ฝรั่งเศส
หากคุณพิจารณาว่าข้อมูลของเรามีเนื้อหาที่คุณเป็นเจ้าของและดังนั้นจึงไม่ควรทำซ้ำที่นี่ โปรด:
- ระบุตัวตนให้ชัดเจน พร้อมข้อมูลติดต่อโดยละเอียด เช่น ที่อยู่ หมายเลขโทรศัพท์ หรือที่อยู่อีเมลที่สามารถติดต่อได้
- ระบุงานที่มีลิขสิทธิ์อย่างชัดเจนซึ่งอ้างว่าถูกละเมิด
- ระบุเนื้อหาที่อ้างว่ามีการละเมิดและข้อมูลอย่างชัดเจนเพียงพอที่จะทำให้เราสามารถค้นหาวัสดุได้
เราจะปฏิบัติตามคำขอที่ถูกต้องตามกฎหมายโดยการลบแหล่งที่ได้รับผลกระทบจากการเปิดตัวคลังข้อมูลครั้งต่อไป
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 360 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_bar
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bar')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
ใบอนุญาต : ข้อมูลเหล่านี้ได้รับการเผยแพร่ภายใต้รูปแบบการออกใบอนุญาตนี้เราไม่ได้เป็นเจ้าของข้อความใด ๆ ที่ข้อมูลเหล่านี้ได้รับการสกัด เราอนุญาตให้บรรจุภัณฑ์ที่แท้จริงของข้อมูลเหล่านี้ภายใต้ใบอนุญาต Creative Commons CC0 ("ไม่มีสิทธิ์สงวน") http://creativecommons.org/publicdomain/zero/1.0/ ตามขอบเขตที่เป็นไปได้ภายใต้กฎหมาย สิทธิ์ใกล้เคียงกับออสการ์งานนี้ตีพิมพ์จาก: ฝรั่งเศส
หากคุณพิจารณาว่าข้อมูลของเรามีเนื้อหาที่คุณเป็นเจ้าของและไม่ควรทำซ้ำที่นี่โปรด:
- ระบุตัวคุณเองอย่างชัดเจนพร้อมข้อมูลการติดต่อโดยละเอียดเช่นที่อยู่หมายเลขโทรศัพท์หรือที่อยู่อีเมลที่คุณสามารถติดต่อได้
- ระบุงานที่มีลิขสิทธิ์อย่างชัดเจนซึ่งอ้างว่าถูกละเมิด
- ระบุเนื้อหาที่อ้างว่ามีการละเมิดและข้อมูลอย่างชัดเจนเพียงพอที่จะทำให้เราสามารถค้นหาวัสดุได้
เราจะปฏิบัติตามคำขอที่ถูกต้องตามกฎหมายโดยการลบแหล่งที่ได้รับผลกระทบจากการเปิดตัวคลังข้อมูลครั้งต่อไป
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 4 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_bh
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bh')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
ใบอนุญาต : ข้อมูลเหล่านี้ได้รับการเผยแพร่ภายใต้รูปแบบการออกใบอนุญาตนี้เราไม่ได้เป็นเจ้าของข้อความใด ๆ ที่ข้อมูลเหล่านี้ได้รับการสกัด เราอนุญาตให้บรรจุภัณฑ์ที่แท้จริงของข้อมูลเหล่านี้ภายใต้ใบอนุญาต Creative Commons CC0 ("ไม่มีสิทธิ์สงวน") http://creativecommons.org/publicdomain/zero/1.0/ ตามขอบเขตที่เป็นไปได้ภายใต้กฎหมาย สิทธิ์ใกล้เคียงกับออสการ์งานนี้ตีพิมพ์จาก: ฝรั่งเศส
หากคุณพิจารณาว่าข้อมูลของเรามีเนื้อหาที่คุณเป็นเจ้าของและไม่ควรทำซ้ำที่นี่โปรด:
- ระบุตัวคุณเองอย่างชัดเจนพร้อมข้อมูลการติดต่อโดยละเอียดเช่นที่อยู่หมายเลขโทรศัพท์หรือที่อยู่อีเมลที่คุณสามารถติดต่อได้
- ระบุงานที่มีลิขสิทธิ์อย่างชัดเจนซึ่งอ้างว่าถูกละเมิด
- ระบุเนื้อหาที่อ้างว่ามีการละเมิดและข้อมูลอย่างชัดเจนเพียงพอที่จะทำให้เราสามารถค้นหาวัสดุได้
เราจะปฏิบัติตามคำขอที่ถูกต้องตามกฎหมายโดยการลบแหล่งที่ได้รับผลกระทบจากการเปิดตัวคลังข้อมูลครั้งต่อไป
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 82 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_br
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_br')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
ใบอนุญาต : ข้อมูลเหล่านี้ได้รับการเผยแพร่ภายใต้รูปแบบการออกใบอนุญาตนี้เราไม่ได้เป็นเจ้าของข้อความใด ๆ ที่ข้อมูลเหล่านี้ได้รับการสกัด เราอนุญาตให้บรรจุภัณฑ์ที่แท้จริงของข้อมูลเหล่านี้ภายใต้ใบอนุญาต Creative Commons CC0 ("ไม่มีสิทธิ์สงวน") http://creativecommons.org/publicdomain/zero/1.0/ ตามขอบเขตที่เป็นไปได้ภายใต้กฎหมาย สิทธิ์ใกล้เคียงกับออสการ์งานนี้ตีพิมพ์จาก: ฝรั่งเศส
หากคุณพิจารณาว่าข้อมูลของเรามีเนื้อหาที่คุณเป็นเจ้าของและไม่ควรทำซ้ำที่นี่โปรด:
- ระบุตัวคุณเองอย่างชัดเจนพร้อมข้อมูลการติดต่อโดยละเอียดเช่นที่อยู่หมายเลขโทรศัพท์หรือที่อยู่อีเมลที่คุณสามารถติดต่อได้
- ระบุงานที่มีลิขสิทธิ์อย่างชัดเจนซึ่งอ้างว่าถูกละเมิด
- ระบุเนื้อหาที่อ้างว่ามีการละเมิดและข้อมูลอย่างชัดเจนเพียงพอที่จะทำให้เราสามารถค้นหาวัสดุได้
เราจะปฏิบัติตามคำขอที่ถูกต้องตามกฎหมายโดยการลบแหล่งที่ได้รับผลกระทบจากการเปิดตัวคลังข้อมูลครั้งต่อไป
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 14724 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_cbk
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_cbk')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
ใบอนุญาต : ข้อมูลเหล่านี้ได้รับการเผยแพร่ภายใต้รูปแบบการออกใบอนุญาตนี้เราไม่ได้เป็นเจ้าของข้อความใด ๆ ที่ข้อมูลเหล่านี้ได้รับการสกัด เราอนุญาตให้บรรจุภัณฑ์ที่แท้จริงของข้อมูลเหล่านี้ภายใต้ใบอนุญาต Creative Commons CC0 ("ไม่มีสิทธิ์สงวน") http://creativecommons.org/publicdomain/zero/1.0/ ตามขอบเขตที่เป็นไปได้ภายใต้กฎหมาย สิทธิ์ใกล้เคียงกับออสการ์งานนี้ตีพิมพ์จาก: ฝรั่งเศส
หากคุณพิจารณาว่าข้อมูลของเรามีเนื้อหาที่คุณเป็นเจ้าของและไม่ควรทำซ้ำที่นี่โปรด:
- ระบุตัวคุณเองอย่างชัดเจนพร้อมข้อมูลการติดต่อโดยละเอียดเช่นที่อยู่หมายเลขโทรศัพท์หรือที่อยู่อีเมลที่คุณสามารถติดต่อได้
- ระบุงานที่มีลิขสิทธิ์อย่างชัดเจนซึ่งอ้างว่าถูกละเมิด
- ระบุเนื้อหาที่อ้างว่ามีการละเมิดและข้อมูลอย่างชัดเจนเพียงพอที่จะทำให้เราสามารถค้นหาวัสดุได้
เราจะปฏิบัติตามคำขอที่ถูกต้องตามกฎหมายโดยการลบแหล่งที่ได้รับผลกระทบจากการเปิดตัวคลังข้อมูลครั้งต่อไป
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 1 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_da
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_da')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
ใบอนุญาต : ข้อมูลเหล่านี้ได้รับการเผยแพร่ภายใต้รูปแบบการออกใบอนุญาตนี้เราไม่ได้เป็นเจ้าของข้อความใด ๆ ที่ข้อมูลเหล่านี้ได้รับการสกัด เราอนุญาตให้บรรจุภัณฑ์ที่แท้จริงของข้อมูลเหล่านี้ภายใต้ใบอนุญาต Creative Commons CC0 ("ไม่มีสิทธิ์สงวน") http://creativecommons.org/publicdomain/zero/1.0/ ตามขอบเขตที่เป็นไปได้ภายใต้กฎหมาย สิทธิ์ใกล้เคียงกับออสการ์งานนี้ตีพิมพ์จาก: ฝรั่งเศส
หากคุณพิจารณาว่าข้อมูลของเรามีเนื้อหาที่คุณเป็นเจ้าของและไม่ควรทำซ้ำที่นี่โปรด:
- ระบุตัวคุณเองอย่างชัดเจนพร้อมข้อมูลการติดต่อโดยละเอียดเช่นที่อยู่หมายเลขโทรศัพท์หรือที่อยู่อีเมลที่คุณสามารถติดต่อได้
- ระบุงานที่มีลิขสิทธิ์อย่างชัดเจนซึ่งอ้างว่าถูกละเมิด
- ระบุเนื้อหาที่อ้างว่ามีการละเมิดและข้อมูลอย่างชัดเจนเพียงพอที่จะทำให้เราสามารถค้นหาวัสดุได้
เราจะปฏิบัติตามคำขอที่ถูกต้องตามกฎหมายโดยการลบแหล่งที่ได้รับผลกระทบจากการเปิดตัวคลังข้อมูลครั้งต่อไป
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 4771098 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_dv
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_dv')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
ใบอนุญาต : ข้อมูลเหล่านี้ได้รับการเผยแพร่ภายใต้รูปแบบการออกใบอนุญาตนี้เราไม่ได้เป็นเจ้าของข้อความใด ๆ ที่ข้อมูลเหล่านี้ได้รับการสกัด เราอนุญาตให้บรรจุภัณฑ์ที่แท้จริงของข้อมูลเหล่านี้ภายใต้ใบอนุญาต Creative Commons CC0 ("ไม่มีสิทธิ์สงวน") http://creativecommons.org/publicdomain/zero/1.0/ ตามขอบเขตที่เป็นไปได้ภายใต้กฎหมาย สิทธิ์ใกล้เคียงกับออสการ์งานนี้ตีพิมพ์จาก: ฝรั่งเศส
หากคุณพิจารณาว่าข้อมูลของเรามีเนื้อหาที่คุณเป็นเจ้าของและไม่ควรทำซ้ำที่นี่โปรด:
- ระบุตัวคุณเองอย่างชัดเจนพร้อมข้อมูลการติดต่อโดยละเอียดเช่นที่อยู่หมายเลขโทรศัพท์หรือที่อยู่อีเมลที่คุณสามารถติดต่อได้
- ระบุงานที่มีลิขสิทธิ์อย่างชัดเจนซึ่งอ้างว่าถูกละเมิด
- ระบุเนื้อหาที่อ้างว่ามีการละเมิดและข้อมูลอย่างชัดเจนเพียงพอที่จะทำให้เราสามารถค้นหาวัสดุได้
เราจะปฏิบัติตามคำขอที่ถูกต้องตามกฎหมายโดยการลบแหล่งที่ได้รับผลกระทบจากการเปิดตัวคลังข้อมูลครั้งต่อไป
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 17024 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_eo
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_eo')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
ใบอนุญาต : ข้อมูลเหล่านี้ได้รับการเผยแพร่ภายใต้รูปแบบการออกใบอนุญาตนี้เราไม่ได้เป็นเจ้าของข้อความใด ๆ ที่ข้อมูลเหล่านี้ได้รับการสกัด เราอนุญาตให้บรรจุภัณฑ์ที่แท้จริงของข้อมูลเหล่านี้ภายใต้ใบอนุญาต Creative Commons CC0 ("ไม่มีสิทธิ์สงวน") http://creativecommons.org/publicdomain/zero/1.0/ ตามขอบเขตที่เป็นไปได้ภายใต้กฎหมาย สิทธิ์ใกล้เคียงกับออสการ์งานนี้ตีพิมพ์จาก: ฝรั่งเศส
หากคุณพิจารณาว่าข้อมูลของเรามีเนื้อหาที่คุณเป็นเจ้าของและไม่ควรทำซ้ำที่นี่โปรด:
- ระบุตัวคุณเองอย่างชัดเจนพร้อมข้อมูลการติดต่อโดยละเอียดเช่นที่อยู่หมายเลขโทรศัพท์หรือที่อยู่อีเมลที่คุณสามารถติดต่อได้
- ระบุงานที่มีลิขสิทธิ์อย่างชัดเจนซึ่งอ้างว่าถูกละเมิด
- ระบุเนื้อหาที่อ้างว่ามีการละเมิดและข้อมูลอย่างชัดเจนเพียงพอที่จะทำให้เราสามารถค้นหาวัสดุได้
เราจะปฏิบัติตามคำขอที่ถูกต้องตามกฎหมายโดยการลบแหล่งที่ได้รับผลกระทบจากการเปิดตัวคลังข้อมูลครั้งต่อไป
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 84752 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_fa
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_fa')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
ใบอนุญาต : ข้อมูลเหล่านี้ได้รับการเผยแพร่ภายใต้รูปแบบการออกใบอนุญาตนี้เราไม่ได้เป็นเจ้าของข้อความใด ๆ ที่ข้อมูลเหล่านี้ได้รับการสกัด เราอนุญาตให้บรรจุภัณฑ์ที่แท้จริงของข้อมูลเหล่านี้ภายใต้ใบอนุญาต Creative Commons CC0 ("ไม่มีสิทธิ์สงวน") http://creativecommons.org/publicdomain/zero/1.0/ ตามขอบเขตที่เป็นไปได้ภายใต้กฎหมาย สิทธิ์ใกล้เคียงกับออสการ์งานนี้ตีพิมพ์จาก: ฝรั่งเศส
หากคุณพิจารณาว่าข้อมูลของเรามีเนื้อหาที่คุณเป็นเจ้าของและไม่ควรทำซ้ำที่นี่โปรด:
- ระบุตัวคุณเองอย่างชัดเจนพร้อมข้อมูลการติดต่อโดยละเอียดเช่นที่อยู่หมายเลขโทรศัพท์หรือที่อยู่อีเมลที่คุณสามารถติดต่อได้
- ระบุงานที่มีลิขสิทธิ์อย่างชัดเจนซึ่งอ้างว่าถูกละเมิด
- ระบุเนื้อหาที่อ้างว่ามีการละเมิดและข้อมูลอย่างชัดเจนเพียงพอที่จะทำให้เราสามารถค้นหาวัสดุได้
เราจะปฏิบัติตามคำขอที่ถูกต้องตามกฎหมายโดยการลบแหล่งที่ได้รับผลกระทบจากการเปิดตัวคลังข้อมูลครั้งต่อไป
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 8203495 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_fy
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_fy')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
ใบอนุญาต : ข้อมูลเหล่านี้ได้รับการเผยแพร่ภายใต้รูปแบบการออกใบอนุญาตนี้เราไม่ได้เป็นเจ้าของข้อความใด ๆ ที่ข้อมูลเหล่านี้ได้รับการสกัด เราอนุญาตให้บรรจุภัณฑ์ที่แท้จริงของข้อมูลเหล่านี้ภายใต้ใบอนุญาต Creative Commons CC0 ("ไม่มีสิทธิ์สงวน") http://creativecommons.org/publicdomain/zero/1.0/ ตามขอบเขตที่เป็นไปได้ภายใต้กฎหมาย สิทธิ์ใกล้เคียงกับออสการ์งานนี้ตีพิมพ์จาก: ฝรั่งเศส
หากคุณพิจารณาว่าข้อมูลของเรามีเนื้อหาที่คุณเป็นเจ้าของและไม่ควรทำซ้ำที่นี่โปรด:
- ระบุตัวคุณเองอย่างชัดเจนพร้อมข้อมูลการติดต่อโดยละเอียดเช่นที่อยู่หมายเลขโทรศัพท์หรือที่อยู่อีเมลที่คุณสามารถติดต่อได้
- ระบุงานที่มีลิขสิทธิ์อย่างชัดเจนซึ่งอ้างว่าถูกละเมิด
- ระบุเนื้อหาที่อ้างว่ามีการละเมิดและข้อมูลอย่างชัดเจนเพียงพอที่จะทำให้เราสามารถค้นหาวัสดุได้
เราจะปฏิบัติตามคำขอที่ถูกต้องตามกฎหมายโดยการลบแหล่งที่ได้รับผลกระทบจากการเปิดตัวคลังข้อมูลครั้งต่อไป
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 20661 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_gn
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_gn')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
ใบอนุญาต : ข้อมูลเหล่านี้ได้รับการเผยแพร่ภายใต้รูปแบบการออกใบอนุญาตนี้เราไม่ได้เป็นเจ้าของข้อความใด ๆ ที่ข้อมูลเหล่านี้ได้รับการสกัด เราอนุญาตให้บรรจุภัณฑ์ที่แท้จริงของข้อมูลเหล่านี้ภายใต้ใบอนุญาต Creative Commons CC0 ("ไม่มีสิทธิ์สงวน") http://creativecommons.org/publicdomain/zero/1.0/ ตามขอบเขตที่เป็นไปได้ภายใต้กฎหมาย สิทธิ์ใกล้เคียงกับออสการ์งานนี้ตีพิมพ์จาก: ฝรั่งเศส
หากคุณพิจารณาว่าข้อมูลของเรามีเนื้อหาที่คุณเป็นเจ้าของและไม่ควรทำซ้ำที่นี่โปรด:
- ระบุตัวคุณเองอย่างชัดเจนพร้อมข้อมูลการติดต่อโดยละเอียดเช่นที่อยู่หมายเลขโทรศัพท์หรือที่อยู่อีเมลที่คุณสามารถติดต่อได้
- ระบุงานที่มีลิขสิทธิ์อย่างชัดเจนซึ่งอ้างว่าถูกละเมิด
- ระบุเนื้อหาที่อ้างว่ามีการละเมิดและข้อมูลอย่างชัดเจนเพียงพอที่จะทำให้เราสามารถค้นหาวัสดุได้
เราจะปฏิบัติตามคำขอที่ถูกต้องตามกฎหมายโดยการลบแหล่งที่ได้รับผลกระทบจากการเปิดตัวคลังข้อมูลครั้งต่อไป
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 68 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_cs
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_cs')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
ใบอนุญาต : ข้อมูลเหล่านี้ได้รับการเผยแพร่ภายใต้รูปแบบการออกใบอนุญาตนี้เราไม่ได้เป็นเจ้าของข้อความใด ๆ ที่ข้อมูลเหล่านี้ได้รับการสกัด เราอนุญาตให้บรรจุภัณฑ์ที่แท้จริงของข้อมูลเหล่านี้ภายใต้ใบอนุญาต Creative Commons CC0 ("ไม่มีสิทธิ์สงวน") http://creativecommons.org/publicdomain/zero/1.0/ ตามขอบเขตที่เป็นไปได้ภายใต้กฎหมาย สิทธิ์ใกล้เคียงกับออสการ์งานนี้ตีพิมพ์จาก: ฝรั่งเศส
หากคุณพิจารณาว่าข้อมูลของเรามีเนื้อหาที่คุณเป็นเจ้าของและไม่ควรทำซ้ำที่นี่โปรด:
- ระบุตัวคุณเองอย่างชัดเจนพร้อมข้อมูลการติดต่อโดยละเอียดเช่นที่อยู่หมายเลขโทรศัพท์หรือที่อยู่อีเมลที่คุณสามารถติดต่อได้
- ระบุงานที่มีลิขสิทธิ์อย่างชัดเจนซึ่งอ้างว่าถูกละเมิด
- ระบุเนื้อหาที่อ้างว่ามีการละเมิดและข้อมูลอย่างชัดเจนเพียงพอที่จะทำให้เราสามารถค้นหาวัสดุได้
เราจะปฏิบัติตามคำขอที่ถูกต้องตามกฎหมายโดยการลบแหล่งที่ได้รับผลกระทบจากการเปิดตัวคลังข้อมูลครั้งต่อไป
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 12308039 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_hi
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_hi')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
ใบอนุญาต : ข้อมูลเหล่านี้ได้รับการเผยแพร่ภายใต้รูปแบบการออกใบอนุญาตนี้เราไม่ได้เป็นเจ้าของข้อความใด ๆ ที่ข้อมูลเหล่านี้ได้รับการสกัด เราอนุญาตให้บรรจุภัณฑ์ที่แท้จริงของข้อมูลเหล่านี้ภายใต้ใบอนุญาต Creative Commons CC0 ("ไม่มีสิทธิ์สงวน") http://creativecommons.org/publicdomain/zero/1.0/ ตามขอบเขตที่เป็นไปได้ภายใต้กฎหมาย สิทธิ์ใกล้เคียงกับออสการ์งานนี้ตีพิมพ์จาก: ฝรั่งเศส
หากคุณพิจารณาว่าข้อมูลของเรามีเนื้อหาที่คุณเป็นเจ้าของและไม่ควรทำซ้ำที่นี่โปรด:
- ระบุตัวคุณเองอย่างชัดเจนพร้อมข้อมูลการติดต่อโดยละเอียดเช่นที่อยู่หมายเลขโทรศัพท์หรือที่อยู่อีเมลที่คุณสามารถติดต่อได้
- ระบุงานที่มีลิขสิทธิ์อย่างชัดเจนซึ่งอ้างว่าถูกละเมิด
- ระบุเนื้อหาที่อ้างว่ามีการละเมิดและข้อมูลอย่างชัดเจนเพียงพอที่จะทำให้เราสามารถค้นหาวัสดุได้
เราจะปฏิบัติตามคำขอที่ถูกต้องตามกฎหมายโดยการลบแหล่งที่ได้รับผลกระทบจากการเปิดตัวคลังข้อมูลครั้งต่อไป
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 245287 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_hu
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_hu')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
ใบอนุญาต : ข้อมูลเหล่านี้ได้รับการเผยแพร่ภายใต้รูปแบบการออกใบอนุญาตนี้เราไม่ได้เป็นเจ้าของข้อความใด ๆ ที่ข้อมูลเหล่านี้ได้รับการสกัด เราอนุญาตให้บรรจุภัณฑ์ที่แท้จริงของข้อมูลเหล่านี้ภายใต้ใบอนุญาต Creative Commons CC0 ("ไม่มีสิทธิ์สงวน") http://creativecommons.org/publicdomain/zero/1.0/ ตามขอบเขตที่เป็นไปได้ภายใต้กฎหมาย สิทธิ์ใกล้เคียงกับออสการ์งานนี้ตีพิมพ์จาก: ฝรั่งเศส
หากคุณพิจารณาว่าข้อมูลของเรามีเนื้อหาที่คุณเป็นเจ้าของและไม่ควรทำซ้ำที่นี่โปรด:
- ระบุตัวคุณเองอย่างชัดเจนพร้อมข้อมูลการติดต่อโดยละเอียดเช่นที่อยู่หมายเลขโทรศัพท์หรือที่อยู่อีเมลที่คุณสามารถติดต่อได้
- ระบุงานที่มีลิขสิทธิ์อย่างชัดเจนซึ่งอ้างว่าถูกละเมิด
- ระบุเนื้อหาที่อ้างว่ามีการละเมิดและข้อมูลอย่างชัดเจนเพียงพอที่จะทำให้เราสามารถค้นหาวัสดุได้
เราจะปฏิบัติตามคำขอที่ถูกต้องตามกฎหมายโดยการลบแหล่งที่ได้รับผลกระทบจากการเปิดตัวคลังข้อมูลครั้งต่อไป
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 6582908 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ie
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ie')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
ใบอนุญาต : ข้อมูลเหล่านี้ได้รับการเผยแพร่ภายใต้รูปแบบการออกใบอนุญาตนี้เราไม่ได้เป็นเจ้าของข้อความใด ๆ ที่ข้อมูลเหล่านี้ได้รับการสกัด เราอนุญาตให้บรรจุภัณฑ์ที่แท้จริงของข้อมูลเหล่านี้ภายใต้ใบอนุญาต Creative Commons CC0 ("ไม่มีสิทธิ์สงวน") http://creativecommons.org/publicdomain/zero/1.0/ ตามขอบเขตที่เป็นไปได้ภายใต้กฎหมาย สิทธิ์ใกล้เคียงกับออสการ์งานนี้ตีพิมพ์จาก: ฝรั่งเศส
หากคุณพิจารณาว่าข้อมูลของเรามีเนื้อหาที่คุณเป็นเจ้าของและไม่ควรทำซ้ำที่นี่โปรด:
- ระบุตัวคุณเองอย่างชัดเจนพร้อมข้อมูลการติดต่อโดยละเอียดเช่นที่อยู่หมายเลขโทรศัพท์หรือที่อยู่อีเมลที่คุณสามารถติดต่อได้
- ระบุงานที่มีลิขสิทธิ์อย่างชัดเจนซึ่งอ้างว่าถูกละเมิด
- ระบุเนื้อหาที่อ้างว่ามีการละเมิดและข้อมูลอย่างชัดเจนเพียงพอที่จะทำให้เราสามารถค้นหาวัสดุได้
เราจะปฏิบัติตามคำขอที่ถูกต้องตามกฎหมายโดยการลบแหล่งที่ได้รับผลกระทบจากการเปิดตัวคลังข้อมูลครั้งต่อไป
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 11 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_fr
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_fr')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
ใบอนุญาต : ข้อมูลเหล่านี้ได้รับการเผยแพร่ภายใต้รูปแบบการออกใบอนุญาตนี้เราไม่ได้เป็นเจ้าของข้อความใด ๆ ที่ข้อมูลเหล่านี้ได้รับการสกัด เราอนุญาตให้บรรจุภัณฑ์ที่แท้จริงของข้อมูลเหล่านี้ภายใต้ใบอนุญาต Creative Commons CC0 ("ไม่มีสิทธิ์สงวน") http://creativecommons.org/publicdomain/zero/1.0/ ตามขอบเขตที่เป็นไปได้ภายใต้กฎหมาย สิทธิ์ใกล้เคียงกับออสการ์งานนี้ตีพิมพ์จาก: ฝรั่งเศส
หากคุณพิจารณาว่าข้อมูลของเรามีเนื้อหาที่คุณเป็นเจ้าของและไม่ควรทำซ้ำที่นี่โปรด:
- ระบุตัวคุณเองอย่างชัดเจนพร้อมข้อมูลการติดต่อโดยละเอียดเช่นที่อยู่หมายเลขโทรศัพท์หรือที่อยู่อีเมลที่คุณสามารถติดต่อได้
- ระบุงานที่มีลิขสิทธิ์อย่างชัดเจนซึ่งอ้างว่าถูกละเมิด
- ระบุเนื้อหาที่อ้างว่ามีการละเมิดและข้อมูลอย่างชัดเจนเพียงพอที่จะทำให้เราสามารถค้นหาวัสดุได้
เราจะปฏิบัติตามคำขอที่ถูกต้องตามกฎหมายโดยการลบแหล่งที่ได้รับผลกระทบจากการเปิดตัวคลังข้อมูลครั้งต่อไป
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 59448891 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_gd
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_gd')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
ใบอนุญาต : ข้อมูลเหล่านี้ได้รับการเผยแพร่ภายใต้รูปแบบการออกใบอนุญาตนี้เราไม่ได้เป็นเจ้าของข้อความใด ๆ ที่ข้อมูลเหล่านี้ได้รับการสกัด เราอนุญาตให้บรรจุภัณฑ์ที่แท้จริงของข้อมูลเหล่านี้ภายใต้ใบอนุญาต Creative Commons CC0 ("ไม่มีสิทธิ์สงวน") http://creativecommons.org/publicdomain/zero/1.0/ ตามขอบเขตที่เป็นไปได้ภายใต้กฎหมาย สิทธิ์ใกล้เคียงกับออสการ์งานนี้ตีพิมพ์จาก: ฝรั่งเศส
หากคุณพิจารณาว่าข้อมูลของเรามีเนื้อหาที่คุณเป็นเจ้าของและไม่ควรทำซ้ำที่นี่โปรด:
- ระบุตัวคุณเองอย่างชัดเจนพร้อมข้อมูลการติดต่อโดยละเอียดเช่นที่อยู่หมายเลขโทรศัพท์หรือที่อยู่อีเมลที่คุณสามารถติดต่อได้
- ระบุงานที่มีลิขสิทธิ์อย่างชัดเจนซึ่งอ้างว่าถูกละเมิด
- ระบุเนื้อหาที่อ้างว่ามีการละเมิดและข้อมูลอย่างชัดเจนเพียงพอที่จะทำให้เราสามารถค้นหาวัสดุได้
เราจะปฏิบัติตามคำขอที่ถูกต้องตามกฎหมายโดยการลบแหล่งที่ได้รับผลกระทบจากการเปิดตัวคลังข้อมูลครั้งต่อไป
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 3883 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_gu
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_gu')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
ใบอนุญาต : ข้อมูลเหล่านี้ได้รับการเผยแพร่ภายใต้รูปแบบการออกใบอนุญาตนี้เราไม่ได้เป็นเจ้าของข้อความใด ๆ ที่ข้อมูลเหล่านี้ได้รับการสกัด เราอนุญาตให้บรรจุภัณฑ์ที่แท้จริงของข้อมูลเหล่านี้ภายใต้ใบอนุญาต Creative Commons CC0 ("ไม่มีสิทธิ์สงวน") http://creativecommons.org/publicdomain/zero/1.0/ ตามขอบเขตที่เป็นไปได้ภายใต้กฎหมาย สิทธิ์ใกล้เคียงกับออสการ์งานนี้ตีพิมพ์จาก: ฝรั่งเศส
หากคุณพิจารณาว่าข้อมูลของเรามีเนื้อหาที่คุณเป็นเจ้าของและไม่ควรทำซ้ำที่นี่โปรด:
- ระบุตัวคุณเองอย่างชัดเจนพร้อมข้อมูลการติดต่อโดยละเอียดเช่นที่อยู่หมายเลขโทรศัพท์หรือที่อยู่อีเมลที่คุณสามารถติดต่อได้
- ระบุงานที่มีลิขสิทธิ์อย่างชัดเจนซึ่งอ้างว่าถูกละเมิด
- ระบุเนื้อหาที่อ้างว่ามีการละเมิดและข้อมูลอย่างชัดเจนเพียงพอที่จะทำให้เราสามารถค้นหาวัสดุได้
เราจะปฏิบัติตามคำขอที่ถูกต้องตามกฎหมายโดยการลบแหล่งที่ได้รับผลกระทบจากการเปิดตัวคลังข้อมูลครั้งต่อไป
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 169834 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_hsb
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_hsb')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
ใบอนุญาต : ข้อมูลเหล่านี้ได้รับการเผยแพร่ภายใต้รูปแบบการออกใบอนุญาตนี้เราไม่ได้เป็นเจ้าของข้อความใด ๆ ที่ข้อมูลเหล่านี้ได้รับการสกัด เราอนุญาตให้บรรจุภัณฑ์ที่แท้จริงของข้อมูลเหล่านี้ภายใต้ใบอนุญาต Creative Commons CC0 ("ไม่มีสิทธิ์สงวน") http://creativecommons.org/publicdomain/zero/1.0/ ตามขอบเขตที่เป็นไปได้ภายใต้กฎหมาย สิทธิ์ใกล้เคียงกับออสการ์งานนี้ตีพิมพ์จาก: ฝรั่งเศส
หากคุณพิจารณาว่าข้อมูลของเรามีเนื้อหาที่คุณเป็นเจ้าของและไม่ควรทำซ้ำที่นี่โปรด:
- ระบุตัวคุณเองอย่างชัดเจนพร้อมข้อมูลการติดต่อโดยละเอียดเช่นที่อยู่หมายเลขโทรศัพท์หรือที่อยู่อีเมลที่คุณสามารถติดต่อได้
- ระบุงานที่มีลิขสิทธิ์อย่างชัดเจนซึ่งอ้างว่าถูกละเมิด
- ระบุเนื้อหาที่อ้างว่ามีการละเมิดและข้อมูลอย่างชัดเจนเพียงพอที่จะทำให้เราสามารถค้นหาวัสดุได้
เราจะปฏิบัติตามคำขอที่ถูกต้องตามกฎหมายโดยการลบแหล่งที่ได้รับผลกระทบจากการเปิดตัวคลังข้อมูลครั้งต่อไป
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 3084 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ia
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ia')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
ใบอนุญาต : ข้อมูลเหล่านี้ได้รับการเผยแพร่ภายใต้รูปแบบการออกใบอนุญาตนี้เราไม่ได้เป็นเจ้าของข้อความใด ๆ ที่ข้อมูลเหล่านี้ได้รับการสกัด เราอนุญาตให้บรรจุภัณฑ์ที่แท้จริงของข้อมูลเหล่านี้ภายใต้ใบอนุญาต Creative Commons CC0 ("ไม่มีสิทธิ์สงวน") http://creativecommons.org/publicdomain/zero/1.0/ ตามขอบเขตที่เป็นไปได้ภายใต้กฎหมาย สิทธิ์ใกล้เคียงกับออสการ์งานนี้ตีพิมพ์จาก: ฝรั่งเศส
หากคุณพิจารณาว่าข้อมูลของเรามีเนื้อหาที่คุณเป็นเจ้าของและไม่ควรทำซ้ำที่นี่โปรด:
- ระบุตัวคุณเองอย่างชัดเจนพร้อมข้อมูลการติดต่อโดยละเอียดเช่นที่อยู่หมายเลขโทรศัพท์หรือที่อยู่อีเมลที่คุณสามารถติดต่อได้
- ระบุงานที่มีลิขสิทธิ์อย่างชัดเจนซึ่งอ้างว่าถูกละเมิด
- ระบุเนื้อหาที่อ้างว่ามีการละเมิดและข้อมูลอย่างชัดเจนเพียงพอที่จะทำให้เราสามารถค้นหาวัสดุได้
เราจะปฏิบัติตามคำขอที่ถูกต้องตามกฎหมายโดยการลบแหล่งที่ได้รับผลกระทบจากการเปิดตัวคลังข้อมูลครั้งต่อไป
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 529 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_io
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_io')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
ใบอนุญาต : ข้อมูลเหล่านี้ได้รับการเผยแพร่ภายใต้รูปแบบการออกใบอนุญาตนี้เราไม่ได้เป็นเจ้าของข้อความใด ๆ ที่ข้อมูลเหล่านี้ได้รับการสกัด เราอนุญาตให้บรรจุภัณฑ์ที่แท้จริงของข้อมูลเหล่านี้ภายใต้ใบอนุญาต Creative Commons CC0 ("ไม่มีสิทธิ์สงวน") http://creativecommons.org/publicdomain/zero/1.0/ ตามขอบเขตที่เป็นไปได้ภายใต้กฎหมาย สิทธิ์ใกล้เคียงกับออสการ์งานนี้ตีพิมพ์จาก: ฝรั่งเศส
หากคุณพิจารณาว่าข้อมูลของเรามีเนื้อหาที่คุณเป็นเจ้าของและไม่ควรทำซ้ำที่นี่โปรด:
- ระบุตัวคุณเองอย่างชัดเจนพร้อมข้อมูลการติดต่อโดยละเอียดเช่นที่อยู่หมายเลขโทรศัพท์หรือที่อยู่อีเมลที่คุณสามารถติดต่อได้
- ระบุงานที่มีลิขสิทธิ์อย่างชัดเจนซึ่งอ้างว่าถูกละเมิด
- ระบุเนื้อหาที่อ้างว่ามีการละเมิดและข้อมูลอย่างชัดเจนเพียงพอที่จะทำให้เราสามารถค้นหาวัสดุได้
เราจะปฏิบัติตามคำขอที่ถูกต้องตามกฎหมายโดยการลบแหล่งที่ได้รับผลกระทบจากการเปิดตัวคลังข้อมูลครั้งต่อไป
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 617 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_jbo
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_jbo')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
ใบอนุญาต : ข้อมูลเหล่านี้ได้รับการเผยแพร่ภายใต้รูปแบบการออกใบอนุญาตนี้เราไม่ได้เป็นเจ้าของข้อความใด ๆ ที่ข้อมูลเหล่านี้ได้รับการสกัด เราอนุญาตให้บรรจุภัณฑ์ที่แท้จริงของข้อมูลเหล่านี้ภายใต้ใบอนุญาต Creative Commons CC0 ("ไม่มีสิทธิ์สงวน") http://creativecommons.org/publicdomain/zero/1.0/ ตามขอบเขตที่เป็นไปได้ภายใต้กฎหมาย สิทธิ์ใกล้เคียงกับออสการ์งานนี้ตีพิมพ์จาก: ฝรั่งเศส
หากคุณพิจารณาว่าข้อมูลของเรามีเนื้อหาที่คุณเป็นเจ้าของและไม่ควรทำซ้ำที่นี่โปรด:
- ระบุตัวคุณเองอย่างชัดเจนพร้อมข้อมูลการติดต่อโดยละเอียดเช่นที่อยู่หมายเลขโทรศัพท์หรือที่อยู่อีเมลที่คุณสามารถติดต่อได้
- ระบุงานที่มีลิขสิทธิ์อย่างชัดเจนซึ่งอ้างว่าถูกละเมิด
- ระบุเนื้อหาที่อ้างว่ามีการละเมิดและข้อมูลอย่างชัดเจนเพียงพอที่จะทำให้เราสามารถค้นหาวัสดุได้
เราจะปฏิบัติตามคำขอที่ถูกต้องตามกฎหมายโดยการลบแหล่งที่ได้รับผลกระทบจากการเปิดตัวคลังข้อมูลครั้งต่อไป
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 617 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_km
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_km')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
ใบอนุญาต : ข้อมูลเหล่านี้ได้รับการเผยแพร่ภายใต้รูปแบบการออกใบอนุญาตนี้เราไม่ได้เป็นเจ้าของข้อความใด ๆ ที่ข้อมูลเหล่านี้ได้รับการสกัด เราอนุญาตให้บรรจุภัณฑ์ที่แท้จริงของข้อมูลเหล่านี้ภายใต้ใบอนุญาต Creative Commons CC0 ("ไม่มีสิทธิ์สงวน") http://creativecommons.org/publicdomain/zero/1.0/ ตามขอบเขตที่เป็นไปได้ภายใต้กฎหมาย สิทธิ์ใกล้เคียงกับออสการ์งานนี้ตีพิมพ์จาก: ฝรั่งเศส
หากคุณพิจารณาว่าข้อมูลของเรามีเนื้อหาที่คุณเป็นเจ้าของและไม่ควรทำซ้ำที่นี่โปรด:
- ระบุตัวคุณเองอย่างชัดเจนพร้อมข้อมูลการติดต่อโดยละเอียดเช่นที่อยู่หมายเลขโทรศัพท์หรือที่อยู่อีเมลที่คุณสามารถติดต่อได้
- ระบุงานที่มีลิขสิทธิ์อย่างชัดเจนซึ่งอ้างว่าถูกละเมิด
- ระบุเนื้อหาที่อ้างว่ามีการละเมิดและข้อมูลอย่างชัดเจนเพียงพอที่จะทำให้เราสามารถค้นหาวัสดุได้
เราจะปฏิบัติตามคำขอที่ถูกต้องตามกฎหมายโดยการลบแหล่งที่ได้รับผลกระทบจากการเปิดตัวคลังข้อมูลครั้งต่อไป
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 108346 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ku
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ku')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
ใบอนุญาต : ข้อมูลเหล่านี้ได้รับการเผยแพร่ภายใต้รูปแบบการออกใบอนุญาตนี้เราไม่ได้เป็นเจ้าของข้อความใด ๆ ที่ข้อมูลเหล่านี้ได้รับการสกัด เราอนุญาตให้บรรจุภัณฑ์ที่แท้จริงของข้อมูลเหล่านี้ภายใต้ใบอนุญาต Creative Commons CC0 ("ไม่มีสิทธิ์สงวน") http://creativecommons.org/publicdomain/zero/1.0/ ตามขอบเขตที่เป็นไปได้ภายใต้กฎหมาย สิทธิ์ใกล้เคียงกับออสการ์งานนี้ตีพิมพ์จาก: ฝรั่งเศส
หากคุณพิจารณาว่าข้อมูลของเรามีเนื้อหาที่คุณเป็นเจ้าของและไม่ควรทำซ้ำที่นี่โปรด:
- ระบุตัวคุณเองอย่างชัดเจนพร้อมข้อมูลการติดต่อโดยละเอียดเช่นที่อยู่หมายเลขโทรศัพท์หรือที่อยู่อีเมลที่คุณสามารถติดต่อได้
- ระบุงานที่มีลิขสิทธิ์อย่างชัดเจนซึ่งอ้างว่าถูกละเมิด
- ระบุเนื้อหาที่อ้างว่ามีการละเมิดและข้อมูลอย่างชัดเจนเพียงพอที่จะทำให้เราสามารถค้นหาวัสดุได้
เราจะปฏิบัติตามคำขอที่ถูกต้องตามกฎหมายโดยการลบแหล่งที่ได้รับผลกระทบจากการเปิดตัวคลังข้อมูลครั้งต่อไป
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 29054 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_la
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_la')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
ใบอนุญาต : ข้อมูลเหล่านี้ได้รับการเผยแพร่ภายใต้รูปแบบการออกใบอนุญาตนี้เราไม่ได้เป็นเจ้าของข้อความใด ๆ ที่ข้อมูลเหล่านี้ได้รับการสกัด เราอนุญาตให้บรรจุภัณฑ์ที่แท้จริงของข้อมูลเหล่านี้ภายใต้ใบอนุญาต Creative Commons CC0 ("ไม่มีสิทธิ์สงวน") http://creativecommons.org/publicdomain/zero/1.0/ ตามขอบเขตที่เป็นไปได้ภายใต้กฎหมาย สิทธิ์ใกล้เคียงกับออสการ์งานนี้ตีพิมพ์จาก: ฝรั่งเศส
หากคุณพิจารณาว่าข้อมูลของเรามีเนื้อหาที่คุณเป็นเจ้าของและไม่ควรทำซ้ำที่นี่โปรด:
- ระบุตัวคุณเองอย่างชัดเจนพร้อมข้อมูลการติดต่อโดยละเอียดเช่นที่อยู่หมายเลขโทรศัพท์หรือที่อยู่อีเมลที่คุณสามารถติดต่อได้
- ระบุงานที่มีลิขสิทธิ์อย่างชัดเจนซึ่งอ้างว่าถูกละเมิด
- ระบุเนื้อหาที่อ้างว่ามีการละเมิดและข้อมูลอย่างชัดเจนเพียงพอที่จะทำให้เราสามารถค้นหาวัสดุได้
เราจะปฏิบัติตามคำขอที่ถูกต้องตามกฎหมายโดยการลบแหล่งที่ได้รับผลกระทบจากการเปิดตัวคลังข้อมูลครั้งต่อไป
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | พ.ศ. 2423 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_lmo
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_lmo')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
ใบอนุญาต : ข้อมูลเหล่านี้ได้รับการเผยแพร่ภายใต้รูปแบบการออกใบอนุญาตนี้เราไม่ได้เป็นเจ้าของข้อความใด ๆ ที่ข้อมูลเหล่านี้ได้รับการสกัด เราอนุญาตให้บรรจุภัณฑ์ที่แท้จริงของข้อมูลเหล่านี้ภายใต้ใบอนุญาต Creative Commons CC0 ("ไม่มีสิทธิ์สงวน") http://creativecommons.org/publicdomain/zero/1.0/ ตามขอบเขตที่เป็นไปได้ภายใต้กฎหมาย สิทธิ์ใกล้เคียงกับออสการ์งานนี้ตีพิมพ์จาก: ฝรั่งเศส
หากคุณพิจารณาว่าข้อมูลของเรามีเนื้อหาที่คุณเป็นเจ้าของและไม่ควรทำซ้ำที่นี่โปรด:
- ระบุตัวคุณเองอย่างชัดเจนพร้อมข้อมูลการติดต่อโดยละเอียดเช่นที่อยู่หมายเลขโทรศัพท์หรือที่อยู่อีเมลที่คุณสามารถติดต่อได้
- ระบุงานที่มีลิขสิทธิ์อย่างชัดเจนซึ่งอ้างว่าถูกละเมิด
- ระบุเนื้อหาที่อ้างว่ามีการละเมิดและข้อมูลอย่างชัดเจนเพียงพอที่จะทำให้เราสามารถค้นหาวัสดุได้
เราจะปฏิบัติตามคำขอที่ถูกต้องตามกฎหมายโดยการลบแหล่งที่ได้รับผลกระทบจากการเปิดตัวคลังข้อมูลครั้งต่อไป
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 1374 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_lv
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_lv')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
ใบอนุญาต : ข้อมูลเหล่านี้ได้รับการเผยแพร่ภายใต้รูปแบบการออกใบอนุญาตนี้เราไม่ได้เป็นเจ้าของข้อความใด ๆ ที่ข้อมูลเหล่านี้ได้รับการสกัด เราอนุญาตให้บรรจุภัณฑ์ที่แท้จริงของข้อมูลเหล่านี้ภายใต้ใบอนุญาต Creative Commons CC0 ("ไม่มีสิทธิ์สงวน") http://creativecommons.org/publicdomain/zero/1.0/ ตามขอบเขตที่เป็นไปได้ภายใต้กฎหมาย สิทธิ์ใกล้เคียงกับออสการ์งานนี้ตีพิมพ์จาก: ฝรั่งเศส
หากคุณพิจารณาว่าข้อมูลของเรามีเนื้อหาที่คุณเป็นเจ้าของและไม่ควรทำซ้ำที่นี่โปรด:
- ระบุตัวคุณเองอย่างชัดเจนพร้อมข้อมูลการติดต่อโดยละเอียดเช่นที่อยู่หมายเลขโทรศัพท์หรือที่อยู่อีเมลที่คุณสามารถติดต่อได้
- ระบุงานที่มีลิขสิทธิ์อย่างชัดเจนซึ่งอ้างว่าถูกละเมิด
- ระบุเนื้อหาที่อ้างว่ามีการละเมิดและข้อมูลอย่างชัดเจนเพียงพอที่จะทำให้เราสามารถค้นหาวัสดุได้
เราจะปฏิบัติตามคำขอที่ถูกต้องตามกฎหมายโดยการลบแหล่งที่ได้รับผลกระทบจากการเปิดตัวคลังข้อมูลครั้งต่อไป
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 843195 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_min
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_min')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
ใบอนุญาต : ข้อมูลเหล่านี้ได้รับการเผยแพร่ภายใต้รูปแบบการออกใบอนุญาตนี้เราไม่ได้เป็นเจ้าของข้อความใด ๆ ที่ข้อมูลเหล่านี้ได้รับการสกัด เราอนุญาตให้บรรจุภัณฑ์ที่แท้จริงของข้อมูลเหล่านี้ภายใต้ใบอนุญาต Creative Commons CC0 ("ไม่มีสิทธิ์สงวน") http://creativecommons.org/publicdomain/zero/1.0/ ตามขอบเขตที่เป็นไปได้ภายใต้กฎหมาย สิทธิ์ใกล้เคียงกับออสการ์งานนี้ตีพิมพ์จาก: ฝรั่งเศส
หากคุณพิจารณาว่าข้อมูลของเรามีเนื้อหาที่คุณเป็นเจ้าของและไม่ควรทำซ้ำที่นี่โปรด:
- ระบุตัวคุณเองอย่างชัดเจนพร้อมข้อมูลการติดต่อโดยละเอียดเช่นที่อยู่หมายเลขโทรศัพท์หรือที่อยู่อีเมลที่คุณสามารถติดต่อได้
- ระบุงานที่มีลิขสิทธิ์อย่างชัดเจนซึ่งอ้างว่าถูกละเมิด
- ระบุเนื้อหาที่อ้างว่ามีการละเมิดและข้อมูลอย่างชัดเจนเพียงพอที่จะทำให้เราสามารถค้นหาวัสดุได้
เราจะปฏิบัติตามคำขอที่ถูกต้องตามกฎหมายโดยการลบแหล่งที่ได้รับผลกระทบจากการเปิดตัวคลังข้อมูลครั้งต่อไป
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 166 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_mr
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mr')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
ใบอนุญาต : ข้อมูลเหล่านี้ได้รับการเผยแพร่ภายใต้รูปแบบการออกใบอนุญาตนี้เราไม่ได้เป็นเจ้าของข้อความใด ๆ ที่ข้อมูลเหล่านี้ได้รับการสกัด เราอนุญาตให้บรรจุภัณฑ์ที่แท้จริงของข้อมูลเหล่านี้ภายใต้ใบอนุญาต Creative Commons CC0 ("ไม่มีสิทธิ์สงวน") http://creativecommons.org/publicdomain/zero/1.0/ ตามขอบเขตที่เป็นไปได้ภายใต้กฎหมาย สิทธิ์ใกล้เคียงกับออสการ์งานนี้ตีพิมพ์จาก: ฝรั่งเศส
หากคุณพิจารณาว่าข้อมูลของเรามีเนื้อหาที่คุณเป็นเจ้าของและไม่ควรทำซ้ำที่นี่โปรด:
- ระบุตัวคุณเองอย่างชัดเจนพร้อมข้อมูลการติดต่อโดยละเอียดเช่นที่อยู่หมายเลขโทรศัพท์หรือที่อยู่อีเมลที่คุณสามารถติดต่อได้
- ระบุงานที่มีลิขสิทธิ์อย่างชัดเจนซึ่งอ้างว่าถูกละเมิด
- ระบุเนื้อหาที่อ้างว่ามีการละเมิดและข้อมูลอย่างชัดเจนเพียงพอที่จะทำให้เราสามารถค้นหาวัสดุได้
เราจะปฏิบัติตามคำขอที่ถูกต้องตามกฎหมายโดยการลบแหล่งที่ได้รับผลกระทบจากการเปิดตัวคลังข้อมูลครั้งต่อไป
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 212556 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_mwl
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mwl')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
ใบอนุญาต : ข้อมูลเหล่านี้ได้รับการเผยแพร่ภายใต้รูปแบบการออกใบอนุญาตนี้เราไม่ได้เป็นเจ้าของข้อความใด ๆ ที่ข้อมูลเหล่านี้ได้รับการสกัด เราอนุญาตให้บรรจุภัณฑ์ที่แท้จริงของข้อมูลเหล่านี้ภายใต้ใบอนุญาต Creative Commons CC0 ("ไม่มีสิทธิ์สงวน") http://creativecommons.org/publicdomain/zero/1.0/ ตามขอบเขตที่เป็นไปได้ภายใต้กฎหมาย สิทธิ์ใกล้เคียงกับออสการ์งานนี้ตีพิมพ์จาก: ฝรั่งเศส
หากคุณพิจารณาว่าข้อมูลของเรามีเนื้อหาที่คุณเป็นเจ้าของและไม่ควรทำซ้ำที่นี่โปรด:
- ระบุตัวคุณเองอย่างชัดเจนพร้อมข้อมูลการติดต่อโดยละเอียดเช่นที่อยู่หมายเลขโทรศัพท์หรือที่อยู่อีเมลที่คุณสามารถติดต่อได้
- ระบุงานที่มีลิขสิทธิ์อย่างชัดเจนซึ่งอ้างว่าถูกละเมิด
- ระบุเนื้อหาที่อ้างว่ามีการละเมิดและข้อมูลอย่างชัดเจนเพียงพอที่จะทำให้เราสามารถค้นหาวัสดุได้
เราจะปฏิบัติตามคำขอที่ถูกต้องตามกฎหมายโดยการลบแหล่งที่ได้รับผลกระทบจากการเปิดตัวคลังข้อมูลครั้งต่อไป
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 7 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_nah
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_nah')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
ใบอนุญาต : ข้อมูลเหล่านี้ได้รับการเผยแพร่ภายใต้รูปแบบการออกใบอนุญาตนี้เราไม่ได้เป็นเจ้าของข้อความใด ๆ ที่ข้อมูลเหล่านี้ได้รับการสกัด เราอนุญาตให้บรรจุภัณฑ์ที่แท้จริงของข้อมูลเหล่านี้ภายใต้ใบอนุญาต Creative Commons CC0 ("ไม่มีสิทธิ์สงวน") http://creativecommons.org/publicdomain/zero/1.0/ ตามขอบเขตที่เป็นไปได้ภายใต้กฎหมาย สิทธิ์ใกล้เคียงกับออสการ์งานนี้ตีพิมพ์จาก: ฝรั่งเศส
Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:
- Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
- Clearly identify the copyrighted work claimed to be infringed.
- Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.
We will comply to legitimate requests by removing the affected sources from the next release of the corpus.
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 58 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_new
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_new')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
License : These data are released under this licensing scheme We do not own any of the text from which these data has been extracted. We license the actual packaging of these data under the Creative Commons CC0 license ("no rights reserved") http://creativecommons.org/publicdomain/zero/1.0/ To the extent possible under law, Inria has waived all copyright and related or neighboring rights to OSCAR This work is published from: France.
Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:
- Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
- Clearly identify the copyrighted work claimed to be infringed.
- Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.
We will comply to legitimate requests by removing the affected sources from the next release of the corpus.
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 2126 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_oc
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_oc')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
License : These data are released under this licensing scheme We do not own any of the text from which these data has been extracted. We license the actual packaging of these data under the Creative Commons CC0 license ("no rights reserved") http://creativecommons.org/publicdomain/zero/1.0/ To the extent possible under law, Inria has waived all copyright and related or neighboring rights to OSCAR This work is published from: France.
Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:
- Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
- Clearly identify the copyrighted work claimed to be infringed.
- Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.
We will comply to legitimate requests by removing the affected sources from the next release of the corpus.
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 6485 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_pam
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_pam')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
License : These data are released under this licensing scheme We do not own any of the text from which these data has been extracted. We license the actual packaging of these data under the Creative Commons CC0 license ("no rights reserved") http://creativecommons.org/publicdomain/zero/1.0/ To the extent possible under law, Inria has waived all copyright and related or neighboring rights to OSCAR This work is published from: France.
Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:
- Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
- Clearly identify the copyrighted work claimed to be infringed.
- Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.
We will comply to legitimate requests by removing the affected sources from the next release of the corpus.
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 1 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ps
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ps')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
License : These data are released under this licensing scheme We do not own any of the text from which these data has been extracted. We license the actual packaging of these data under the Creative Commons CC0 license ("no rights reserved") http://creativecommons.org/publicdomain/zero/1.0/ To the extent possible under law, Inria has waived all copyright and related or neighboring rights to OSCAR This work is published from: France.
Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:
- Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
- Clearly identify the copyrighted work claimed to be infringed.
- Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.
We will comply to legitimate requests by removing the affected sources from the next release of the corpus.
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 67921 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_it
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_it')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
License : These data are released under this licensing scheme We do not own any of the text from which these data has been extracted. We license the actual packaging of these data under the Creative Commons CC0 license ("no rights reserved") http://creativecommons.org/publicdomain/zero/1.0/ To the extent possible under law, Inria has waived all copyright and related or neighboring rights to OSCAR This work is published from: France.
Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:
- Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
- Clearly identify the copyrighted work claimed to be infringed.
- Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.
We will comply to legitimate requests by removing the affected sources from the next release of the corpus.
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 28522082 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ka
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ka')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
License : These data are released under this licensing scheme We do not own any of the text from which these data has been extracted. We license the actual packaging of these data under the Creative Commons CC0 license ("no rights reserved") http://creativecommons.org/publicdomain/zero/1.0/ To the extent possible under law, Inria has waived all copyright and related or neighboring rights to OSCAR This work is published from: France.
Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:
- Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
- Clearly identify the copyrighted work claimed to be infringed.
- Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.
We will comply to legitimate requests by removing the affected sources from the next release of the corpus.
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 372158 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ro
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ro')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
License : These data are released under this licensing scheme We do not own any of the text from which these data has been extracted. We license the actual packaging of these data under the Creative Commons CC0 license ("no rights reserved") http://creativecommons.org/publicdomain/zero/1.0/ To the extent possible under law, Inria has waived all copyright and related or neighboring rights to OSCAR This work is published from: France.
Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:
- Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
- Clearly identify the copyrighted work claimed to be infringed.
- Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.
We will comply to legitimate requests by removing the affected sources from the next release of the corpus.
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 5044757 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_scn
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_scn')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
License : These data are released under this licensing scheme We do not own any of the text from which these data has been extracted. We license the actual packaging of these data under the Creative Commons CC0 license ("no rights reserved") http://creativecommons.org/publicdomain/zero/1.0/ To the extent possible under law, Inria has waived all copyright and related or neighboring rights to OSCAR This work is published from: France.
Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:
- Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
- Clearly identify the copyrighted work claimed to be infringed.
- Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.
We will comply to legitimate requests by removing the affected sources from the next release of the corpus.
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 17 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ko
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ko')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
License : These data are released under this licensing scheme We do not own any of the text from which these data has been extracted. We license the actual packaging of these data under the Creative Commons CC0 license ("no rights reserved") http://creativecommons.org/publicdomain/zero/1.0/ To the extent possible under law, Inria has waived all copyright and related or neighboring rights to OSCAR This work is published from: France.
Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:
- Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
- Clearly identify the copyrighted work claimed to be infringed.
- Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.
We will comply to legitimate requests by removing the affected sources from the next release of the corpus.
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 3675420 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_kw
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_kw')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
License : These data are released under this licensing scheme We do not own any of the text from which these data has been extracted. We license the actual packaging of these data under the Creative Commons CC0 license ("no rights reserved") http://creativecommons.org/publicdomain/zero/1.0/ To the extent possible under law, Inria has waived all copyright and related or neighboring rights to OSCAR This work is published from: France.
Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:
- Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
- Clearly identify the copyrighted work claimed to be infringed.
- Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.
We will comply to legitimate requests by removing the affected sources from the next release of the corpus.
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 68 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_lez
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_lez')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
License : These data are released under this licensing scheme We do not own any of the text from which these data has been extracted. We license the actual packaging of these data under the Creative Commons CC0 license ("no rights reserved") http://creativecommons.org/publicdomain/zero/1.0/ To the extent possible under law, Inria has waived all copyright and related or neighboring rights to OSCAR This work is published from: France.
Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:
- Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
- Clearly identify the copyrighted work claimed to be infringed.
- Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.
We will comply to legitimate requests by removing the affected sources from the next release of the corpus.
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 1381 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_lrc
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_lrc')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
License : These data are released under this licensing scheme We do not own any of the text from which these data has been extracted. We license the actual packaging of these data under the Creative Commons CC0 license ("no rights reserved") http://creativecommons.org/publicdomain/zero/1.0/ To the extent possible under law, Inria has waived all copyright and related or neighboring rights to OSCAR This work is published from: France.
Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:
- Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
- Clearly identify the copyrighted work claimed to be infringed.
- Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.
We will comply to legitimate requests by removing the affected sources from the next release of the corpus.
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 72 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_mg
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mg')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
License : These data are released under this licensing scheme We do not own any of the text from which these data has been extracted. We license the actual packaging of these data under the Creative Commons CC0 license ("no rights reserved") http://creativecommons.org/publicdomain/zero/1.0/ To the extent possible under law, Inria has waived all copyright and related or neighboring rights to OSCAR This work is published from: France.
Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:
- Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
- Clearly identify the copyrighted work claimed to be infringed.
- Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.
We will comply to legitimate requests by removing the affected sources from the next release of the corpus.
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 13343 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ml
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ml')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
License : These data are released under this licensing scheme We do not own any of the text from which these data has been extracted. We license the actual packaging of these data under the Creative Commons CC0 license ("no rights reserved") http://creativecommons.org/publicdomain/zero/1.0/ To the extent possible under law, Inria has waived all copyright and related or neighboring rights to OSCAR This work is published from: France.
Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:
- Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
- Clearly identify the copyrighted work claimed to be infringed.
- Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.
We will comply to legitimate requests by removing the affected sources from the next release of the corpus.
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 453904 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ms
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ms')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
License : These data are released under this licensing scheme We do not own any of the text from which these data has been extracted. We license the actual packaging of these data under the Creative Commons CC0 license ("no rights reserved") http://creativecommons.org/publicdomain/zero/1.0/ To the extent possible under law, Inria has waived all copyright and related or neighboring rights to OSCAR This work is published from: France.
Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:
- Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
- Clearly identify the copyrighted work claimed to be infringed.
- Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.
We will comply to legitimate requests by removing the affected sources from the next release of the corpus.
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 183443 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_myv
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_myv')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
License : These data are released under this licensing scheme We do not own any of the text from which these data has been extracted. We license the actual packaging of these data under the Creative Commons CC0 license ("no rights reserved") http://creativecommons.org/publicdomain/zero/1.0/ To the extent possible under law, Inria has waived all copyright and related or neighboring rights to OSCAR This work is published from: France.
Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:
- Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
- Clearly identify the copyrighted work claimed to be infringed.
- Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.
We will comply to legitimate requests by removing the affected sources from the next release of the corpus.
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 5 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_nds
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_nds')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
License : These data are released under this licensing scheme We do not own any of the text from which these data has been extracted. We license the actual packaging of these data under the Creative Commons CC0 license ("no rights reserved") http://creativecommons.org/publicdomain/zero/1.0/ To the extent possible under law, Inria has waived all copyright and related or neighboring rights to OSCAR This work is published from: France.
Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:
- Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
- Clearly identify the copyrighted work claimed to be infringed.
- Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.
We will comply to legitimate requests by removing the affected sources from the next release of the corpus.
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 8714 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_nn
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_nn')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
License : These data are released under this licensing scheme We do not own any of the text from which these data has been extracted. We license the actual packaging of these data under the Creative Commons CC0 license ("no rights reserved") http://creativecommons.org/publicdomain/zero/1.0/ To the extent possible under law, Inria has waived all copyright and related or neighboring rights to OSCAR This work is published from: France.
Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:
- Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
- Clearly identify the copyrighted work claimed to be infringed.
- Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.
We will comply to legitimate requests by removing the affected sources from the next release of the corpus.
เวอร์ชัน : 1.0.0
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 109118 |
- คุณสมบัติ :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_os
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_os')
- คำอธิบาย :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
License : These data are released under this licensing scheme We do not own any of the text from which these data has been extracted. We license the actual packaging of these data under the Creative Commons CC0 license ("no rights reserved") http://creativecommons.org/publicdomain/zero/1.0/ To the extent possible under law, Inria has waived all copyright and related or neighboring rights to OSCAR This work is published from: France.
Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:
- Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
- Clearly identify the copyrighted work claimed to be infringed.
- Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.
We will comply to legitimate requests by removing the affected sources from the next release of the corpus.
เวอร์ชัน