Referensi:
tidak diacak_deduplikasi_af
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_af')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.
Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:
- Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
- Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
- Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.
Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 130640 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplikasi_als
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_als')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.
Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:
- Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
- Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
- Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.
Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 4518 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
tidak diacak_deduplikasi_arz
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_arz')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.
Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:
- Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
- Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
- Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.
Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 79928 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
tidak dikocok_deduplikasi_an
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_an')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.
Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:
- Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
- Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
- Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.
Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 2025 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
tidak diacak_deduplikasi_ast
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ast')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.
Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:
- Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
- Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
- Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.
Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 5343 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
tidak dikocok_deduplikasi_ba
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ba')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.
Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:
- Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
- Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
- Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.
Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 27050 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
tidak dikocok_deduplikasi_am
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_am')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.
Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:
- Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
- Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
- Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.
Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 43102 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
tidak dikocok_deduplikasi_as
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_as')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.
Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:
- Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
- Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
- Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.
Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 9212 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
tidak dikocok_deduplikasi_azb
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_azb')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.
Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:
- Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
- Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
- Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.
Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 9985 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
tidak dikocok_diduplikasi_menjadi
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_be')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.
Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:
- Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
- Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
- Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.
Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 307405 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
tidak dikocok_deduplikasi_bo
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bo')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.
Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:
- Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
- Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
- Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.
Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 15762 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplikasi_bxr
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bxr')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.
Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:
- Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
- Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
- Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.
Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 36 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
tidak dikocok_deduplikasi_ceb
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ceb')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.
Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:
- Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
- Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
- Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.
Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 26145 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
tidak dikocok_deduplikasi_az
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_az')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.
Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:
- Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
- Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
- Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.
Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 626796 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
tidak dikocok_deduplikasi_bcl
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bcl')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.
Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:
- Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
- Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
- Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.
Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 1 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
tidak dikocok_deduplikasi_cy
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_cy')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.
Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:
- Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
- Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
- Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.
Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 98225 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
tidak dikocok_deduplikasi_dsb
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_dsb')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.
Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:
- Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
- Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
- Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.
Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 37 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
tidak dikocok_deduplikasi_bn
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bn')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.
Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:
- Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
- Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
- Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.
Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 1114481 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplikasi_bs
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bs')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.
Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:
- Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
- Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
- Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.
Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 702 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
tidak dikocok_deduplikasi_ce
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ce')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.
Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:
- Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
- Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
- Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.
Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 2984 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
tidak diacak_deduplikasi_cv
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_cv')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.
Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:
- Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
- Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
- Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.
Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 10130 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
tidak dikocok_deduplikasi_diq
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_diq')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.
Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:
- Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
- Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
- Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.
Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 1 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplikasi_eml
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_eml')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.
Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:
- Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
- Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
- Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.
Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 80 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
tidak dikocok_deduplikasi_et
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_et')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.
Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:
- Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
- Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
- Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.
Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 1172041 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
tidak dikocok_deduplikasi_bg
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bg')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.
Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:
- Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
- Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
- Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.
Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 3398679 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
tidak diacak_deduplikasi_bpy
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bpy')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.
Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:
- Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
- Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
- Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.
Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 1770 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplikasi_ca
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ca')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.
Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:
- Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
- Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
- Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.
Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 2458067 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
tidak dikocok_deduplikasi_ckb
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ckb')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.
Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:
- Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
- Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
- Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.
Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 68210 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
tidak dikocok_deduplikasi_ar
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ar')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.
Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:
- Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
- Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
- Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.
Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 9006977 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
tidak dikocok_deduplikasi_av
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_av')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.
Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:
- Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
- Identifikasi dengan jelas karya berhak cipta yang diklaim dilanggar.
- Identifikasi materi yang diklaim secara jelas melanggar dan informasi yang cukup memadai untuk memungkinkan kita menemukan materi.
Kami akan mematuhi permintaan yang sah dengan menghapus sumber yang terkena dampak dari rilis corpus berikutnya.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 360 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_bar
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bar')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Lisensi : Data ini dirilis dalam skema lisensi ini, kami tidak memiliki teks apa pun dari mana data ini telah diekstraksi. Kami melisensikan kemasan aktual data ini di bawah lisensi Creative Commons CC0 ("No Rights Reserved") http://creativeCommons.org/publicdomain/zero/1.0/ Sejauh mungkin berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau terkait atau atau terkait atau terkait atau atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait dengan hukum semua Hak tetangga untuk Oscar karya ini diterbitkan dari: Prancis.
Jika Anda mempertimbangkan bahwa data kami berisi materi yang dimiliki oleh Anda dan karenanya tidak boleh direproduksi di sini, tolong:
- Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon atau alamat email di mana Anda dapat dihubungi.
- Identifikasi dengan jelas karya berhak cipta yang diklaim dilanggar.
- Identifikasi materi yang diklaim secara jelas melanggar dan informasi yang cukup memadai untuk memungkinkan kita menemukan materi.
Kami akan mematuhi permintaan yang sah dengan menghapus sumber yang terkena dampak dari rilis corpus berikutnya.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 4 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_bh
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bh')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Lisensi : Data ini dirilis dalam skema lisensi ini, kami tidak memiliki teks apa pun dari mana data ini telah diekstraksi. Kami melisensikan pengemasan aktual data ini di bawah lisensi Creative Commons CC0 ("No Rights Reserved") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh mungkin berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau terkait atau atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait dengan hukum semua Hak tetangga untuk Oscar karya ini diterbitkan dari: Prancis.
Jika Anda mempertimbangkan bahwa data kami berisi materi yang dimiliki oleh Anda dan karenanya tidak boleh direproduksi di sini, tolong:
- Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon atau alamat email di mana Anda dapat dihubungi.
- Identifikasi dengan jelas karya berhak cipta yang diklaim dilanggar.
- Identifikasi materi yang diklaim secara jelas melanggar dan informasi yang cukup memadai untuk memungkinkan kita menemukan materi.
Kami akan mematuhi permintaan yang sah dengan menghapus sumber yang terkena dampak dari rilis corpus berikutnya.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 82 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_br
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_br')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Lisensi : Data ini dirilis dalam skema lisensi ini, kami tidak memiliki teks apa pun dari mana data ini telah diekstraksi. Kami melisensikan pengemasan aktual data ini di bawah lisensi Creative Commons CC0 ("No Rights Reserved") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh mungkin berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau terkait atau atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait dengan hukum semua Hak tetangga untuk Oscar karya ini diterbitkan dari: Prancis.
Jika Anda mempertimbangkan bahwa data kami berisi materi yang dimiliki oleh Anda dan karenanya tidak boleh direproduksi di sini, tolong:
- Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon atau alamat email di mana Anda dapat dihubungi.
- Identifikasi dengan jelas karya berhak cipta yang diklaim dilanggar.
- Identifikasi materi yang diklaim secara jelas melanggar dan informasi yang cukup memadai untuk memungkinkan kita menemukan materi.
Kami akan mematuhi permintaan yang sah dengan menghapus sumber yang terkena dampak dari rilis corpus berikutnya.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 14724 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_cbk
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_cbk')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Lisensi : Data ini dirilis dalam skema lisensi ini, kami tidak memiliki teks apa pun dari mana data ini telah diekstraksi. Kami melisensikan pengemasan aktual data ini di bawah lisensi Creative Commons CC0 ("No Rights Reserved") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh mungkin berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau terkait atau atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait dengan hukum semua Hak tetangga untuk Oscar karya ini diterbitkan dari: Prancis.
Jika Anda mempertimbangkan bahwa data kami berisi materi yang dimiliki oleh Anda dan karenanya tidak boleh direproduksi di sini, tolong:
- Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon atau alamat email di mana Anda dapat dihubungi.
- Identifikasi dengan jelas karya berhak cipta yang diklaim dilanggar.
- Identifikasi materi yang diklaim secara jelas melanggar dan informasi yang cukup memadai untuk memungkinkan kita menemukan materi.
Kami akan mematuhi permintaan yang sah dengan menghapus sumber yang terkena dampak dari rilis corpus berikutnya.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 1 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_da
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_da')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Lisensi : Data ini dirilis dalam skema lisensi ini, kami tidak memiliki teks apa pun dari mana data ini telah diekstraksi. Kami melisensikan pengemasan aktual data ini di bawah lisensi Creative Commons CC0 ("No Rights Reserved") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh mungkin berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau terkait atau atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait dengan hukum semua Hak tetangga untuk Oscar karya ini diterbitkan dari: Prancis.
Jika Anda mempertimbangkan bahwa data kami berisi materi yang dimiliki oleh Anda dan karenanya tidak boleh direproduksi di sini, tolong:
- Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon atau alamat email di mana Anda dapat dihubungi.
- Identifikasi dengan jelas karya berhak cipta yang diklaim dilanggar.
- Identifikasi materi yang diklaim secara jelas melanggar dan informasi yang cukup memadai untuk memungkinkan kita menemukan materi.
Kami akan mematuhi permintaan yang sah dengan menghapus sumber yang terkena dampak dari rilis corpus berikutnya.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 4771098 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_dv
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_dv')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Lisensi : Data ini dirilis dalam skema lisensi ini, kami tidak memiliki teks apa pun dari mana data ini telah diekstraksi. Kami melisensikan pengemasan aktual data ini di bawah lisensi Creative Commons CC0 ("No Rights Reserved") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh mungkin berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau terkait atau atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait dengan hukum semua Hak tetangga untuk Oscar karya ini diterbitkan dari: Prancis.
Jika Anda mempertimbangkan bahwa data kami berisi materi yang dimiliki oleh Anda dan karenanya tidak boleh direproduksi di sini, tolong:
- Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon atau alamat email di mana Anda dapat dihubungi.
- Identifikasi dengan jelas karya berhak cipta yang diklaim dilanggar.
- Identifikasi materi yang diklaim secara jelas melanggar dan informasi yang cukup memadai untuk memungkinkan kita menemukan materi.
Kami akan mematuhi permintaan yang sah dengan menghapus sumber yang terkena dampak dari rilis corpus berikutnya.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 17024 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_eo
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_eo')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Lisensi : Data ini dirilis dalam skema lisensi ini, kami tidak memiliki teks apa pun dari mana data ini telah diekstraksi. Kami melisensikan pengemasan aktual data ini di bawah lisensi Creative Commons CC0 ("No Rights Reserved") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh mungkin berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau terkait atau atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait dengan hukum semua Hak tetangga untuk Oscar karya ini diterbitkan dari: Prancis.
Jika Anda mempertimbangkan bahwa data kami berisi materi yang dimiliki oleh Anda dan karenanya tidak boleh direproduksi di sini, tolong:
- Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon atau alamat email di mana Anda dapat dihubungi.
- Identifikasi dengan jelas karya berhak cipta yang diklaim dilanggar.
- Identifikasi materi yang diklaim secara jelas melanggar dan informasi yang cukup memadai untuk memungkinkan kita menemukan materi.
Kami akan mematuhi permintaan yang sah dengan menghapus sumber yang terkena dampak dari rilis corpus berikutnya.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 84752 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_fa
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_fa')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Lisensi : Data ini dirilis dalam skema lisensi ini, kami tidak memiliki teks apa pun dari mana data ini telah diekstraksi. Kami melisensikan pengemasan aktual data ini di bawah lisensi Creative Commons CC0 ("No Rights Reserved") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh mungkin berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau terkait atau atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait dengan hukum semua Hak tetangga untuk Oscar karya ini diterbitkan dari: Prancis.
Jika Anda mempertimbangkan bahwa data kami berisi materi yang dimiliki oleh Anda dan karenanya tidak boleh direproduksi di sini, tolong:
- Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon atau alamat email di mana Anda dapat dihubungi.
- Identifikasi dengan jelas karya berhak cipta yang diklaim dilanggar.
- Identifikasi materi yang diklaim secara jelas melanggar dan informasi yang cukup memadai untuk memungkinkan kita menemukan materi.
Kami akan mematuhi permintaan yang sah dengan menghapus sumber yang terkena dampak dari rilis corpus berikutnya.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 8203495 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_fy
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_fy')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Lisensi : Data ini dirilis dalam skema lisensi ini, kami tidak memiliki teks apa pun dari mana data ini telah diekstraksi. Kami melisensikan pengemasan aktual data ini di bawah lisensi Creative Commons CC0 ("No Rights Reserved") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh mungkin berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau terkait atau atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait dengan hukum semua Hak tetangga untuk Oscar karya ini diterbitkan dari: Prancis.
Jika Anda mempertimbangkan bahwa data kami berisi materi yang dimiliki oleh Anda dan karenanya tidak boleh direproduksi di sini, tolong:
- Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon atau alamat email di mana Anda dapat dihubungi.
- Identifikasi dengan jelas karya berhak cipta yang diklaim dilanggar.
- Identifikasi materi yang diklaim secara jelas melanggar dan informasi yang cukup memadai untuk memungkinkan kita menemukan materi.
Kami akan mematuhi permintaan yang sah dengan menghapus sumber yang terkena dampak dari rilis corpus berikutnya.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 20661 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_gn
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_gn')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Lisensi : Data ini dirilis dalam skema lisensi ini, kami tidak memiliki teks apa pun dari mana data ini telah diekstraksi. Kami melisensikan pengemasan aktual data ini di bawah lisensi Creative Commons CC0 ("No Rights Reserved") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh mungkin berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau terkait atau atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait dengan hukum semua Hak tetangga untuk Oscar karya ini diterbitkan dari: Prancis.
Jika Anda mempertimbangkan bahwa data kami berisi materi yang dimiliki oleh Anda dan karenanya tidak boleh direproduksi di sini, tolong:
- Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon atau alamat email di mana Anda dapat dihubungi.
- Identifikasi dengan jelas karya berhak cipta yang diklaim dilanggar.
- Identifikasi materi yang diklaim secara jelas melanggar dan informasi yang cukup memadai untuk memungkinkan kita menemukan materi.
Kami akan mematuhi permintaan yang sah dengan menghapus sumber yang terkena dampak dari rilis corpus berikutnya.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 68 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_cs
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_cs')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Lisensi : Data ini dirilis dalam skema lisensi ini, kami tidak memiliki teks apa pun dari mana data ini telah diekstraksi. Kami melisensikan pengemasan aktual data ini di bawah lisensi Creative Commons CC0 ("No Rights Reserved") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh mungkin berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau terkait atau atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait dengan hukum semua Hak tetangga untuk Oscar karya ini diterbitkan dari: Prancis.
Jika Anda mempertimbangkan bahwa data kami berisi materi yang dimiliki oleh Anda dan karenanya tidak boleh direproduksi di sini, tolong:
- Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon atau alamat email di mana Anda dapat dihubungi.
- Identifikasi dengan jelas karya berhak cipta yang diklaim dilanggar.
- Identifikasi materi yang diklaim secara jelas melanggar dan informasi yang cukup memadai untuk memungkinkan kita menemukan materi.
Kami akan mematuhi permintaan yang sah dengan menghapus sumber yang terkena dampak dari rilis corpus berikutnya.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 12308039 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_hi
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_hi')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Lisensi : Data ini dirilis dalam skema lisensi ini, kami tidak memiliki teks apa pun dari mana data ini telah diekstraksi. Kami melisensikan pengemasan aktual data ini di bawah lisensi Creative Commons CC0 ("No Rights Reserved") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh mungkin berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau terkait atau atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait dengan hukum semua Hak tetangga untuk Oscar karya ini diterbitkan dari: Prancis.
Jika Anda mempertimbangkan bahwa data kami berisi materi yang dimiliki oleh Anda dan karenanya tidak boleh direproduksi di sini, tolong:
- Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon atau alamat email di mana Anda dapat dihubungi.
- Identifikasi dengan jelas karya berhak cipta yang diklaim dilanggar.
- Identifikasi materi yang diklaim secara jelas melanggar dan informasi yang cukup memadai untuk memungkinkan kita menemukan materi.
Kami akan mematuhi permintaan yang sah dengan menghapus sumber yang terkena dampak dari rilis corpus berikutnya.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 1909387 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_hu
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_hu')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Lisensi : Data ini dirilis dalam skema lisensi ini, kami tidak memiliki teks apa pun dari mana data ini telah diekstraksi. Kami melisensikan pengemasan aktual data ini di bawah lisensi Creative Commons CC0 ("No Rights Reserved") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh mungkin berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau terkait atau atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait dengan hukum semua Hak tetangga untuk Oscar karya ini diterbitkan dari: Prancis.
Jika Anda mempertimbangkan bahwa data kami berisi materi yang dimiliki oleh Anda dan karenanya tidak boleh direproduksi di sini, tolong:
- Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon atau alamat email di mana Anda dapat dihubungi.
- Identifikasi dengan jelas karya berhak cipta yang diklaim dilanggar.
- Identifikasi materi yang diklaim secara jelas melanggar dan informasi yang cukup memadai untuk memungkinkan kita menemukan materi.
Kami akan mematuhi permintaan yang sah dengan menghapus sumber yang terkena dampak dari rilis corpus berikutnya.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 6582908 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ie
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ie')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Lisensi : Data ini dirilis dalam skema lisensi ini, kami tidak memiliki teks apa pun dari mana data ini telah diekstraksi. Kami melisensikan pengemasan aktual data ini di bawah lisensi Creative Commons CC0 ("No Rights Reserved") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh mungkin berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau terkait atau atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait dengan hukum semua Hak tetangga untuk Oscar karya ini diterbitkan dari: Prancis.
Jika Anda mempertimbangkan bahwa data kami berisi materi yang dimiliki oleh Anda dan karenanya tidak boleh direproduksi di sini, tolong:
- Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon atau alamat email di mana Anda dapat dihubungi.
- Identifikasi dengan jelas karya berhak cipta yang diklaim dilanggar.
- Identifikasi materi yang diklaim secara jelas melanggar dan informasi yang cukup memadai untuk memungkinkan kita menemukan materi.
Kami akan mematuhi permintaan yang sah dengan menghapus sumber yang terkena dampak dari rilis corpus berikutnya.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 11 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_fr
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_fr')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Lisensi : Data ini dirilis dalam skema lisensi ini, kami tidak memiliki teks apa pun dari mana data ini telah diekstraksi. Kami melisensikan pengemasan aktual data ini di bawah lisensi Creative Commons CC0 ("No Rights Reserved") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh mungkin berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau terkait atau atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait dengan hukum semua Hak tetangga untuk Oscar karya ini diterbitkan dari: Prancis.
Jika Anda mempertimbangkan bahwa data kami berisi materi yang dimiliki oleh Anda dan karenanya tidak boleh direproduksi di sini, tolong:
- Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon atau alamat email di mana Anda dapat dihubungi.
- Identifikasi dengan jelas karya berhak cipta yang diklaim dilanggar.
- Identifikasi materi yang diklaim secara jelas melanggar dan informasi yang cukup memadai untuk memungkinkan kita menemukan materi.
Kami akan mematuhi permintaan yang sah dengan menghapus sumber yang terkena dampak dari rilis corpus berikutnya.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 59448891 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_gd
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_gd')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Lisensi : Data ini dirilis dalam skema lisensi ini, kami tidak memiliki teks apa pun dari mana data ini telah diekstraksi. Kami melisensikan pengemasan aktual data ini di bawah lisensi Creative Commons CC0 ("No Rights Reserved") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh mungkin berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau terkait atau atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait dengan hukum semua Hak tetangga untuk Oscar karya ini diterbitkan dari: Prancis.
Jika Anda mempertimbangkan bahwa data kami berisi materi yang dimiliki oleh Anda dan karenanya tidak boleh direproduksi di sini, tolong:
- Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon atau alamat email di mana Anda dapat dihubungi.
- Identifikasi dengan jelas karya berhak cipta yang diklaim dilanggar.
- Identifikasi materi yang diklaim secara jelas melanggar dan informasi yang cukup memadai untuk memungkinkan kita menemukan materi.
Kami akan mematuhi permintaan yang sah dengan menghapus sumber yang terkena dampak dari rilis corpus berikutnya.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 3883 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_gu
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_gu')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Lisensi : Data ini dirilis dalam skema lisensi ini, kami tidak memiliki teks apa pun dari mana data ini telah diekstraksi. Kami melisensikan pengemasan aktual data ini di bawah lisensi Creative Commons CC0 ("No Rights Reserved") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh mungkin berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau terkait atau atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait dengan hukum semua Hak tetangga untuk Oscar karya ini diterbitkan dari: Prancis.
Jika Anda mempertimbangkan bahwa data kami berisi materi yang dimiliki oleh Anda dan karenanya tidak boleh direproduksi di sini, tolong:
- Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon atau alamat email di mana Anda dapat dihubungi.
- Identifikasi dengan jelas karya berhak cipta yang diklaim dilanggar.
- Identifikasi materi yang diklaim secara jelas melanggar dan informasi yang cukup memadai untuk memungkinkan kita menemukan materi.
Kami akan mematuhi permintaan yang sah dengan menghapus sumber yang terkena dampak dari rilis corpus berikutnya.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 169834 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_hsb
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_hsb')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Lisensi : Data ini dirilis dalam skema lisensi ini, kami tidak memiliki teks apa pun dari mana data ini telah diekstraksi. Kami melisensikan pengemasan aktual data ini di bawah lisensi Creative Commons CC0 ("No Rights Reserved") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh mungkin berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau terkait atau atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait dengan hukum semua Hak tetangga untuk Oscar karya ini diterbitkan dari: Prancis.
Jika Anda mempertimbangkan bahwa data kami berisi materi yang dimiliki oleh Anda dan karenanya tidak boleh direproduksi di sini, tolong:
- Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon atau alamat email di mana Anda dapat dihubungi.
- Identifikasi dengan jelas karya berhak cipta yang diklaim dilanggar.
- Identifikasi materi yang diklaim secara jelas melanggar dan informasi yang cukup memadai untuk memungkinkan kita menemukan materi.
Kami akan mematuhi permintaan yang sah dengan menghapus sumber yang terkena dampak dari rilis corpus berikutnya.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 3084 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ia
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ia')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Lisensi : Data ini dirilis dalam skema lisensi ini, kami tidak memiliki teks apa pun dari mana data ini telah diekstraksi. Kami melisensikan pengemasan aktual data ini di bawah lisensi Creative Commons CC0 ("No Rights Reserved") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh mungkin berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau terkait atau atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait dengan hukum semua Hak tetangga untuk Oscar karya ini diterbitkan dari: Prancis.
Jika Anda mempertimbangkan bahwa data kami berisi materi yang dimiliki oleh Anda dan karenanya tidak boleh direproduksi di sini, tolong:
- Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon atau alamat email di mana Anda dapat dihubungi.
- Identifikasi dengan jelas karya berhak cipta yang diklaim dilanggar.
- Identifikasi materi yang diklaim secara jelas melanggar dan informasi yang cukup memadai untuk memungkinkan kita menemukan materi.
Kami akan mematuhi permintaan yang sah dengan menghapus sumber yang terkena dampak dari rilis corpus berikutnya.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 529 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_io
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_io')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Lisensi : Data ini dirilis dalam skema lisensi ini, kami tidak memiliki teks apa pun dari mana data ini telah diekstraksi. Kami melisensikan pengemasan aktual data ini di bawah lisensi Creative Commons CC0 ("No Rights Reserved") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh mungkin berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau terkait atau atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait dengan hukum semua Hak tetangga untuk Oscar karya ini diterbitkan dari: Prancis.
Jika Anda mempertimbangkan bahwa data kami berisi materi yang dimiliki oleh Anda dan karenanya tidak boleh direproduksi di sini, tolong:
- Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon atau alamat email di mana Anda dapat dihubungi.
- Identifikasi dengan jelas karya berhak cipta yang diklaim dilanggar.
- Identifikasi materi yang diklaim secara jelas melanggar dan informasi yang cukup memadai untuk memungkinkan kita menemukan materi.
Kami akan mematuhi permintaan yang sah dengan menghapus sumber yang terkena dampak dari rilis corpus berikutnya.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 617 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_jbo
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_jbo')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Lisensi : Data ini dirilis dalam skema lisensi ini, kami tidak memiliki teks apa pun dari mana data ini telah diekstraksi. Kami melisensikan pengemasan aktual data ini di bawah lisensi Creative Commons CC0 ("No Rights Reserved") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh mungkin berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau terkait atau atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait dengan hukum semua Hak tetangga untuk Oscar karya ini diterbitkan dari: Prancis.
Jika Anda mempertimbangkan bahwa data kami berisi materi yang dimiliki oleh Anda dan karenanya tidak boleh direproduksi di sini, tolong:
- Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon atau alamat email di mana Anda dapat dihubungi.
- Identifikasi dengan jelas karya berhak cipta yang diklaim dilanggar.
- Identifikasi materi yang diklaim secara jelas melanggar dan informasi yang cukup memadai untuk memungkinkan kita menemukan materi.
Kami akan mematuhi permintaan yang sah dengan menghapus sumber yang terkena dampak dari rilis corpus berikutnya.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 617 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_km
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_km')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Lisensi : Data ini dirilis dalam skema lisensi ini, kami tidak memiliki teks apa pun dari mana data ini telah diekstraksi. Kami melisensikan pengemasan aktual data ini di bawah lisensi Creative Commons CC0 ("No Rights Reserved") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh mungkin berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau terkait atau atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait dengan hukum semua Hak tetangga untuk Oscar karya ini diterbitkan dari: Prancis.
Jika Anda mempertimbangkan bahwa data kami berisi materi yang dimiliki oleh Anda dan karenanya tidak boleh direproduksi di sini, tolong:
- Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon atau alamat email di mana Anda dapat dihubungi.
- Identifikasi dengan jelas karya berhak cipta yang diklaim dilanggar.
- Identifikasi materi yang diklaim secara jelas melanggar dan informasi yang cukup memadai untuk memungkinkan kita menemukan materi.
Kami akan mematuhi permintaan yang sah dengan menghapus sumber yang terkena dampak dari rilis corpus berikutnya.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 108346 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ku
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ku')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Lisensi : Data ini dirilis dalam skema lisensi ini, kami tidak memiliki teks apa pun dari mana data ini telah diekstraksi. Kami melisensikan pengemasan aktual data ini di bawah lisensi Creative Commons CC0 ("No Rights Reserved") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh mungkin berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau terkait atau atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait dengan hukum semua Hak tetangga untuk Oscar karya ini diterbitkan dari: Prancis.
Jika Anda mempertimbangkan bahwa data kami berisi materi yang dimiliki oleh Anda dan karenanya tidak boleh direproduksi di sini, tolong:
- Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon atau alamat email di mana Anda dapat dihubungi.
- Identifikasi dengan jelas karya berhak cipta yang diklaim dilanggar.
- Identifikasi materi yang diklaim secara jelas melanggar dan informasi yang cukup memadai untuk memungkinkan kita menemukan materi.
Kami akan mematuhi permintaan yang sah dengan menghapus sumber yang terkena dampak dari rilis corpus berikutnya.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 29054 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_la
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_la')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Lisensi : Data ini dirilis dalam skema lisensi ini, kami tidak memiliki teks apa pun dari mana data ini telah diekstraksi. Kami melisensikan pengemasan aktual data ini di bawah lisensi Creative Commons CC0 ("No Rights Reserved") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh mungkin berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau terkait atau atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait dengan hukum semua Hak tetangga untuk Oscar karya ini diterbitkan dari: Prancis.
Jika Anda mempertimbangkan bahwa data kami berisi materi yang dimiliki oleh Anda dan karenanya tidak boleh direproduksi di sini, tolong:
- Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon atau alamat email di mana Anda dapat dihubungi.
- Identifikasi dengan jelas karya berhak cipta yang diklaim dilanggar.
- Identifikasi materi yang diklaim secara jelas melanggar dan informasi yang cukup memadai untuk memungkinkan kita menemukan materi.
Kami akan mematuhi permintaan yang sah dengan menghapus sumber yang terkena dampak dari rilis corpus berikutnya.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 18808 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_lmo
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_lmo')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Lisensi : Data ini dirilis dalam skema lisensi ini, kami tidak memiliki teks apa pun dari mana data ini telah diekstraksi. Kami melisensikan pengemasan aktual data ini di bawah lisensi Creative Commons CC0 ("No Rights Reserved") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh mungkin berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau terkait atau atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait dengan hukum semua Hak tetangga untuk Oscar karya ini diterbitkan dari: Prancis.
Jika Anda mempertimbangkan bahwa data kami berisi materi yang dimiliki oleh Anda dan karenanya tidak boleh direproduksi di sini, tolong:
- Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon atau alamat email di mana Anda dapat dihubungi.
- Identifikasi dengan jelas karya berhak cipta yang diklaim dilanggar.
- Identifikasi materi yang diklaim secara jelas melanggar dan informasi yang cukup memadai untuk memungkinkan kita menemukan materi.
Kami akan mematuhi permintaan yang sah dengan menghapus sumber yang terkena dampak dari rilis corpus berikutnya.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 1374 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_lv
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_lv')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Lisensi : Data ini dirilis dalam skema lisensi ini, kami tidak memiliki teks apa pun dari mana data ini telah diekstraksi. Kami melisensikan pengemasan aktual data ini di bawah lisensi Creative Commons CC0 ("No Rights Reserved") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh mungkin berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau terkait atau atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait dengan hukum semua Hak tetangga untuk Oscar karya ini diterbitkan dari: Prancis.
Jika Anda mempertimbangkan bahwa data kami berisi materi yang dimiliki oleh Anda dan karenanya tidak boleh direproduksi di sini, tolong:
- Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon atau alamat email di mana Anda dapat dihubungi.
- Identifikasi dengan jelas karya berhak cipta yang diklaim dilanggar.
- Identifikasi materi yang diklaim secara jelas melanggar dan informasi yang cukup memadai untuk memungkinkan kita menemukan materi.
Kami akan mematuhi permintaan yang sah dengan menghapus sumber yang terkena dampak dari rilis corpus berikutnya.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 843195 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_min
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_min')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Lisensi : Data ini dirilis dalam skema lisensi ini, kami tidak memiliki teks apa pun dari mana data ini telah diekstraksi. Kami melisensikan pengemasan aktual data ini di bawah lisensi Creative Commons CC0 ("No Rights Reserved") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh mungkin berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau terkait atau atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait dengan hukum semua Hak tetangga untuk Oscar karya ini diterbitkan dari: Prancis.
Jika Anda mempertimbangkan bahwa data kami berisi materi yang dimiliki oleh Anda dan karenanya tidak boleh direproduksi di sini, tolong:
- Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon atau alamat email di mana Anda dapat dihubungi.
- Identifikasi dengan jelas karya berhak cipta yang diklaim dilanggar.
- Identifikasi materi yang diklaim secara jelas melanggar dan informasi yang cukup memadai untuk memungkinkan kita menemukan materi.
Kami akan mematuhi permintaan yang sah dengan menghapus sumber yang terkena dampak dari rilis corpus berikutnya.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 166 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_mr
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mr')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Lisensi : Data ini dirilis dalam skema lisensi ini, kami tidak memiliki teks apa pun dari mana data ini telah diekstraksi. Kami melisensikan pengemasan aktual data ini di bawah lisensi Creative Commons CC0 ("No Rights Reserved") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh mungkin berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau terkait atau atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait dengan hukum semua Hak tetangga untuk Oscar karya ini diterbitkan dari: Prancis.
Jika Anda mempertimbangkan bahwa data kami berisi materi yang dimiliki oleh Anda dan karenanya tidak boleh direproduksi di sini, tolong:
- Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon atau alamat email di mana Anda dapat dihubungi.
- Identifikasi dengan jelas karya berhak cipta yang diklaim dilanggar.
- Identifikasi materi yang diklaim secara jelas melanggar dan informasi yang cukup memadai untuk memungkinkan kita menemukan materi.
Kami akan mematuhi permintaan yang sah dengan menghapus sumber yang terkena dampak dari rilis corpus berikutnya.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 212556 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_mwl
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mwl')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Lisensi : Data ini dirilis dalam skema lisensi ini, kami tidak memiliki teks apa pun dari mana data ini telah diekstraksi. Kami melisensikan pengemasan aktual data ini di bawah lisensi Creative Commons CC0 ("No Rights Reserved") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh mungkin berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau terkait atau atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait dengan hukum semua Hak tetangga untuk Oscar karya ini diterbitkan dari: Prancis.
Jika Anda mempertimbangkan bahwa data kami berisi materi yang dimiliki oleh Anda dan karenanya tidak boleh direproduksi di sini, tolong:
- Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon atau alamat email di mana Anda dapat dihubungi.
- Identifikasi dengan jelas karya berhak cipta yang diklaim dilanggar.
- Identifikasi materi yang diklaim secara jelas melanggar dan informasi yang cukup memadai untuk memungkinkan kita menemukan materi.
Kami akan mematuhi permintaan yang sah dengan menghapus sumber yang terkena dampak dari rilis corpus berikutnya.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 7 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_nah
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_nah')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Lisensi : Data ini dirilis dalam skema lisensi ini, kami tidak memiliki teks apa pun dari mana data ini telah diekstraksi. Kami melisensikan pengemasan aktual data ini di bawah lisensi Creative Commons CC0 ("No Rights Reserved") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh mungkin berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau atau terkait atau terkait atau atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait atau terkait dengan hukum semua Hak tetangga untuk Oscar karya ini diterbitkan dari: Prancis.
Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:
- Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
- Clearly identify the copyrighted work claimed to be infringed.
- Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.
We will comply to legitimate requests by removing the affected sources from the next release of the corpus.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 58 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_new
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_new')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
License : These data are released under this licensing scheme We do not own any of the text from which these data has been extracted. We license the actual packaging of these data under the Creative Commons CC0 license ("no rights reserved") http://creativecommons.org/publicdomain/zero/1.0/ To the extent possible under law, Inria has waived all copyright and related or neighboring rights to OSCAR This work is published from: France.
Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:
- Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
- Clearly identify the copyrighted work claimed to be infringed.
- Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.
We will comply to legitimate requests by removing the affected sources from the next release of the corpus.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 2126 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_oc
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_oc')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
License : These data are released under this licensing scheme We do not own any of the text from which these data has been extracted. We license the actual packaging of these data under the Creative Commons CC0 license ("no rights reserved") http://creativecommons.org/publicdomain/zero/1.0/ To the extent possible under law, Inria has waived all copyright and related or neighboring rights to OSCAR This work is published from: France.
Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:
- Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
- Clearly identify the copyrighted work claimed to be infringed.
- Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.
We will comply to legitimate requests by removing the affected sources from the next release of the corpus.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 6485 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_pam
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_pam')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
License : These data are released under this licensing scheme We do not own any of the text from which these data has been extracted. We license the actual packaging of these data under the Creative Commons CC0 license ("no rights reserved") http://creativecommons.org/publicdomain/zero/1.0/ To the extent possible under law, Inria has waived all copyright and related or neighboring rights to OSCAR This work is published from: France.
Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:
- Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
- Clearly identify the copyrighted work claimed to be infringed.
- Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.
We will comply to legitimate requests by removing the affected sources from the next release of the corpus.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 1 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ps
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ps')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
License : These data are released under this licensing scheme We do not own any of the text from which these data has been extracted. We license the actual packaging of these data under the Creative Commons CC0 license ("no rights reserved") http://creativecommons.org/publicdomain/zero/1.0/ To the extent possible under law, Inria has waived all copyright and related or neighboring rights to OSCAR This work is published from: France.
Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:
- Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
- Clearly identify the copyrighted work claimed to be infringed.
- Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.
We will comply to legitimate requests by removing the affected sources from the next release of the corpus.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 67921 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_it
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_it')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
License : These data are released under this licensing scheme We do not own any of the text from which these data has been extracted. We license the actual packaging of these data under the Creative Commons CC0 license ("no rights reserved") http://creativecommons.org/publicdomain/zero/1.0/ To the extent possible under law, Inria has waived all copyright and related or neighboring rights to OSCAR This work is published from: France.
Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:
- Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
- Clearly identify the copyrighted work claimed to be infringed.
- Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.
We will comply to legitimate requests by removing the affected sources from the next release of the corpus.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 28522082 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ka
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ka')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
License : These data are released under this licensing scheme We do not own any of the text from which these data has been extracted. We license the actual packaging of these data under the Creative Commons CC0 license ("no rights reserved") http://creativecommons.org/publicdomain/zero/1.0/ To the extent possible under law, Inria has waived all copyright and related or neighboring rights to OSCAR This work is published from: France.
Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:
- Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
- Clearly identify the copyrighted work claimed to be infringed.
- Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.
We will comply to legitimate requests by removing the affected sources from the next release of the corpus.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 372158 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ro
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ro')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
License : These data are released under this licensing scheme We do not own any of the text from which these data has been extracted. We license the actual packaging of these data under the Creative Commons CC0 license ("no rights reserved") http://creativecommons.org/publicdomain/zero/1.0/ To the extent possible under law, Inria has waived all copyright and related or neighboring rights to OSCAR This work is published from: France.
Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:
- Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
- Clearly identify the copyrighted work claimed to be infringed.
- Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.
We will comply to legitimate requests by removing the affected sources from the next release of the corpus.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 5044757 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_scn
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_scn')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
License : These data are released under this licensing scheme We do not own any of the text from which these data has been extracted. We license the actual packaging of these data under the Creative Commons CC0 license ("no rights reserved") http://creativecommons.org/publicdomain/zero/1.0/ To the extent possible under law, Inria has waived all copyright and related or neighboring rights to OSCAR This work is published from: France.
Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:
- Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
- Clearly identify the copyrighted work claimed to be infringed.
- Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.
We will comply to legitimate requests by removing the affected sources from the next release of the corpus.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 17 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ko
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ko')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
License : These data are released under this licensing scheme We do not own any of the text from which these data has been extracted. We license the actual packaging of these data under the Creative Commons CC0 license ("no rights reserved") http://creativecommons.org/publicdomain/zero/1.0/ To the extent possible under law, Inria has waived all copyright and related or neighboring rights to OSCAR This work is published from: France.
Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:
- Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
- Clearly identify the copyrighted work claimed to be infringed.
- Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.
We will comply to legitimate requests by removing the affected sources from the next release of the corpus.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 3675420 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_kw
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_kw')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
License : These data are released under this licensing scheme We do not own any of the text from which these data has been extracted. We license the actual packaging of these data under the Creative Commons CC0 license ("no rights reserved") http://creativecommons.org/publicdomain/zero/1.0/ To the extent possible under law, Inria has waived all copyright and related or neighboring rights to OSCAR This work is published from: France.
Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:
- Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
- Clearly identify the copyrighted work claimed to be infringed.
- Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.
We will comply to legitimate requests by removing the affected sources from the next release of the corpus.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 68 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_lez
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_lez')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
License : These data are released under this licensing scheme We do not own any of the text from which these data has been extracted. We license the actual packaging of these data under the Creative Commons CC0 license ("no rights reserved") http://creativecommons.org/publicdomain/zero/1.0/ To the extent possible under law, Inria has waived all copyright and related or neighboring rights to OSCAR This work is published from: France.
Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:
- Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
- Clearly identify the copyrighted work claimed to be infringed.
- Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.
We will comply to legitimate requests by removing the affected sources from the next release of the corpus.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 1381 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_lrc
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_lrc')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
License : These data are released under this licensing scheme We do not own any of the text from which these data has been extracted. We license the actual packaging of these data under the Creative Commons CC0 license ("no rights reserved") http://creativecommons.org/publicdomain/zero/1.0/ To the extent possible under law, Inria has waived all copyright and related or neighboring rights to OSCAR This work is published from: France.
Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:
- Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
- Clearly identify the copyrighted work claimed to be infringed.
- Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.
We will comply to legitimate requests by removing the affected sources from the next release of the corpus.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 72 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_mg
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mg')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
License : These data are released under this licensing scheme We do not own any of the text from which these data has been extracted. We license the actual packaging of these data under the Creative Commons CC0 license ("no rights reserved") http://creativecommons.org/publicdomain/zero/1.0/ To the extent possible under law, Inria has waived all copyright and related or neighboring rights to OSCAR This work is published from: France.
Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:
- Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
- Clearly identify the copyrighted work claimed to be infringed.
- Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.
We will comply to legitimate requests by removing the affected sources from the next release of the corpus.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 13343 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ml
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ml')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
License : These data are released under this licensing scheme We do not own any of the text from which these data has been extracted. We license the actual packaging of these data under the Creative Commons CC0 license ("no rights reserved") http://creativecommons.org/publicdomain/zero/1.0/ To the extent possible under law, Inria has waived all copyright and related or neighboring rights to OSCAR This work is published from: France.
Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:
- Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
- Clearly identify the copyrighted work claimed to be infringed.
- Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.
We will comply to legitimate requests by removing the affected sources from the next release of the corpus.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 453904 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ms
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ms')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
License : These data are released under this licensing scheme We do not own any of the text from which these data has been extracted. We license the actual packaging of these data under the Creative Commons CC0 license ("no rights reserved") http://creativecommons.org/publicdomain/zero/1.0/ To the extent possible under law, Inria has waived all copyright and related or neighboring rights to OSCAR This work is published from: France.
Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:
- Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
- Clearly identify the copyrighted work claimed to be infringed.
- Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.
We will comply to legitimate requests by removing the affected sources from the next release of the corpus.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 183443 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_myv
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_myv')
- Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
License : These data are released under this licensing scheme We do not own any of the text from which these data has been extracted. We license the actual packaging of these data under the Creative Commons CC0 license ("no rights reserved") http://creativecommons.org/publicdomain/zero/1.0/ To the extent possible under law, Inria has waived all copyright and related or neighboring rights to OSCAR This work is published from: France.
Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:
- Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
- Clearly identify the copyrighted work claimed to be infringed.
- Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.
We will comply to legitimate requests by removing the affected sources from the next release of the corpus.
Versi : 1.0.0
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 5 |
- Fitur :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_nds
Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS: