oscar

Referensi:

tidak diacak_deduplikasi_af

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_af')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 130640
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplikasi_als

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_als')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 4518
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_deduplikasi_arz

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_arz')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 79928
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_an

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_an')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 2025
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_deduplikasi_ast

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ast')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 5343
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_ba

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ba')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 27050
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_am

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_am')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 43102
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_as

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_as')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 9212
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_azb

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_azb')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 9985
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_diduplikasi_menjadi

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_be')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 307405
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_bo

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bo')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 15762
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplikasi_bxr

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bxr')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 36
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_ceb

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ceb')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 26145
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_az

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_az')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 626796
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_bcl

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bcl')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 1
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_cy

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_cy')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 98225
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_dsb

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_dsb')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 37
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_bn

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bn')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 1114481
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplikasi_bs

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bs')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 702
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_ce

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ce')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 2984
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_deduplikasi_cv

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_cv')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 10130
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_diq

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_diq')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 1
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplikasi_eml

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_eml')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 80
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_et

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_et')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 1172041
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_bg

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bg')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 3398679
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_deduplikasi_bpy

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bpy')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 1770
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplikasi_ca

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ca')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 2458067
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_ckb

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ckb')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 68210
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_ar

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ar')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 9006977
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_av

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_av')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 360
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplikasi_bar

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bar')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 4
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_bh

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bh')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 82
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_br

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_br')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 14724
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_cbk

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_cbk')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 1
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_deduplikasi_da

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_da')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 4771098
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_dv

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_dv')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 17024
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_eo

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_eo')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 84752
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_deduplikasi_fa

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_fa')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 8203495
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_deduplikasi_fy

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_fy')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 20661
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_gn

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_gn')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 68
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_deduplikasi_cs

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_cs')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 12308039
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_diduplikasi_hai

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_hi')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 1909387
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_hu

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_hu')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 6582908
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplikasi_ie

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ie')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 11
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_fr

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_fr')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 59448891
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_deduplikasi_gd

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_gd')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 3883
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_gu

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_gu')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 169834
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_deduplikasi_hsb

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_hsb')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 3084
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplikasi_ia

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ia')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 529
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_io

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_io')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 617
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_jbo

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_jbo')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 617
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplikasi_km

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_km')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 108346
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplikasi_ku

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ku')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 29054
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_la

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_la')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 18808
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplikasi_lmo

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_lmo')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 1374
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_lv

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_lv')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 843195
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_diduplikasi_min

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_min')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 166
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplikasi_mr

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mr')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 212556
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplikasi_mwl

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mwl')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 7
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_diduplikasi_nah

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_nah')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 58
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_baru

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_new')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 2126
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_oc

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_oc')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 6485
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplikasi_pam

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_pam')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 1
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_ps

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ps')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 67921
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_itu

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_it')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 28522082
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_deduplikasi_ka

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ka')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 372158
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplikasi_ro

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ro')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 5044757
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_scn

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_scn')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 17
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_deduplikasi_ko

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ko')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 3675420
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_deduplikasi_kw

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_kw')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 68
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplikasi_lez

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_lez')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 1381
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplikasi_lrc

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_lrc')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 72
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_mg

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mg')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 13343
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_deduplikasi_ml

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ml')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 453904
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplikasi_ms

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ms')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 183443
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_deduplikasi_myv

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_myv')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 5
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_deduplikasi_nds

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_nds')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 8714
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_diduplikasi_nn

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_nn')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 109118
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_deduplikasi_os

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_os')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 2559
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplikasi_pms

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_pms')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 2859
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_qu

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_qu')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 411
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_sa

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sa')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 7121
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_sk

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sk')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 2820821
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_deduplikasi_sh

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sh')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 17610
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_jadi

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_so')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 42
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_deduplikasi_sr

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sr')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 645747
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_ta

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ta')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 833101
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_deduplikasi_tk

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_tk')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 4694
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_tyv

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_tyv')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 24
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplikasi_uz

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_uz')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 15074
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_deduplikasi_wa

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_wa')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 677
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_xmf

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_xmf')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 2418
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_sv

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sv')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 11014487
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_deduplikasi_tg

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_tg')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 56259
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_de

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_de')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 62398034
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_tr

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_tr')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 11596446
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplikasi_el

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_el')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 6521169
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplikasi_uk

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_uk')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 7782375
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_vi

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_vi')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 9897709
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplikasi_wuu

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_wuu')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 64
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_yo

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_yo')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 49
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_als

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_als')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 7324
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_arz

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_arz')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 158113
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_az

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_az')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 912330
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_bcl

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_bcl')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 1
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_bn

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_bn')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 1675515
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_bs

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_bs')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 2143
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_ce

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ce')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 4042
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_cv

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_cv')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 20281
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_diq

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_diq')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 1
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_eml

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_eml')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 84
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_et

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_et')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 2093621
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_zh

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_zh')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 41708901
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_an

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_an')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 2449
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_ast

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ast')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 6999
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_ba

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ba')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 42551
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_bg

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_bg')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 5869686
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_bpy

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_bpy')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 6046
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_ca

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ca')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 4390754
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_ckb

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ckb')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 103639
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_es

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_es')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 56326016
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_da

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_da')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 7664010
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_dv

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_dv')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 21018
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_eo

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_eo')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 121168
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_deduplikasi_fi

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_fi')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 5326443
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_ga

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ga')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 46493
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplikasi_gom

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_gom')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 484
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_diduplikasi_jam

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_hr')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 321484
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_hy

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_hy')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 396093
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_deduplikasi_ilo

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ilo')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 1578
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_fa

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_fa')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 13704702
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_fy

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_fy')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 33053
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_gn

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_gn')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 106
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_hai

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_hi')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 3264660
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_hu

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_hu')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 11197780
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_ie

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ie')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 101
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplikasi_ja

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ja')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 39496439
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_kk

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_kk')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 338073
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplikasi_krc

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_krc')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 1377
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_deduplikasi_ky

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ky')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 86561
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_li

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_li')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 118
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_lt

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_lt')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 1737411
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_mhr

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mhr')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 2515
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_mn

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mn')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 197878
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_deduplikasi_mt

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mt')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 16383
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplikasi_mzn

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mzn')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 917
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_ne

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ne')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 219334
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_diduplikasi_tidak

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_no')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 3229940
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_deduplikasi_pa

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_pa')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 87235
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_pnb

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_pnb')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 3463
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplikasi_rm

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_rm')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 34
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_sah

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sah')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 8555
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_deduplikasi_si

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_si')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 120684
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_diduplikasi_sq

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sq')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 461598
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_sw

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sw')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 24803
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_diduplikasi_th

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_th')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 3749826
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_tt

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_tt')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 82738
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplikasi_ur

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ur')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 428674
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_deduplikasi_vo

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_vo')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 3317
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_xal

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_xal')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 36
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplikasi_yue

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_yue')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 7
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_am

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_am')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 83663
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_as

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_as')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 14985
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_azb

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_azb')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 15446
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_menjadi

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_be')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 586031
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_bo

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_bo')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 26795
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_bxr

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_bxr')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 42
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_ceb

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ceb')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 56248
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_cy

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_cy')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 157698
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_dsb

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_dsb')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 65
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_fr

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_fr')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 96742378
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_gd

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_gd')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 5799
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_gu

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_gu')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 240691
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_hsb

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_hsb')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 7959
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ia

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ia')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 1040
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_io

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_io')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 694
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_jbo

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_jbo')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 832
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_km

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_km')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 159363
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_ku

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ku')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 46535
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_la

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_la')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 94588
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_lmo

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_lmo')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 1401
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_lv

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_lv')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 1593820
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_min

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_min')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 220
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_mr

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_mr')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 326804
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_asli_mwl

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_mwl')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 8
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_nah

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_nah')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 61
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_baru

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_new')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 4696
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_oc

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_oc')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 10709
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_pam

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_pam')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 3
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_ps

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ps')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 98216
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_ro

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ro')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 9387265
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_asli_scn

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_scn')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 21
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_asli_sk

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_sk')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 5492194
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_sr

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_sr')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 1013619
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_ta

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ta')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 1263280
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_tk

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_tk')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 6456
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_tyv

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_tyv')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 34
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_uz

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_uz')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 27537
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_wa

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_wa')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 1001
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_xmf

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_xmf')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 3783
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_itu

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_it')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 46981781
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_ka

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ka')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 563916
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_ko

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ko')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 7345075
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_kw

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_kw')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 203
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_lez

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_lez')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 1485
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_asli_lrc

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_lrc')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 88
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_mg

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_mg')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 17957
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_ml

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ml')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 603937
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_ms

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ms')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 534016
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_myv

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_myv')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 6
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_nds

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_nds')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 18174
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_nn

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_nn')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 185884
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_os

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_os')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 5213
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_asli_pms

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_pms')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 3225
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_qu

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_qu')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 452
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_sa

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_sa')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 14291
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_sh

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_sh')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 36700
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_jadi

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_so')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 156
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_sv

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_sv')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 17395625
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_tg

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_tg')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 89002
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_tr

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_tr')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 18535253
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_uk

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_uk')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 12973467
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_vi

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_vi')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 14898250
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_wuu

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_wuu')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 214
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_yo

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_yo')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 214
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_zh

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_zh')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 60137667
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_deduplikasi_en

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_en')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 304230423
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplikasi_eu

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_eu')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 256513
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_frr

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_frr')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 7
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_gl

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_gl')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 284320
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_diduplikasi_he

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_he')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 2375030
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_deduplikasi_ht

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ht')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 9
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplikasi_id

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_id')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 9948521
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_is

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_is')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 389515
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_deduplikasi_jv

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_jv')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 1163
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_kn

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_kn')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 251064
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_kv

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_kv')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 924
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplikasi_lb

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_lb')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 21735
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_lo

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_lo')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 32652
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplikasi_mai

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mai')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 25
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_mk

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mk')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 299457
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_deduplikasi_mrj

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mrj')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 669
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_saya

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_my')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 136639
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplikasi_nap

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_nap')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 55
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_deduplikasi_nl

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_nl')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 20812149
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_diduplikasi_atau

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_or')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 44230
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_pl

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_pl')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 20682611
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_deduplikasi_pt

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_pt')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 26920397
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplikasi_ru

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ru')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 115954598
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_deduplikasi_sd

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sd')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 33925
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_sl

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sl')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 886223
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplikasi_su

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_su')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 511
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_te

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_te')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 312644
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_tl

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_tl')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 294132
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_ug

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ug')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 15503
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_deduplikasi_vec

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_vec')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 64
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplikasi_perang

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_war')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 9161
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_diduplikasi_yi

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_yi')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 32919
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_af

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_af')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 201117
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_ar

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ar')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 16365602
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_av

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_av')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 456
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_bar

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_bar')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 4
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_bh

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_bh')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 336
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_br

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_br')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 37085
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_cbk

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_cbk')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 1
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_cs

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_cs')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 21001388
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_de

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_de')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 104913504
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_el

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_el')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 10425596
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_es

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_es')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 88199221
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_asli_fi

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_fi')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 8557453
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_ga

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ga')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 83223
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_gom

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_gom')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 640
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_jam

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_hr')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 582219
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_hy

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_hy')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 659430
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_ilo

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ilo')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 2638
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_ja

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ja')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 62721527
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_kk

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_kk')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 524591
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak dikocok_asli_krc

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_krc')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 1581
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_ky

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ky')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 146993
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_li

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_li')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 137
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_lt

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_lt')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 2977757
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_mhr

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_mhr')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 3212
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_mn

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_mn')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 395605
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_mt

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_mt')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 26598
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_mzn

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_mzn')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 1055
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_ne

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ne')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 299938
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_tidak

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_no')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 5546211
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_pa

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_pa')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 127467
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_pnb

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_pnb')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 4599
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_rm

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_rm')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 41
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_sah

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_sah')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 22301
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_si

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_si')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 203082
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_sq

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_sq')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 672077
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_sw

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_sw')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 41986
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_th

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_th')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 6064129
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_tt

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_tt')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 135923
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_ur

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ur')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 638596
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_vo

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_vo')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 3366
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_xal

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_xal')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 39
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_yue

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_yue')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 11
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_en

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_en')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 455994980
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_eu

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_eu')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 506883
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_frr

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_frr')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 7
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_gl

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_gl')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 544388
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_he

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_he')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 3808397
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_ht

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ht')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 13
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_id

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_id')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 16236463
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_is

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_is')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 625673
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_jv

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_jv')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 1445
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_kn

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_kn')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 350363
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_kv

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_kv')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 1549
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_lb

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_lb')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 34807
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_lo

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_lo')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 52910
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_mai

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_mai')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 123
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_mk

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_mk')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 437871
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_mrj

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_mrj')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 757
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_saya

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_my')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 232329
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_nap

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_nap')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 73
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_nl

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_nl')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 34682142
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_atau

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_or')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 59463
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_pl

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_pl')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 35440972
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_pt

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_pt')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 42114520
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_ru

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ru')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 161836003
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_sd

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_sd')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 44280
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_sl

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_sl')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 1746604
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_su

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_su')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 805
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_te

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_te')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 475703
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_tl

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_tl')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 458206
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_ug

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ug')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 22255
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_vec

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_vec')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 73
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_war

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_war')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 9760
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tidak diacak_asli_yi

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_yi')
  • Keterangan :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Lisensi : Data ini dirilis berdasarkan skema lisensi ini. Kami tidak memiliki teks apa pun yang menjadi sumber pengambilan data ini. Kami melisensikan pengemasan sebenarnya dari data ini di bawah lisensi Creative Commons CC0 ("tidak ada hak yang dilindungi undang-undang") http://creativecommons.org/publicdomain/zero/1.0/ Sejauh memungkinkan berdasarkan hukum, Inria telah melepaskan semua hak cipta dan terkait atau hak tetangga atas OSCAR Karya ini diterbitkan dari: Perancis.

    Jika Anda menganggap bahwa data kami berisi materi milik Anda dan oleh karena itu tidak boleh direproduksi di sini, mohon:

    • Identifikasi diri Anda dengan jelas, dengan data kontak terperinci seperti alamat, nomor telepon, atau alamat email yang dapat dihubungi.
    • Identifikasi dengan jelas karya berhak cipta yang diklaim telah dilanggar.
    • Identifikasi dengan jelas materi yang diklaim melanggar dan informasi cukup memadai untuk memungkinkan kami menemukan materi tersebut.

    Kami akan memenuhi permintaan yang sah dengan menghapus sumber yang terpengaruh dari rilis korpus berikutnya.

  • Versi : 1.0.0

  • Perpecahan :

Membelah Contoh
'train' 59364
  • Fitur :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}