makhzan

Referensi:

Gunakan perintah berikut untuk memuat dataset ini di TFDS:

ds = tfds.load('huggingface:makhzan')
  • Deskripsi :
An Urdu text corpus for machine learning, natural language processing and linguistic analysis.
  • Lisensi : Semua file dalam direktori /text tercakup dalam hak cipta standar. Setiap bagian teks telah dimasukkan dalam repositori ini dengan izin eksplisit dari masing-masing pemegang hak cipta, yang diidentifikasi dalam tanda untuk setiap file. Anda bebas menggunakan teks ini untuk analisis, penelitian dan pengembangan, tetapi Anda tidak diperbolehkan untuk mendistribusikan ulang atau menerbitkan ulang teks ini. Beberapa kasus di mana lisensi yang tidak terlalu ketat dapat diterapkan pada file di direktori /text disajikan di bawah ini. Dalam beberapa kasus, teks bebas hak cipta telah direproduksi secara digital melalui kerja keras para kolaborator kami. Dalam kasus seperti itu, kami telah mengkreditkan orang yang tepat jika memungkinkan dalam bidang catatan di metadata file, dan kami sangat menganjurkan Anda untuk menghubungi mereka sebelum mendistribusikan ulang teks ini dalam bentuk apa pun. Di mana lisensi terpisah disediakan bersama dengan teks, kami telah menyediakan data yang sesuai di bidang publikasi dalam metadata file.
  • Versi : 1.0.0
  • Perpecahan :
Membelah Contoh
'train' 5522
  • Fitur :
{
    "file_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "metadata": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "num-words": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "contains-non-urdu-languages": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "document_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}