מחזאן

הפניות:

השתמש בפקודה הבאה כדי לטעון מערך נתונים זה ב-TFDS:

ds = tfds.load('huggingface:makhzan')

תיאור :

An Urdu text corpus for machine learning, natural language processing and linguistic analysis.

רישיון : כל הקבצים בספריית /text מכוסים תחת זכויות יוצרים סטנדרטיות. כל פיסת טקסט נכללה במאגר זה באישור מפורש של בעלי זכויות יוצרים בהתאמה, אשר מזוהים ב- תג עבור כל קובץ. אתה חופשי להשתמש בטקסט זה לניתוח, מחקר ופיתוח, אך אינך רשאי להפיץ מחדש או לפרסם מחדש את הטקסט הזה. כמה מקרים שבהם רישיון פחות מגביל יכול לחול על קבצים בספריית /text מוצגים להלן. במקרים מסוימים, טקסט חופשי של זכויות יוצרים שוחזר דיגיטלית באמצעות העבודה הקשה של משתפי הפעולה שלנו. במקרים כאלה זיכינו את האנשים המתאימים במידת האפשר בשדה הערות במטא נתונים של הקובץ, ואנו ממליצים בחום לפנות אליהם לפני הפצה מחדש של טקסט זה בכל צורה שהיא. כאשר מסופק רישיון נפרד יחד עם הטקסט, סיפקנו נתונים מתאימים בשדה הפרסום במטא נתונים של קובץ.
גרסה : 1.0.0
פיצולים :

לְפַצֵל	דוגמאות
`'train'`	5522

תכונות :

{
    "file_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "metadata": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "num-words": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "contains-non-urdu-languages": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "document_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}