मख़ज़ान

सन्दर्भ:

इस डेटासेट को TFDS में लोड करने के लिए निम्न कमांड का उपयोग करें:

ds = tfds.load('huggingface:makhzan')

विवरण :

An Urdu text corpus for machine learning, natural language processing and linguistic analysis.

लाइसेंस : /पाठ निर्देशिका में सभी फाइलें मानक कॉपीराइट के अंतर्गत आती हैं। पाठ के प्रत्येक टुकड़े को संबंधित कॉपीराइट धारकों की स्पष्टीकरण अनुमति के साथ इस भंडार में शामिल किया गया है, जिनकी पहचान इसमें की गई है प्रत्येक फ़ाइल के लिए टैग। आप विश्लेषण, शोध और विकास के लिए इस पाठ का उपयोग करने के लिए स्वतंत्र हैं, लेकिन आपको इस पाठ को पुनर्वितरित या पुनर्प्रकाशित करने की अनुमति नहीं है। कुछ मामले जहां /पाठ निर्देशिका में फाइलों पर कम प्रतिबंधात्मक लाइसेंस लागू हो सकता है, नीचे प्रस्तुत किए गए हैं। कुछ मामलों में हमारे सहयोगियों की कड़ी मेहनत के माध्यम से कॉपीराइट मुक्त पाठ को डिजिटल रूप से पुन: प्रस्तुत किया गया है। ऐसे मामलों में हमने फ़ाइल के मेटाडेटा में नोट फ़ील्ड में जहाँ संभव हो उपयुक्त लोगों को श्रेय दिया है, और हम आपको इस पाठ को किसी भी रूप में पुनर्वितरित करने से पहले उनसे संपर्क करने के लिए दृढ़ता से प्रोत्साहित करते हैं। जहां पाठ के साथ एक अलग लाइसेंस प्रदान किया जाता है, हमने एक फ़ाइल के मेटाडेटा में प्रकाशन क्षेत्र में संबंधित डेटा प्रदान किया है।
संस्करण : 1.0.0
विभाजन :

विभाजित करना	उदाहरण
`'train'`	5522

विशेषताएं :

{
    "file_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "metadata": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "num-words": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "contains-non-urdu-languages": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "document_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}