makhzan

Riferimenti:

Utilizzare il comando seguente per caricare questo set di dati in TFDS:

ds = tfds.load('huggingface:makhzan')

Descrizione :

An Urdu text corpus for machine learning, natural language processing and linguistic analysis.

Licenza : tutti i file nella directory /text sono coperti da copyright standard. Ogni pezzo di testo è stato incluso in questo repository con il permesso esplicito dei rispettivi titolari dei diritti d'autore, che sono identificati nel tag per ogni file. Sei libero di usare questo testo per analisi, ricerca e sviluppo, ma non sei autorizzato a ridistribuire o ripubblicare questo testo. Di seguito sono presentati alcuni casi in cui una licenza meno restrittiva potrebbe essere applicata ai file nella directory /text. In alcuni casi il testo libero da copyright è stato riprodotto digitalmente grazie al duro lavoro dei nostri collaboratori. In questi casi, ove possibile, abbiamo accreditato le persone appropriate in un campo note nei metadati del file e ti consigliamo vivamente di contattarle prima di ridistribuire questo testo in qualsiasi forma. Quando viene fornita una licenza separata insieme al testo, abbiamo fornito i dati corrispondenti nel campo della pubblicazione nei metadati di un file.
Versione : 1.0.0
Spaccature :

Diviso	Esempi
`'train'`	5522

Caratteristiche :

{
    "file_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "metadata": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "num-words": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "contains-non-urdu-languages": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "document_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}