マクザン

参照：

次のコマンドを使用して、このデータセットをTFDSにロードします。

ds = tfds.load('huggingface:makhzan')

説明：

An Urdu text corpus for machine learning, natural language processing and linguistic analysis.

ライセンス：/textディレクトリ内のすべてのファイルは標準の著作権で保護されています。各テキストは、それぞれの著作権所有者の明示的な許可を得て、このリポジトリに含まれています。各ファイルのタグ。このテキストを分析、研究開発に自由に使用できますが、このテキストを再配布または再発行することは許可されていません。 /textディレクトリ内のファイルに制限の少ないライセンスを適用できるいくつかのケースを以下に示します。場合によっては、著作権のないテキストが、私たちの協力者の努力によってデジタルで複製されています。このような場合、ファイルのメタデータのメモフィールドに可能な限り適切な人物をクレジットします。このテキストを任意の形式で再配布する前に、適切な人物に連絡することを強くお勧めします。テキストと一緒に別のライセンスが提供されている場合は、ファイルのメタデータの公開フィールドに対応するデータを提供しています。
バージョン：1.0.0
分割：

スプリット	例
`'train'`	5522

特徴：

{
    "file_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "metadata": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "num-words": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "contains-non-urdu-languages": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "document_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}