마흐잔

참조:

다음 명령을 사용하여 TFDS에서 이 데이터세트를 로드합니다.

ds = tfds.load('huggingface:makhzan')

설명 :

An Urdu text corpus for machine learning, natural language processing and linguistic analysis.

라이선스 : /text 디렉토리의 모든 파일은 표준 저작권의 보호를 받습니다. 각 텍스트 조각은 해당 저작권 소유자의 명시적인 허가를 받아 이 저장소에 포함되었으며, 각 파일에 대한 태그. 분석, 연구 및 개발을 위해 이 텍스트를 자유롭게 사용할 수 있지만 이 텍스트를 재배포하거나 다시 게시할 수 없습니다. 덜 제한적인 라이센스가 /text 디렉토리의 파일에 적용될 수 있는 몇 가지 경우가 아래에 나와 있습니다. 어떤 경우에는 저작권이 없는 텍스트가 공동 작업자의 노력을 통해 디지털 방식으로 복제되었습니다. 이러한 경우 파일 메타데이터의 메모 필드에 가능한 한 적절한 사람을 표시했으며 이 텍스트를 어떤 형식으로든 재배포하기 전에 해당 사람에게 연락할 것을 강력히 권장합니다. 텍스트와 함께 별도의 라이선스가 제공되는 경우 파일 메타데이터의 출판 필드에 해당 데이터를 제공했습니다.
버전 : 1.0.0
분할 :

나뉘다	예
`'train'`	5522

특징 :

{
    "file_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "metadata": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "num-words": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "contains-non-urdu-languages": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "document_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}