참조:
다음 명령을 사용하여 TFDS에서 이 데이터세트를 로드합니다.
ds = tfds.load('huggingface:makhzan')
- 설명 :
An Urdu text corpus for machine learning, natural language processing and linguistic analysis.
- 라이선스 : /text 디렉토리의 모든 파일은 표준 저작권의 보호를 받습니다. 각 텍스트 조각은 해당 저작권 소유자의 명시적인 허가를 받아 이 저장소에 포함되었으며, 각 파일에 대한 태그. 분석, 연구 및 개발을 위해 이 텍스트를 자유롭게 사용할 수 있지만 이 텍스트를 재배포하거나 다시 게시할 수 없습니다. 덜 제한적인 라이센스가 /text 디렉토리의 파일에 적용될 수 있는 몇 가지 경우가 아래에 나와 있습니다. 어떤 경우에는 저작권이 없는 텍스트가 공동 작업자의 노력을 통해 디지털 방식으로 복제되었습니다. 이러한 경우 파일 메타데이터의 메모 필드에 가능한 한 적절한 사람을 표시했으며 이 텍스트를 어떤 형식으로든 재배포하기 전에 해당 사람에게 연락할 것을 강력히 권장합니다. 텍스트와 함께 별도의 라이선스가 제공되는 경우 파일 메타데이터의 출판 필드에 해당 데이터를 제공했습니다.
- 버전 : 1.0.0
- 분할 :
나뉘다 | 예 |
---|---|
'train' | 5522 |
- 특징 :
{
"file_id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"metadata": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"title": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"num-words": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"contains-non-urdu-languages": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"document_body": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}