махзан

Использованная литература:

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:makhzan')
  • Описание :
An Urdu text corpus for machine learning, natural language processing and linguistic analysis.
  • Лицензия : Все файлы в каталоге /text защищены стандартными авторскими правами. Каждый фрагмент текста был включен в этот репозиторий с явного разрешения соответствующих правообладателей, которые указаны в тег для каждого файла. Вы можете использовать этот текст для анализа, исследований и разработок, но вам не разрешается распространять или переиздавать этот текст. Ниже представлены некоторые случаи, когда к файлам в каталоге /text может применяться менее ограничительная лицензия. В некоторых случаях текст, свободный от авторских прав, был воспроизведен в цифровом виде благодаря напряженной работе наших сотрудников. В таких случаях мы указали соответствующих людей, где это возможно, в поле примечаний в метаданных файла, и мы настоятельно рекомендуем вам связаться с ними, прежде чем распространять этот текст в любой форме. Если вместе с текстом предоставляется отдельная лицензия, мы предоставили соответствующие данные в поле публикации в метаданных файла.
  • Версия : 1.0.0
  • Сплиты :
Расколоть Примеры
'train' 5522
  • Особенности :
{
    "file_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "metadata": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "num-words": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "contains-non-urdu-languages": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "document_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}