makhzan

Referências:

Use o seguinte comando para carregar esse conjunto de dados no TFDS:

ds = tfds.load('huggingface:makhzan')
  • Descrição :
An Urdu text corpus for machine learning, natural language processing and linguistic analysis.
  • Licença : Todos os arquivos no diretório /text são cobertos por direitos autorais padrão. Cada pedaço de texto foi incluído neste repositório com permissão explícita dos respectivos detentores de direitos autorais, que são identificados no tag para cada arquivo. Você é livre para usar este texto para análise, pesquisa e desenvolvimento, mas não tem permissão para redistribuir ou republicar este texto. Alguns casos em que uma licença menos restritiva pode ser aplicada a arquivos no diretório /text são apresentados abaixo. Em alguns casos, o texto livre de direitos autorais foi reproduzido digitalmente através do trabalho árduo de nossos colaboradores. Nesses casos, creditamos as pessoas apropriadas sempre que possível em um campo de notas nos metadados do arquivo e recomendamos que você entre em contato com elas antes de redistribuir este texto de qualquer forma. Quando uma licença separada é fornecida junto com o texto, fornecemos os dados correspondentes no campo de publicação nos metadados de um arquivo.
  • Versão : 1.0.0
  • Divisões :
Dividir Exemplos
'train' 5522
  • Características :
{
    "file_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "metadata": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "num-words": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "contains-non-urdu-languages": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "document_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}