lm1b

Les références:

texte_plain

Utilisez la commande suivante pour charger cet ensemble de données dans TFDS :

ds = tfds.load('huggingface:lm1b/plain_text')

Description :

A benchmark corpus to be used for measuring progress in statistical language modeling. This has almost one billion words in the training data.

Licence : Aucune licence connue
Version : 1.0.0
Divisions :

Diviser	Exemples
`'test'`	306688
`'train'`	30301028

Caractéristiques :

{
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

Sauf indication contraire, le contenu de cette page est régi par une licence Creative Commons Attribution 4.0, et les échantillons de code sont régis par une licence Apache 2.0. Pour en savoir plus, consultez les Règles du site Google Developers. Java est une marque déposée d'Oracle et/ou de ses sociétés affiliées.

Dernière mise à jour le 2023/12/01 (UTC).