yelp_polarity_reviews

Descriptif :

Vaste ensemble de données d'examen Yelp. Il s'agit d'un ensemble de données pour la classification des sentiments binaires. Nous fournissons un ensemble de 560 000 avis très polaires pour la formation et 38 000 pour les tests. ORIGINE L'ensemble de données des avis Yelp se compose d'avis de Yelp. Il est extrait des données Yelp Dataset Challenge 2015. Pour plus d'informations, veuillez consulter http://www.yelp.com/dataset

L'ensemble de données de polarité des avis Yelp est construit par Xiang Zhang (xiang.zhang@nyu.edu) à partir de l'ensemble de données ci-dessus. Il est utilisé pour la première fois comme référence de classification de texte dans l'article suivant : Xiang Zhang, Junbo Zhao, Yann LeCun. Réseaux convolutifs au niveau des caractères pour la classification de texte. Avancées dans les systèmes de traitement de l'information neuronale 28 (NIPS 2015).

LA DESCRIPTION

L'ensemble de données de polarité des avis Yelp est construit en considérant les étoiles 1 et 2 négatives, et 3 et 4 positives. Pour chaque polarité, 280 000 échantillons d'apprentissage et 19 000 échantillons de test sont prélevés au hasard. Au total, il y a 560 000 échantillons d'entraînement et 38 000 échantillons de test. La polarité négative correspond à la classe 1 et la classe positive à la classe 2.

Les fichiers train.csv et test.csv contiennent tous les échantillons d'apprentissage sous forme de valeurs séparées par des virgules. Il y a 2 colonnes en eux, correspondant à l'index de classe (1 et 2) et au texte de révision. Les textes de révision sont échappés à l'aide de guillemets doubles ("), et tout guillemet double interne est échappé par 2 guillemets doubles (""). Les nouvelles lignes sont échappées par une barre oblique inverse suivie d'un caractère "n", c'est-à-dire " ".

Page d' accueil : https://course.fast.ai/datasets
Code source : tfds.text.YelpPolarityReviews
Versions :
- 0.2.0 (par défaut) : aucune note de version.
Taille du téléchargement : 158.67 MiB
Taille du jeu de données : 435.14 MiB
Mise en cache automatique ( documentation ): Non
Fractionnements :

Diviser	Exemples
`'test'`	38 000
`'train'`	560 000

Structure des fonctionnalités :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(), dtype=string),
})

Documentation des fonctionnalités :

Caractéristique	Classer	Dtype
	FonctionnalitésDict
étiquette	Étiquette de classe	int64
texte	Texte	chaîne de caractères

Touches supervisées (Voir as_supervised doc ): ('text', 'label')
Figure ( tfds.show_examples ) : non pris en charge.
Exemples ( tfds.as_dataframe ):

Citation :

@article{zhangCharacterlevelConvolutionalNetworks2015,
  archivePrefix = {arXiv},
  eprinttype = {arxiv},
  eprint = {1509.01626},
  primaryClass = {cs},
  title = {Character-Level { {Convolutional Networks} } for { {Text Classification} } },
  abstract = {This article offers an empirical exploration on the use of character-level convolutional networks (ConvNets) for text classification. We constructed several large-scale datasets to show that character-level convolutional networks could achieve state-of-the-art or competitive results. Comparisons are offered against traditional models such as bag of words, n-grams and their TFIDF variants, and deep learning models such as word-based ConvNets and recurrent neural networks.},
  journal = {arXiv:1509.01626 [cs]},
  author = {Zhang, Xiang and Zhao, Junbo and LeCun, Yann},
  month = sep,
  year = {2015},
}

yelp_polarity_reviews Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

yelp_polarity_reviews