yelp_polarity_reviews

  • Description:

Grand ensemble de données d'examen Yelp. Il s'agit d'un ensemble de données pour la classification des sentiments binaires. Nous fournissons un ensemble de 560 000 critiques de yelp hautement polaires pour la formation et 38 000 pour les tests. ORIGINE L'ensemble de données des avis Yelp se compose d'avis de Yelp. Il est extrait des données du Yelp Dataset Challenge 2015. Pour plus d' informations, s'il vous plaît se référer à http://www.yelp.com/dataset

L'ensemble de données de polarité des critiques Yelp est construit par Xiang Zhang (xiang.zhang@nyu.edu) à partir de l'ensemble de données ci-dessus. Il est d'abord utilisé comme référence de classification de textes dans l'article suivant : Xiang Zhang, Junbo Zhao, Yann LeCun. Réseaux convolutifs au niveau des caractères pour la classification de texte. Avancées dans les systèmes de traitement de l'information neuronale 28 (NIPS 2015).

LA DESCRIPTION

L'ensemble de données de polarité des critiques Yelp est construit en considérant les étoiles 1 et 2 négatives et 3 et 4 positives. Pour chaque polarité, 280 000 échantillons d'apprentissage et 19 000 échantillons de test sont prélevés au hasard. Au total, il y a 560 000 échantillons d'entraînement et 38 000 échantillons d'essai. La polarité négative est de classe 1 et positive de classe 2.

Les fichiers train.csv et test.csv contiennent tous les échantillons d'apprentissage sous forme de valeurs séparées par des virgules. Il y a 2 colonnes, correspondant à l'index de classe (1 et 2) et au texte de révision. Les textes de révision sont échappés à l'aide de guillemets doubles ("), et tout guillemet double interne est échappé par 2 guillemets doubles (""). Les nouvelles lignes sont échappées par une barre oblique inverse suivie d'un caractère "n", c'est-à-dire " ".

Diviser Exemples
'test' 38 000
'train' 560 000
  • Caractéristiques:
FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(), dtype=tf.string),
})
  • citation:
@article{zhangCharacterlevelConvolutionalNetworks2015,
  archivePrefix = {arXiv},
  eprinttype = {arxiv},
  eprint = {1509.01626},
  primaryClass = {cs},
  title = {Character-Level { {Convolutional Networks} } for { {Text Classification} } },
  abstract = {This article offers an empirical exploration on the use of character-level convolutional networks (ConvNets) for text classification. We constructed several large-scale datasets to show that character-level convolutional networks could achieve state-of-the-art or competitive results. Comparisons are offered against traditional models such as bag of words, n-grams and their TFIDF variants, and deep learning models such as word-based ConvNets and recurrent neural networks.},
  journal = {arXiv:1509.01626 [cs]},
  author = {Zhang, Xiang and Zhao, Junbo and LeCun, Yann},
  month = sep,
  year = {2015},
}