O Dia da Comunidade de ML é dia 9 de novembro! Junte-nos para atualização de TensorFlow, JAX, e mais Saiba mais

yelp_polarity_reviews

  • Descrição:

Grande conjunto de dados de revisão do Yelp. Este é um conjunto de dados para classificação de sentimento binário. Fornecemos um conjunto de 560.000 análises de yelp altamente polar para treinamento e 38.000 para teste. ORIGEM O conjunto de dados de avaliações do Yelp consiste em avaliações do Yelp. Ele foi extraído dos dados do Desafio de dados do Yelp 2015. Para mais informações, por favor consulte o http://www.yelp.com/dataset

O conjunto de dados de polaridade das revisões do Yelp foi construído por Xiang Zhang (xiang.zhang@nyu.edu) a partir do conjunto de dados acima. É usado pela primeira vez como uma referência de classificação de texto no seguinte artigo: Xiang Zhang, Junbo Zhao, Yann LeCun. Redes convolucionais em nível de caractere para classificação de texto. Advances in Neural Information Processing Systems 28 (NIPS 2015).

DESCRIÇÃO

O conjunto de dados de polaridade das revisões do Yelp é construído considerando as estrelas 1 e 2 negativas e 3 e 4 positivas. Para cada polaridade, 280.000 amostras de treinamento e 19.000 amostras de teste são retiradas aleatoriamente. No total, são 560.000 amostras de treinamento e 38.000 amostras de teste. A polaridade negativa é classe 1 e classe positiva 2.

Os arquivos train.csv e test.csv contêm todos os exemplos de treinamento como valores separados por vírgula. Existem 2 colunas nelas, correspondendo ao índice da classe (1 e 2) e ao texto de revisão. Os textos de revisão são escapados com aspas duplas ("), e qualquer aspa dupla interna é escapada por 2 aspas duplas (" "). As novas linhas são escapadas por uma barra invertida seguida por um caractere" n ", que é" ".

Dividir Exemplos
'test' 38.000
'train' 560.000
  • Características:
FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(), dtype=tf.string),
})
  • citação:
@article{zhangCharacterlevelConvolutionalNetworks2015,
  archivePrefix = {arXiv},
  eprinttype = {arxiv},
  eprint = {1509.01626},
  primaryClass = {cs},
  title = {Character-Level { {Convolutional Networks} } for { {Text Classification} } },
  abstract = {This article offers an empirical exploration on the use of character-level convolutional networks (ConvNets) for text classification. We constructed several large-scale datasets to show that character-level convolutional networks could achieve state-of-the-art or competitive results. Comparisons are offered against traditional models such as bag of words, n-grams and their TFIDF variants, and deep learning models such as word-based ConvNets and recurrent neural networks.},
  journal = {arXiv:1509.01626 [cs]},
  author = {Zhang, Xiang and Zhao, Junbo and LeCun, Yann},
  month = sep,
  year = {2015},
}