yelp_polarity_reviews

  • Descrição :

Grande conjunto de dados de revisão do Yelp. Este é um conjunto de dados para classificação de sentimentos binários. Fornecemos um conjunto de 560.000 avaliações altamente polarizadas de yelp para treinamento e 38.000 para teste. ORIGIN O conjunto de dados de avaliações do Yelp consiste em avaliações do Yelp. Ele é extraído dos dados do Yelp Dataset Challenge 2015. Para obter mais informações, consulte http://www.yelp.com/dataset

O conjunto de dados de polaridade de avaliações do Yelp foi construído por Xiang Zhang (xiang.zhang@nyu.edu) a partir do conjunto de dados acima. É usado pela primeira vez como referência de classificação de texto no seguinte artigo: Xiang Zhang, Junbo Zhao, Yann LeCun. Redes convolucionais em nível de caractere para classificação de texto. Avanços em Sistemas de Processamento de Informação Neural 28 (NIPS 2015).

DESCRIÇÃO

O conjunto de dados de polaridade de revisões do Yelp é construído considerando as estrelas 1 e 2 negativas e 3 e 4 positivas. Para cada polaridade, 280.000 amostras de treinamento e 19.000 amostras de teste são coletadas aleatoriamente. No total, existem 560.000 amostras de treinamento e 38.000 amostras de teste. A polaridade negativa é classe 1 e positiva classe 2.

Os arquivos train.csv e test.csv contêm todas as amostras de treinamento como valores separados por vírgulas. Existem 2 colunas neles, correspondentes ao índice da aula (1 e 2) e ao texto da revisão. Os textos de revisão são escapados usando aspas duplas ("), e qualquer aspa dupla interna é escapada por 2 aspas duplas (""). Novas linhas são escapadas por uma barra invertida seguida de um caractere "n", que é " ".

Dividir Exemplos
'test' 38.000
'train' 560.000
  • Estrutura de recursos :
FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(), dtype=string),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
etiqueta ClassLabel int64
texto Texto corda
  • Citação :
@article{zhangCharacterlevelConvolutionalNetworks2015,
  archivePrefix = {arXiv},
  eprinttype = {arxiv},
  eprint = {1509.01626},
  primaryClass = {cs},
  title = {Character-Level { {Convolutional Networks} } for { {Text Classification} } },
  abstract = {This article offers an empirical exploration on the use of character-level convolutional networks (ConvNets) for text classification. We constructed several large-scale datasets to show that character-level convolutional networks could achieve state-of-the-art or competitive results. Comparisons are offered against traditional models such as bag of words, n-grams and their TFIDF variants, and deep learning models such as word-based ConvNets and recurrent neural networks.},
  journal = {arXiv:1509.01626 [cs]},
  author = {Zhang, Xiang and Zhao, Junbo and LeCun, Yann},
  month = sep,
  year = {2015},
}