yelp_polarity_reviews

Descrição :

Grande conjunto de dados de revisão do Yelp. Este é um conjunto de dados para classificação de sentimentos binários. Fornecemos um conjunto de 560.000 avaliações altamente polarizadas de yelp para treinamento e 38.000 para teste. ORIGIN O conjunto de dados de avaliações do Yelp consiste em avaliações do Yelp. Ele é extraído dos dados do Yelp Dataset Challenge 2015. Para obter mais informações, consulte http://www.yelp.com/dataset

O conjunto de dados de polaridade de avaliações do Yelp foi construído por Xiang Zhang (xiang.zhang@nyu.edu) a partir do conjunto de dados acima. É usado pela primeira vez como referência de classificação de texto no seguinte artigo: Xiang Zhang, Junbo Zhao, Yann LeCun. Redes convolucionais em nível de caractere para classificação de texto. Avanços em Sistemas de Processamento de Informação Neural 28 (NIPS 2015).

DESCRIÇÃO

O conjunto de dados de polaridade de revisões do Yelp é construído considerando as estrelas 1 e 2 negativas e 3 e 4 positivas. Para cada polaridade, 280.000 amostras de treinamento e 19.000 amostras de teste são coletadas aleatoriamente. No total, existem 560.000 amostras de treinamento e 38.000 amostras de teste. A polaridade negativa é classe 1 e positiva classe 2.

Os arquivos train.csv e test.csv contêm todas as amostras de treinamento como valores separados por vírgulas. Existem 2 colunas neles, correspondentes ao índice da aula (1 e 2) e ao texto da revisão. Os textos de revisão são escapados usando aspas duplas ("), e qualquer aspa dupla interna é escapada por 2 aspas duplas (""). Novas linhas são escapadas por uma barra invertida seguida de um caractere "n", que é " ".

Página inicial : https://course.fast.ai/datasets
Código -fonte: tfds.text.YelpPolarityReviews
Versões :
- 0.2.0 (padrão): sem notas de versão.
Tamanho do download : 158.67 MiB
Tamanho do conjunto de dados : 435.14 MiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :

Dividir	Exemplos
`'test'`	38.000
`'train'`	560.000

Estrutura de recursos :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(), dtype=string),
})

Documentação do recurso:

Característica	Classe	Tipo D
	RecursosDict
etiqueta	ClassLabel	int64
texto	Texto	corda

Chaves supervisionadas (Consulte as_supervised doc ): ('text', 'label')
Figura ( tfds.show_examples ): Não suportado.
Exemplos ( tfds.as_dataframe ):

Citação :

@article{zhangCharacterlevelConvolutionalNetworks2015,
  archivePrefix = {arXiv},
  eprinttype = {arxiv},
  eprint = {1509.01626},
  primaryClass = {cs},
  title = {Character-Level { {Convolutional Networks} } for { {Text Classification} } },
  abstract = {This article offers an empirical exploration on the use of character-level convolutional networks (ConvNets) for text classification. We constructed several large-scale datasets to show that character-level convolutional networks could achieve state-of-the-art or competitive results. Comparisons are offered against traditional models such as bag of words, n-grams and their TFIDF variants, and deep learning models such as word-based ConvNets and recurrent neural networks.},
  journal = {arXiv:1509.01626 [cs]},
  author = {Zhang, Xiang and Zhao, Junbo and LeCun, Yann},
  month = sep,
  year = {2015},
}

yelp_polarity_reviews Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

yelp_polarity_reviews