¡El Día de la Comunidad de ML es el 9 de noviembre! Únase a nosotros para recibir actualizaciones de TensorFlow, JAX, y más Más información

yelp_polarity robust

  • Descripción:

Gran conjunto de datos de reseñas de Yelp. Este es un conjunto de datos para la clasificación de sentimientos binarios. Proporcionamos un conjunto de 560.000 reseñas de yelp muy polares para entrenamiento y 38.000 para pruebas. ORIGEN El conjunto de datos de reseñas de Yelp consta de reseñas de Yelp. Se extrae de los datos de Yelp Dataset Challenge 2015. Para obtener más información, consulte http://www.yelp.com/dataset

El conjunto de datos de polaridad de reseñas de Yelp está construido por Xiang Zhang (xiang.zhang@nyu.edu) a partir del conjunto de datos anterior. Se utiliza por primera vez como punto de referencia de clasificación de texto en el siguiente documento: Xiang Zhang, Junbo Zhao, Yann LeCun. Redes convolucionales a nivel de caracteres para clasificación de texto. Avances en los sistemas de procesamiento de información neuronal 28 (NIPS 2015).

DESCRIPCIÓN

El conjunto de datos de polaridad de reseñas de Yelp se construye considerando las estrellas 1 y 2 negativas y 3 y 4 positivas. Para cada polaridad, se toman aleatoriamente 280.000 muestras de entrenamiento y 19.000 muestras de prueba. En total hay 560.000 muestras de entrenamiento y 38.000 muestras de prueba. La polaridad negativa es de clase 1 y la de clase positiva 2.

Los archivos train.csv y test.csv contienen todas las muestras de entrenamiento como valores separados por comas. Hay 2 columnas en ellas, correspondientes al índice de clase (1 y 2) y al texto de revisión. Los textos de revisión se escapan con comillas dobles ("), y cualquier comilla doble interna se escapa con 2 comillas dobles (" "). Las líneas nuevas se escapan con una barra invertida seguida de un carácter" n ", es decir," ".

Separar Ejemplos de
'test' 38.000
'train' 560.000
  • características:
FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(), dtype=tf.string),
})
  • Cita:
@article{zhangCharacterlevelConvolutionalNetworks2015,
  archivePrefix = {arXiv},
  eprinttype = {arxiv},
  eprint = {1509.01626},
  primaryClass = {cs},
  title = {Character-Level { {Convolutional Networks} } for { {Text Classification} } },
  abstract = {This article offers an empirical exploration on the use of character-level convolutional networks (ConvNets) for text classification. We constructed several large-scale datasets to show that character-level convolutional networks could achieve state-of-the-art or competitive results. Comparisons are offered against traditional models such as bag of words, n-grams and their TFIDF variants, and deep learning models such as word-based ConvNets and recurrent neural networks.},
  journal = {arXiv:1509.01626 [cs]},
  author = {Zhang, Xiang and Zhao, Junbo and LeCun, Yann},
  month = sep,
  year = {2015},
}