Pomoc chronić Wielkiej Rafy Koralowej z TensorFlow na Kaggle Dołącz Wyzwanie

yelp_polarity_reviews

  • opis:

Duży zbiór danych recenzji Yelp. To jest zestaw danych do klasyfikacji nastrojów binarnych. Zapewniamy zestaw 560 000 wysoce polarnych recenzji skowytów do szkolenia i 38 000 do testów. POCHODZENIE Zbiór danych recenzji Yelp składa się z recenzji z Yelp. Jest on pobierany z danych Yelp Dataset Challenge 2015. Aby uzyskać więcej informacji, zapoznaj się z http://www.yelp.com/dataset

Zbiór danych dotyczących polaryzacji recenzji Yelp jest tworzony przez Xiang Zhang (xiang.zhang@nyu.edu) na podstawie powyższego zestawu danych. Po raz pierwszy został użyty jako wzorzec klasyfikacji tekstu w następującym artykule: Xiang Zhang, Junbo Zhao, Yann LeCun. Sieci splotowe na poziomie znaków do klasyfikacji tekstu. Postępy w neuronowych systemach przetwarzania informacji 28 (NIPS 2015).

OPIS

Zbiór danych dotyczących polaryzacji Yelp jest tworzony z uwzględnieniem gwiazd 1 i 2 ujemnych oraz 3 i 4 dodatnich. Dla każdej polaryzacji losowo pobiera się 280 000 próbek treningowych i 19 000 próbek testowych. W sumie istnieje 560 000 próbek treningowych i 38 000 próbek testowych. Biegunowość ujemna to klasa 1, a pozytywna klasa 2.

Pliki train.csv i test.csv zawierają wszystkie próbki szkoleniowe jako wartości rozdzielone przecinkami. Znajdują się w nich 2 kolumny odpowiadające indeksowi klasy (1 i 2) oraz tekstowi recenzji. Teksty recenzji są poprzedzane podwójnymi cudzysłowami ("), a wszelkie wewnętrzne podwójne cudzysłowy są poprzedzane dwoma podwójnymi cudzysłowami (""). Nowe wiersze są poprzedzane ukośnikiem odwrotnym, po którym następuje znak "n", czyli " ".

Podział Przykłady
'test' 38 000
'train' 560 000
  • Cechy:
FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(), dtype=tf.string),
})
  • cytat:
@article{zhangCharacterlevelConvolutionalNetworks2015,
  archivePrefix = {arXiv},
  eprinttype = {arxiv},
  eprint = {1509.01626},
  primaryClass = {cs},
  title = {Character-Level { {Convolutional Networks} } for { {Text Classification} } },
  abstract = {This article offers an empirical exploration on the use of character-level convolutional networks (ConvNets) for text classification. We constructed several large-scale datasets to show that character-level convolutional networks could achieve state-of-the-art or competitive results. Comparisons are offered against traditional models such as bag of words, n-grams and their TFIDF variants, and deep learning models such as word-based ConvNets and recurrent neural networks.},
  journal = {arXiv:1509.01626 [cs]},
  author = {Zhang, Xiang and Zhao, Junbo and LeCun, Yann},
  month = sep,
  year = {2015},
}