Pomoc chronić Wielkiej Rafy Koralowej z TensorFlow na Kaggle Dołącz Wyzwanie

ag_news_subset

  • opis:

AG to zbiór ponad 1 miliona artykułów prasowych. Artykuły z wiadomościami zostały zebrane z ponad 2000 źródeł wiadomości przez ComeToMyHead w ciągu ponad 1 roku działalności. ComeToMyHead to akademicka wyszukiwarka wiadomości, która działa od lipca 2004 r. Zbiór danych jest dostarczany przez społeczność akademicką do celów badawczych w zakresie eksploracji danych (klastrowanie, klasyfikacja itp.), wyszukiwania informacji (ranking, wyszukiwanie itp.), xml, kompresja danych, przesyłanie strumieniowe danych i wszelkie inne niekomercyjne działania. Aby uzyskać więcej informacji, proszę zapoznać się z linkiem http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html .

Zestaw danych klasyfikacji tematów wiadomości AG jest tworzony przez Xiang Zhang (xiang.zhang@nyu.edu) na podstawie powyższego zestawu danych. Jest używany jako wzorzec klasyfikacji tekstu w następującym artykule: Xiang Zhang, Junbo Zhao, Yann LeCun. Sieci splotowe na poziomie znaków do klasyfikacji tekstu. Postępy w neuronowych systemach przetwarzania informacji 28 (NIPS 2015).

Zbiór danych klasyfikacji tematów wiadomości AG jest tworzony przez wybranie 4 największych klas z oryginalnego korpusu. Każda klasa zawiera 30 000 próbek treningowych i 1900 próbek testowych. Łączna liczba próbek treningowych to 120 000, a testowych 7600.

Podział Przykłady
'test' 7600
'train' 120 000
  • Cechy:
FeaturesDict({
    'description': Text(shape=(), dtype=tf.string),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=4),
    'title': Text(shape=(), dtype=tf.string),
})
  • cytat:
@misc{zhang2015characterlevel,
    title={Character-level Convolutional Networks for Text Classification},
    author={Xiang Zhang and Junbo Zhao and Yann LeCun},
    year={2015},
    eprint={1509.01626},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}