एमएल समुदाय दिवस 9 नवंबर है! TensorFlow, JAX से नई जानकारी के लिए हमसे जुड़ें, और अधिक जानें

ag_news_subset

  • विवरण:

एजी 1 मिलियन से अधिक समाचार लेखों का संग्रह है। 1 वर्ष से अधिक की गतिविधि में कमटोमाईहेड द्वारा 2000 से अधिक समाचार स्रोतों से समाचार लेख एकत्र किए गए हैं। ComeToMyHead एक अकादमिक समाचार खोज इंजन है जो जुलाई, 2004 से चल रहा है। डेटा माइनिंग (क्लस्टरिंग, वर्गीकरण, आदि), सूचना पुनर्प्राप्ति (रैंकिंग, खोज, आदि), xml में अनुसंधान उद्देश्यों के लिए शैक्षणिक समुदाय द्वारा डेटासेट प्रदान किया जाता है। डेटा संपीड़न, डेटा स्ट्रीमिंग, और कोई अन्य गैर-व्यावसायिक गतिविधि। अधिक जानकारी के लिए लिंक का संदर्भ लें http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html

एजी के समाचार विषय वर्गीकरण डेटासेट का निर्माण जियांग झांग (xiang.zhang@nyu.edu) द्वारा ऊपर दिए गए डेटासेट से किया गया है। इसका उपयोग निम्नलिखित पेपर में टेक्स्ट वर्गीकरण बेंचमार्क के रूप में किया जाता है: जियांग झांग, जुन्बो झाओ, यान लेकन। टेक्स्ट क्लासिफिकेशन के लिए कैरेक्टर-लेवल कन्वेन्शनल नेटवर्क्स। तंत्रिका सूचना प्रसंस्करण प्रणाली 28 में अग्रिम (एनआईपीएस 2015)।

AG के समाचार विषय वर्गीकरण डेटासेट का निर्माण मूल संग्रह से 4 सबसे बड़े वर्गों को चुनकर किया गया है। प्रत्येक वर्ग में 30,000 प्रशिक्षण नमूने और 1,900 परीक्षण नमूने होते हैं। प्रशिक्षण नमूनों की कुल संख्या 120,000 है और परीक्षण 7,600 है।

  • होमपेज: https://arxiv.org/abs/1509.01626

  • स्रोत कोड: tfds.text.AGNewsSubset

  • संस्करण:

    • 1.0.0 (डिफ़ॉल्ट): नहीं रिलीज नोट्स।
  • डाउनलोड का आकार: 11.24 MiB

  • डेटासेट का आकार: 35.79 MiB

  • ऑटो-कैश ( प्रलेखन ): हाँ

  • विभाजन:

विभाजित करना उदाहरण
'test' 7,600
'train' 120,000
  • विशेषताएं:
FeaturesDict({
    'description': Text(shape=(), dtype=tf.string),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=4),
    'title': Text(shape=(), dtype=tf.string),
})
  • प्रशस्ति पत्र:
@misc{zhang2015characterlevel,
    title={Character-level Convolutional Networks for Text Classification},
    author={Xiang Zhang and Junbo Zhao and Yann LeCun},
    year={2015},
    eprint={1509.01626},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}