एमएल समुदाय दिवस 9 नवंबर है! TensorFlow, JAX से नई जानकारी के लिए हमसे जुड़ें, और अधिक जानें

विकिहाउ

  • विवरण:

WikiHow एक नया बड़े पैमाने पर ऑनलाइन WikiHow (का उपयोग कर डाटासेट है http://www.wikihow.com/ ) ज्ञान का आधार।

इसकी दो विशेषताएं हैं: - टेक्स्ट: विकिहाउ उत्तर टेक्स्ट। - शीर्षक: सारांश के रूप में बोल्ड लाइनें।

दो अलग-अलग संस्करण हैं: - सभी: लेखों के रूप में सभी पैराग्राफों का संयोजन और संदर्भ सारांश के रूप में बोल्ड लाइनें। - सितंबर: प्रत्येक पैराग्राफ और उसके सारांश से मिलकर।

डाउनलोड "wikihowAll.csv" और "wikihowSep.csv" https://github.com/mahnazkoupaee/WikiHow-Dataset और मैनुअल फ़ोल्डर में उन्हें जगह https://www.tensorflow.org/datasets/api_docs/python/tfds/ डाउनलोड / DownloadConfig ट्रेन / सत्यापन / परीक्षण विभाजन लेखकों द्वारा प्रदान की जाती हैं। छोटे लेखों (सार लंबाई <0.75 लेख लंबाई) को हटाने और अतिरिक्त अल्पविरामों को साफ करने के लिए प्रीप्रोसेसिंग लागू किया जाता है।

  • होमपेज: https://github.com/mahnazkoupaee/WikiHow-Dataset

  • स्रोत कोड: tfds.summarization.Wikihow

  • संस्करण:

    • 1.2.0 (डिफ़ॉल्ट): नहीं रिलीज नोट्स।
  • डाउनलोड का आकार: 5.21 MiB

  • डेटासेट का आकार: Unknown size

  • मैनुअल डाउनलोड के निर्देश: यह डेटासेट आप में मैन्युअल रूप से स्रोत डेटा डाउनलोड करने के लिए की आवश्यकता है download_config.manual_dir (करने के लिए डिफ़ॉल्ट ~/tensorflow_datasets/downloads/manual/ ):
    फ़ाइलों के लिंक पर पाया जा सकता https://github.com/mahnazkoupaee/WikiHow-Dataset कृपया दोनों wikihowAll.csv और wikihowSep.csv डाउनलोड करें।

  • ऑटो-कैश ( प्रलेखन ): अज्ञात

  • पर्यवेक्षित कुंजियों (देखें as_supervised डॉक ): ('text', 'headline')

  • चित्रा ( tfds.show_examples ): समर्थित नहीं।

  • प्रशस्ति पत्र:

@misc{koupaee2018wikihow,
    title={WikiHow: A Large Scale Text Summarization Dataset},
    author={Mahnaz Koupaee and William Yang Wang},
    year={2018},
    eprint={1810.09305},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

wikihow/all (डिफ़ॉल्ट कॉन्फ़िग)

  • कॉन्फ़िग विवरण: लेख और संदर्भ के सारांश के रूप में बोल्ड लाइनों के रूप में सभी अनुच्छेदों के संयोजन का उपयोग करें

  • विभाजन:

विभाजित करना उदाहरण
'test' 5,577
'train' १५७,२५२
'validation' 5,599
  • विशेषताएं:
FeaturesDict({
    'headline': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})

विकिहाउ/सितंबर

  • कॉन्फ़िग विवरण: प्रत्येक अनुच्छेद और उसके सारांश का उपयोग।

  • विभाजन:

विभाजित करना उदाहरण
'test' 37,800
'train' 1,060,732
'validation' 37,932
  • विशेषताएं:
FeaturesDict({
    'headline': Text(shape=(), dtype=tf.string),
    'overview': Text(shape=(), dtype=tf.string),
    'sectionLabel': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})