ウィキハウ

  • 説明

ウィキハウオンラインウィキハウ(使用して、新しい大規模なデータセットですhttp://www.wikihow.com/ )知識ベースは。

2つの機能があります:-テキスト:ウィキハウはテキストに答えます。 -見出し:要約として太字。

2つの別々のバージョンがあります:-すべて:記事としてのすべての段落と参照要約としての太線の連結で構成されます。 --sep:各段落とその要約で構成されます。

ダウンロードから「wikihowAll.csv」と「wikihowSep.csv」 https://github.com/mahnazkoupaee/WikiHow-Datasetとマニュアルフォルダに配置https://www.tensorflow.org/datasets/api_docs/python/tfds/ダウンロード/ DownloadConfig電車/検証/テスト分割が著者によって提供されています。前処理は、短い記事(抽象的な長さ<0.75記事の長さ)を削除し、余分なコンマをクリーンアップするために適用されます。

@misc{koupaee2018wikihow,
    title={WikiHow: A Large Scale Text Summarization Dataset},
    author={Mahnaz Koupaee and William Yang Wang},
    year={2018},
    eprint={1810.09305},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

wikihow / all(デフォルト設定)

  • コンフィグの説明:記事や参照要約として太線としてすべての段落の連結を使用します

  • スプリット

スプリット
'test' 5,577
'train' 157,252
'validation' 5,599
  • 特長
FeaturesDict({
    'headline': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})

ウィキハウ/ 9月

  • コンフィグの説明:各段落とその概要を使用しています。

  • スプリット

スプリット
'test' 37,800
'train' 1,060,732
'validation' 37,932
  • 特長
FeaturesDict({
    'headline': Text(shape=(), dtype=tf.string),
    'overview': Text(shape=(), dtype=tf.string),
    'sectionLabel': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})