ウィキハウ

  • 説明:

WikiHow は、オンライン WikiHow ( http://www.wikihow.com/ ) ナレッジ ベースを使用した新しい大規模なデータセットです。

2 つの機能があります: - テキスト: wikihow がテキストに回答します。 - 見出し: 要約として太字の行。

2 つの別々のバージョンがあります。 - all: すべてのパラグラフを記事として連結し、太字の行を参照要約として構成します。 - 9 月: 各段落とその要約で構成されます。

https://github.com/mahnazkoupaee/WikiHow-Dataset から「wikihowAll.csv」と「wikihowSep.csv」をダウンロードし、manual フォルダーhttps://www.tensorflow.org/datasets/api_docs/python/tfds/に配置します。 download/DownloadConfig Train/validation/test 分割は、作成者によって提供されます。短い記事 (記事の長さの要約の長さ < 0.75) を削除し、余分なコンマをクリーンアップするために、前処理が適用されます。

@misc{koupaee2018wikihow,
    title={WikiHow: A Large Scale Text Summarization Dataset},
    author={Mahnaz Koupaee and William Yang Wang},
    year={2018},
    eprint={1810.09305},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

wikihow/all (デフォルト設定)

  • 構成の説明: すべての段落の連結を記事として使用し、太字の行を参照要約として使用します

  • データセットのサイズ: 531.56 MiB

  • スプリット:

スプリット
'test' 5,577
'train' 157,252
'validation' 5,599
  • 機能構造:
FeaturesDict({
    'headline': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
見出し文章ストリング
文章文章ストリング
題名文章ストリング

ウィキハウ/9月

  • 構成の説明: 各段落とその要約を使用します。

  • データセットサイズ: 1.07 GiB

  • スプリット:

スプリット
'test' 37,800
'train' 1,060,732
'validation' 37,932
  • 機能構造:
FeaturesDict({
    'headline': Text(shape=(), dtype=string),
    'overview': Text(shape=(), dtype=string),
    'sectionLabel': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
見出し文章ストリング
概要文章ストリング
セクション ラベル文章ストリング
文章文章ストリング
題名文章ストリング