ニュースルーム

  • 説明

NEWSROOMは、要約システムをトレーニングおよび評価するための大規模なデータセットです。これには、38の主要な出版物のニュースルームで著者と編集者によって書かれた130万の記事と要約が含まれています。

データセットの機能は次のとおりです。-テキスト:ニューステキストを入力します。 -要約:ニュースの要約。および追加機能:-タイトル:ニュースタイトル。 --url:ニュースのURL。 -日付:記事の日付。 -密度:抽出密度。 -カバレッジ:抽出カバレッジ。 -圧縮:圧縮率。 --density_bin:低、中、高。 --coverage_bin:抽出的、抽象的。 --compression_bin:低、中、高。

このデータセットは、リクエストに応じてダウンロードできます。すべてのコンテンツ「train.jsonl、dev.josnl、test.jsonl」をtfdsフォルダーに解凍します。

  • ホームページhttps://summari.es

  • ソースコードtfds.summarization.Newsroom

  • バージョン

    • 1.0.0 (デフォルト):リリースノート。
  • ダウンロードサイズUnknown size

  • データセットのサイズUnknown size

  • マニュアルダウンロード方法:このデータセットは、手動にソースデータをダウンロードする必要がありますdownload_config.manual_dir (デフォルトは~/tensorflow_datasets/downloads/manual/ ):
    あなたはからデータセットをダウンロードする必要がありhttps://summari.es/download/ Webページは登録が必要です。ダウンロード後、dev.jsonl、test.jsonl、train.jsonlファイルをmanual_dirに入れてください。

  • オートキャッシュされたドキュメント):不明

  • スプリット

スプリット
'test' 108,862
'train' 995,041
'validation' 108,837
  • 特長
FeaturesDict({
    'compression': tf.float32,
    'compression_bin': Text(shape=(), dtype=tf.string),
    'coverage': tf.float32,
    'coverage_bin': Text(shape=(), dtype=tf.string),
    'date': Text(shape=(), dtype=tf.string),
    'density': tf.float32,
    'density_bin': Text(shape=(), dtype=tf.string),
    'summary': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
    'url': Text(shape=(), dtype=tf.string),
})
  • 引用
@article{Grusky_2018,
   title={Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies},
   url={http://dx.doi.org/10.18653/v1/n18-1065},
   DOI={10.18653/v1/n18-1065},
   journal={Proceedings of the 2018 Conference of the North American Chapter of
          the Association for Computational Linguistics: Human Language
          Technologies, Volume 1 (Long Papers)},
   publisher={Association for Computational Linguistics},
   author={Grusky, Max and Naaman, Mor and Artzi, Yoav},
   year={2018}
}