Scientific_papers

  • 説明

科学論文のデータセットには、2セットの長く構造化されたドキュメントが含まれています。データセットは、ArXivおよびPubMedOpenAccessリポジトリから取得されます。

「arxiv」と「pubmed」の両方に2つの機能があります。

  • 記事:ドキュメントの本文、「/ n」で区切られたページグラフ。
  • 要約:ドキュメントの要約、「/ n」で区切られたページグラフ。
  • section_names:「/ n」で区切られたセクションのタイトル。

  • ホームページhttps://github.com/armancohan/long-summarization

  • ソースコードtfds.summarization.ScientificPapers

  • バージョン

    • 1.1.0 :リリースノート。
    • 1.1.1 (デフォルト):リリースノート。
  • ダウンロードサイズ4.20 GiB

  • オートキャッシュされたドキュメント):いいえ

  • 特長

FeaturesDict({
    'abstract': Text(shape=(), dtype=tf.string),
    'article': Text(shape=(), dtype=tf.string),
    'section_names': Text(shape=(), dtype=tf.string),
})
@article{Cohan_2018,
   title={A Discourse-Aware Attention Model for Abstractive Summarization of
            Long Documents},
   url={http://dx.doi.org/10.18653/v1/n18-2097},
   DOI={10.18653/v1/n18-2097},
   journal={Proceedings of the 2018 Conference of the North American Chapter of
          the Association for Computational Linguistics: Human Language
          Technologies, Volume 2 (Short Papers)},
   publisher={Association for Computational Linguistics},
   author={Cohan, Arman and Dernoncourt, Franck and Kim, Doo Soon and Bui, Trung and Kim, Seokhwan and Chang, Walter and Goharian, Nazli},
   year={2018}
}

Scientific_papers / arxiv(デフォルト設定)

  • コンフィグの説明:arXivのリポジトリからドキュメント。

  • データセットサイズ7.07 GiB

  • スプリット

スプリット
'test' 6,440
'train' 203,037
'validation' 6,436

Scientific_papers / pubmed

  • コンフィグの説明:PubMedのリポジトリからドキュメント。

  • データセットサイズ2.34 GiB

  • スプリット

スプリット
'test' 6,658
'train' 119,924
'validation' 6,633