Scientific_papers

説明:

科学論文データセットには、構造化された長いドキュメントの 2 つのセットが含まれています。データセットは、ArXiv および PubMed OpenAccess リポジトリから取得されます。

「arxiv」と「pubmed」の両方に 2 つの機能があります。

article: ドキュメントの本文、「/n」で区切られた段落。
要約: ドキュメントの要約、「/n」で区切られたページ。
section_names: "/n" で区切られたセクションのタイトル。
追加のドキュメント:コードを使用したペーパーの探索
ホームページ: https://github.com/armancohan/long-summarization
ソースコード: tfds.datasets.scientific_papers.Builder
バージョン:
- 1.1.0 : リリースノートはありません。
- 1.1.1 (デフォルト): リリースノートはありません。
ダウンロードサイズ: 4.20 GiB
自動キャッシュ(ドキュメント): いいえ
機能構造:

FeaturesDict({
    'abstract': Text(shape=(), dtype=string),
    'article': Text(shape=(), dtype=string),
    'section_names': Text(shape=(), dtype=string),
})

機能のドキュメント:

特徴	クラス	Dtype
	特徴辞書
概要	文章	ストリング
記事	文章	ストリング
section_names	文章	ストリング

監視されたキー( as_supervised docを参照): ('article', 'abstract')
図( tfds.show_examples ): サポートされていません。
引用：

@article{Cohan_2018,
   title={A Discourse-Aware Attention Model for Abstractive Summarization of
            Long Documents},
   url={http://dx.doi.org/10.18653/v1/n18-2097},
   DOI={10.18653/v1/n18-2097},
   journal={Proceedings of the 2018 Conference of the North American Chapter of
          the Association for Computational Linguistics: Human Language
          Technologies, Volume 2 (Short Papers)},
   publisher={Association for Computational Linguistics},
   author={Cohan, Arman and Dernoncourt, Franck and Kim, Doo Soon and Bui, Trung and Kim, Seokhwan and Chang, Walter and Goharian, Nazli},
   year={2018}
}

Scientific_papers/arxiv (デフォルト設定)

構成の説明: ArXiv リポジトリからのドキュメント。
データセットサイズ: 7.07 GiB
スプリット:

スプリット	例
`'test'`	6,440
`'train'`	203,037
`'validation'`	6,436

例( tfds.as_dataframe ):

Scientific_papers/pubmed

構成の説明: PubMed リポジトリからのドキュメント。
データセットサイズ: 2.34 GiB
スプリット:

スプリット	例
`'test'`	6,658
`'train'`	119,924
`'validation'`	6,633

例( tfds.as_dataframe ):

Scientific_papers コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

Scientific_papers/arxiv (デフォルト設定)

Scientific_papers/pubmed

Scientific_papers