品質

  • 説明:

QuALITY は、多肢選択式の長い読解力のデータセットです。

raw バージョンのみを提供します。

  • ホームページhttps ://github.com/nyu-mll/quality

  • ソース コード: tfds.datasets.quality.Builder

  • バージョン:

    • 1.0.0 (デフォルト): 初期リリース。
  • ダウンロードサイズ: 17.26 MiB

  • 自動キャッシュ(ドキュメント): はい

  • スプリット:

スプリット
'dev' 230
'test' 232
'train' 300
  • 機能構造:
FeaturesDict({
    'article': Text(shape=(), dtype=string),
    'article_id': Text(shape=(), dtype=string),
    'difficults': Sequence(bool),
    'gold_labels': Sequence(int32),
    'options': Sequence(Sequence(Text(shape=(), dtype=string))),
    'question_ids': Sequence(Text(shape=(), dtype=string)),
    'questions': Sequence(Text(shape=(), dtype=string)),
    'set_unique_id': Text(shape=(), dtype=string),
    'source': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
    'topic': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
    'writer_id': Text(shape=(), dtype=string),
    'writer_labels': Sequence(int32),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
記事文章ストリング
article_id文章ストリング
困難シーケンス(テンソル) (なし、)ブール
ゴールドラベルシーケンス(テンソル) (なし、) int32
オプションSequence(シーケンス(テキスト)) (なし、なし)ストリング
質問IDシーケンス(テキスト) (なし、)ストリング
質問シーケンス(テキスト) (なし、)ストリング
set_unique_id文章ストリング
ソース文章ストリング
題名文章ストリング
トピック文章ストリング
URL文章ストリング
writer_id文章ストリング
ライター_ラベルシーケンス(テンソル) (なし、) int32
@article{pang2021quality,
  title={ {QuALITY}: Question Answering with Long Input Texts, Yes!},
  author={Pang, Richard Yuanzhe and Parrish, Alicia and Joshi, Nitish and Nangia, Nikita and Phang, Jason and Chen, Angelica and Padmakumar, Vishakh and Ma, Johnny and Thompson, Jana and He, He and Bowman, Samuel R.},
  journal={arXiv preprint arXiv:2112.08608},
  year={2021}
}

quality/raw (デフォルト設定)

  • 構成の説明: HTML 付きの生。

  • データセットサイズ: 22.18 MiB

  • ( tfds.as_dataframe ):

品質/剥奪

  • 構成の説明: HTML が削除されました。

  • データセットのサイズ: 20.73 MiB

  • ( tfds.as_dataframe ):