sci_tail

  • 説明:

SciTail データセットは、多肢選択式の科学試験と Web 文から作成された含意データセットです。各質問と正解の選択は、仮説を形成するための断定的なステートメントに変換されます。 Web 文の大規模なテキスト コーパスから情報検索を使用して関連するテキストを取得し、これらの文を前提 P として使用します。このような前提と仮説のペアの注釈は、サポートする (含意) またはサポートしない (ニュートラル) としてクラウドソーシングされます。 SciTail データセットを作成します。データセットには 27,026 の例が含まれており、そのうち 10,101 の例が含意ラベル付きで、16,925 の例が中立ラベル付きです。

スプリット
'test' 2,126
'train' 23,097
'validation' 1,304
  • 機能構造:
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
仮説文章ストリング
ラベルクラスラベルint64
前提文章ストリング
  • 引用
@inproceedings{khot2018scitail,
    title={Scitail: A textual entailment dataset from science question answering},
    author={Khot, Tushar and Sabharwal, Ashish and Clark, Peter},
    booktitle={Proceedings of the 32th AAAI Conference on Artificial Intelligence (AAAI 2018)},
    url = "http://ai2-website.s3.amazonaws.com/publications/scitail-aaai-2018_cameraready.pdf",
    year={2018}
}