強力接着剤

  • 説明:

SuperGLUE ( https://super.gluebenchmark.com/ ) は、GLUE に似せた新しいベンチマークであり、より困難な言語理解タスクの新しいセット、改善されたリソース、および新しい公開リーダーボードを備えています。

super_glue/boolq (デフォルト設定)

  • 構成の説明: BoolQ (Boolean Questions、Clark et al.、2019a) は、各例が短いパッセージとパッセージに関する yes/no の質問で構成される QA タスクです。質問は匿名で、Google 検索エンジンのユーザーから一方的に提供され、その後、回答を含むウィキペディアの記事の段落と組み合わされます。原作に忠実に、正確に評価します。

  • ホームページ: https://github.com/google-research-datasets/boolean-questions

  • ダウンロードサイズ: 3.93 MiB

  • データセットのサイズ: 10.75 MiB

  • 自動キャッシュ(ドキュメント): はい

  • スプリット:

スプリット
'test' 3,245
'train' 9,427
'validation' 3,270
  • 機能構造:
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'passage': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
idxテンソルint32
ラベルクラスラベルint64
通路文章ストリング
質問文章ストリング
  • 引用
@inproceedings{clark2019boolq,
  title={BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions},
  author={Clark, Christopher and Lee, Kenton and Chang, Ming-Wei, and Kwiatkowski, Tom and Collins, Michael, and Toutanova, Kristina},
  booktitle={NAACL},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

スーパーグルー/cb

  • 構成の説明: CommitmentBank (De Marneffe et al., 2019) は、少なくとも 1 つの文に句が埋め込まれた短いテキストのコーパスです。これらの埋め込まれた句のそれぞれには、テキストを書いた人が句の真実にコミットしていると予想される程度で注釈が付けられています。結果として得られるタスクは、ウォール ストリート ジャーナルから引き出された例、British National Corpus からのフィクション、および Switchboard の 3 つのクラスのテキスト含意として構成されています。各例は、埋め込まれた節を含む前提で構成され、対応する仮説はその節の抽出です。アノテーター間の合意が 0.85 を超えるデータのサブセットを使用します。データは不均衡です (ニュートラルな例が比較的少ない) ため、精度と F1 を使用して評価します。マルチクラス F1 の場合、クラスごとの F1 の重み付けされていない平均を計算します。

  • ホームページ: https://github.com/mcdm/CommitmentBank

  • ダウンロードサイズ: 73.71 KiB

  • データセットサイズ: 229.28 KiB

  • 自動キャッシュ(ドキュメント): はい

  • スプリット:

スプリット
'test' 250
'train' 250
'validation' 56
  • 機能構造:
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'premise': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
仮説文章ストリング
idxテンソルint32
ラベルクラスラベルint64
前提文章ストリング
  • 引用
@article{de marneff_simons_tonhauser_2019,
  title={The CommitmentBank: Investigating projection in naturally occurring discourse},
  journal={proceedings of Sinn und Bedeutung 23},
  author={De Marneff, Marie-Catherine and Simons, Mandy and Tonhauser, Judith},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

スーパーグルー/コパ

  • Config description : The Choice Of Plausible Alternatives (COPA, Roemmele et al., 2011) データセットは、前提文と 2 つの可能な代替案がシステムに与えられる因果推論タスクです。システムは、前提との因果関係がもっともらしい代替案を選択する必要があります。代替案の構築に使用される方法は、タスクを解決するために因果関係を必要とすることを保証します。例では、モデルの 2 つのインスタンス タイプの間のあいまいさを解消する簡単な質問を伴って、前提文の別の考えられる原因または別の考えられる結果のいずれかを扱います。すべての例は手作りで、オンライン ブログや写真関連の百科事典のトピックに焦点を当てています。著者の推奨に従って、精度を使用して評価します。

  • ホームページ: http://people.ict.usc.edu/~gordon/copa.html

  • ダウンロードサイズ: 42.96 KiB

  • データセットサイズ: 196.00 KiB

  • 自動キャッシュ(ドキュメント): はい

  • スプリット:

スプリット
'test' 500
'train' 400
'validation' 100
  • 機能構造:
FeaturesDict({
    'choice1': Text(shape=(), dtype=string),
    'choice2': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
選択1文章ストリング
選択2文章ストリング
idxテンソルint32
ラベルクラスラベルint64
前提文章ストリング
質問文章ストリング
  • 引用
@inproceedings{roemmele2011choice,
  title={Choice of plausible alternatives: An evaluation of commonsense causal reasoning},
  author={Roemmele, Melissa and Bejan, Cosmin Adrian and Gordon, Andrew S},
  booktitle={2011 AAAI Spring Symposium Series},
  year={2011}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/multirc

  • 構成の説明: Multi-Sentence Reading Comprehension データセット (MultiRC, Khashabi et al., 2018) は、真/偽の質問応答タスクです。各例は、コンテキスト パラグラフ、そのパラグラフに関する質問、および真または偽としてラベル付けする必要があるその質問に対する可能な回答のリストで構成されます。質問応答 (QA) は、多くのデータセットでよくある問題です。 MultiRC を使用するのは、多くの望ましい特性があるためです。(i) 各質問には複数の可能な正解がある可能性があるため、各質問と回答のペアは他のペアとは独立して評価する必要があります。(ii) 各質問に回答するには、複数のコンテキストセンテンスから事実を抽出し、(iii) 質問と回答のペア形式は、スパンベースの抽出 QA よりも他の SuperGLUE タスクの API とより密接に一致します。段落は、ニュース、フィクション、歴史的なテキストを含む 7 つのドメインから抽出されます。

  • ホームページ: https://cogcomp.org/multirc/

  • ダウンロードサイズ: 1.06 MiB

  • データセットのサイズ: 70.39 MiB

  • 自動キャッシュ(ドキュメント): はい

  • スプリット:

スプリット
'test' 9,693
'train' 27,243
'validation' 4,848
  • 機能構造:
FeaturesDict({
    'answer': Text(shape=(), dtype=string),
    'idx': FeaturesDict({
        'answer': int32,
        'paragraph': int32,
        'question': int32,
    }),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'paragraph': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
答え文章ストリング
idx特徴辞書
idx/回答テンソルint32
idx/段落テンソルint32
idx/質問テンソルint32
ラベルクラスラベルint64
段落文章ストリング
質問文章ストリング
  • 引用
@inproceedings{MultiRC2018,
    author = {Daniel Khashabi and Snigdha Chaturvedi and Michael Roth and Shyam Upadhyay and Dan Roth},
    title = {Looking Beyond the Surface:A Challenge Set for Reading Comprehension over Multiple Sentences},
    booktitle = {Proceedings of North American Chapter of the Association for Computational Linguistics (NAACL)},
    year = {2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

スーパーグルー/レコード

  • 構成の説明: (Commonsense Reasoning Dataset を使用した読解力、Zhang et al.、2018) は、多肢選択 QA タスクです。各例は、ニュース記事と、1 つのエンティティがマスクされている記事に関する Cloze スタイルの質問で構成されています。システムは、提供されたパッセージ内の可能なエンティティの特定のリストから、マスクされたエンティティを予測する必要があります。同じエンティティが複数の異なる表面形式を使用して表現されている可能性があり、それらはすべて正しいと見なされます。記事は CNN と Daily Mail から引用されています。元の作業に従って、最大 (すべての言及にわたって) トークンレベル F1 と完全一致 (EM) で評価します。

  • ホームページ: https://sheng-z.github.io/ReCoRD-explorer/

  • ダウンロードサイズ: 49.36 MiB

  • データセットサイズ: 166.40 MiB

  • 自動キャッシュ(ドキュメント): はい (テスト、検証)、 shuffle_files=Falseの場合のみ (トレーニング)

  • スプリット:

スプリット
'test' 10,000
'train' 100,730
'validation' 10,000
  • 機能構造:
FeaturesDict({
    'answers': Sequence(Text(shape=(), dtype=string)),
    'entities': Sequence(Text(shape=(), dtype=string)),
    'idx': FeaturesDict({
        'passage': int32,
        'query': int32,
    }),
    'passage': Text(shape=(), dtype=string),
    'query': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
答えシーケンス(テキスト) (なし、)ストリング
エンティティシーケンス(テキスト) (なし、)ストリング
idx特徴辞書
idx/パッセージテンソルint32
idx/クエリテンソルint32
通路文章ストリング
クエリ文章ストリング
  • 引用
@article{zhang2018record,
  title={Record: Bridging the gap between human and machine commonsense reading comprehension},
  author={Zhang, Sheng and Liu, Xiaodong and Liu, Jingjing and Gao, Jianfeng and Duh, Kevin and Van Durme, Benjamin},
  journal={arXiv preprint arXiv:1810.12885},
  year={2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/rte

  • 構成の説明: Recognizing Textual Entailment (RTE) データセットは、テキスト含意 (特定の前提文が特定の仮説文を伴うかどうかを予測する問題 (自然言語推論、NLI とも呼ばれます)) に関する一連の毎年恒例のコンテストから取得されます。 RTE は以前 GLUE に含まれていましたが、以前と同じデータとフォーマットを使用しています。 2007)、および RTE5 (Bentivogli et al., 2009)。すべてのデータセットが結合され、含意と not_entailment の 2 つのクラス分類に変換されます。すべての GLUE タスクの中で、RTE は転移学習の恩恵を最も受けたタスクの 1 つであり、GLUE のローンチ時のほぼランダム チャンスのパフォーマンス (~56%) から 85% の精度 (Liu et al., 2019c) に飛躍しました (Liu et al., 2019c)。執筆時間。しかし、人間のパフォーマンスに関して 8 ポイントのギャップがあることを考えると、タスクはまだ機械によって解決されておらず、残りのギャップを埋めるのは難しいと予想されます。

  • ホームページ: https://aclweb.org/aclwiki/Recognizing_Textual_Entailment

  • ダウンロードサイズ: 733.32 KiB

  • データセットサイズ: 2.15 MiB

  • 自動キャッシュ(ドキュメント): はい

  • スプリット:

スプリット
'test' 3,000
'train' 2,490
'validation' 277
  • 機能構造:
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
仮説文章ストリング
idxテンソルint32
ラベルクラスラベルint64
前提文章ストリング
  • 引用
@inproceedings{dagan2005pascal,
  title={The PASCAL recognising textual entailment challenge},
  author={Dagan, Ido and Glickman, Oren and Magnini, Bernardo},
  booktitle={Machine Learning Challenges Workshop},
  pages={177--190},
  year={2005},
  organization={Springer}
}
@inproceedings{bar2006second,
  title={The second pascal recognising textual entailment challenge},
  author={Bar-Haim, Roy and Dagan, Ido and Dolan, Bill and Ferro, Lisa and Giampiccolo, Danilo and Magnini, Bernardo and Szpektor, Idan},
  booktitle={Proceedings of the second PASCAL challenges workshop on recognising textual entailment},
  volume={6},
  number={1},
  pages={6--4},
  year={2006},
  organization={Venice}
}
@inproceedings{giampiccolo2007third,
  title={The third pascal recognizing textual entailment challenge},
  author={Giampiccolo, Danilo and Magnini, Bernardo and Dagan, Ido and Dolan, Bill},
  booktitle={Proceedings of the ACL-PASCAL workshop on textual entailment and paraphrasing},
  pages={1--9},
  year={2007},
  organization={Association for Computational Linguistics}
}
@inproceedings{bentivogli2009fifth,
  title={The Fifth PASCAL Recognizing Textual Entailment Challenge.},
  author={Bentivogli, Luisa and Clark, Peter and Dagan, Ido and Giampiccolo, Danilo},
  booktitle={TAC},
  year={2009}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/ウィック

  • 構成の説明: Word-in-Context (WiC、Pilehvar および Camacho-Collados、2019 年) データセットは、文のペアに対するバイナリ分類としてキャストされる語義曖昧性解消タスクをサポートします。 2 つの文と、両方の文に現れる多義性 (曖昧な意味) の単語が与えられた場合、タスクは、その単語が両方の文で同じ意味で使用されているかどうかを判断することです。文は、WordNet (Miller、1995 年)、VerbNet (Schuler、2005 年)、および Wiktionary から抽出されています。原作を踏襲し、精度で評価します。

  • ホームページ: https://pilehvar.github.io/wic/

  • ダウンロードサイズ: 386.93 KiB

  • データセットサイズ: 1.67 MiB

  • 自動キャッシュ(ドキュメント): はい

  • スプリット:

スプリット
'test' 1,400
'train' 5,428
'validation' 638
  • 機能構造:
FeaturesDict({
    'end1': int32,
    'end2': int32,
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
    'start1': int32,
    'start2': int32,
    'word': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
終了1テンソルint32
end2テンソルint32
idxテンソルint32
ラベルクラスラベルint64
センテンス1文章ストリング
センテンス2文章ストリング
開始1テンソルint32
開始2テンソルint32
文章ストリング
  • 引用
@article{DBLP:journals/corr/abs-1808-09121,
  author={Mohammad Taher Pilehvar and os{'{e} } Camacho{-}Collados},
  title={WiC: 10, 000 Example Pairs for Evaluating Context-Sensitive Representations},
  journal={CoRR},
  volume={abs/1808.09121},
  year={2018},
  url={http://arxiv.org/abs/1808.09121},
  archivePrefix={arXiv},
  eprint={1808.09121},
  timestamp={Mon, 03 Sep 2018 13:36:40 +0200},
  biburl={https://dblp.org/rec/bib/journals/corr/abs-1808-09121},
  bibsource={dblp computer science bibliography, https://dblp.org}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/wsc

  • 構成の説明: The Winograd Schema Challenge (WSC, Levesque et al., 2012) は、システムが代名詞を含む文を読み、選択肢のリストからその代名詞の指示対象を選択する読解タスクです。このタスクの難しさと余裕がまだ残っていることを考慮して、WSC を SuperGLUE に含め、データセットをその相互参照形式に再キャストしました。このタスクは、複数選択条件で作用する可能性のある他のさまざまな戦略とは対照的に、文内の相互参照リンクを理解するモデルの能力を分離するために、N-複数選択ではなく二項分類問題としてキャストされます。そのことを念頭に置いて、非表示のテスト セットの分布を反映して、検証セットに 65% の負の多数派クラス、およびトレーニング セットに 52% の負のクラスを持つ分割を作成します。トレーニングと検証の例は、元の Winograd Schema データセット (Levesque et al., 2012) と、関連組織の Commonsense Reasoning によって配布されたものから抽出されています。テスト例はフィクションの本から派生したもので、元のデータセットの作成者によって共有されています。以前は、WNLI として知られている GLUE に含まれている NLI としてリキャストされた WSC のバージョン。 WNLI では実質的な進歩は見られず、多くの提出物が多数派クラスの予測のみを提出することを選択しました。 WNLI は、敵対的なトレーニングと開発の分割により、特に困難になりました。トレーニング セットに表示された前提文が、異なる仮説と反転したラベルで開発セットに表示されることがありました。システムが意味のある一般化を行わずにトレーニング セットを記憶した場合 (トレーニング セットのサイズが小さいため簡単でした)、開発セットでは可能性をはるかに下回るパフォーマンスを発揮する可能性があります。 SuperGLUE バージョンの WSC では、トレーニング セット、検証セット、およびテスト セット間で文が共有されないようにすることで、この敵対的な設計を削除します。

ただし、検証セットとテスト セットは異なるドメインからのものであり、検証セットはあいまいな例で構成されているため、1 つの非名詞句の単語を変更すると、文内の相互参照の依存関係が変更されます。テスト セットは、より単純な例のみで構成されており、多数の名詞句 (したがって、モデルのより多くの選択肢) が含まれていますが、あいまいさはほとんどまたはまったくありません。

スプリット
'test' 146
'train' 554
'validation' 104
  • 機能構造:
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'span1_index': int32,
    'span1_text': Text(shape=(), dtype=string),
    'span2_index': int32,
    'span2_text': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
idxテンソルint32
ラベルクラスラベルint64
span1_indexテンソルint32
span1_text文章ストリング
span2_indexテンソルint32
span2_text文章ストリング
文章文章ストリング
  • 引用
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/wsc.fixed

  • 構成の説明: The Winograd Schema Challenge (WSC, Levesque et al., 2012) は、システムが代名詞を含む文を読み、選択肢のリストからその代名詞の指示対象を選択する読解タスクです。このタスクの難しさと余裕がまだ残っていることを考慮して、WSC を SuperGLUE に含め、データセットをその相互参照形式に再キャストしました。このタスクは、複数選択条件で作用する可能性のある他のさまざまな戦略とは対照的に、文内の相互参照リンクを理解するモデルの能力を分離するために、N-複数選択ではなく二項分類問題としてキャストされます。そのことを念頭に置いて、非表示のテスト セットの分布を反映して、検証セットに 65% の負の多数派クラス、およびトレーニング セットに 52% の負のクラスを持つ分割を作成します。トレーニングと検証の例は、元の Winograd Schema データセット (Levesque et al., 2012) と、関連組織の Commonsense Reasoning によって配布されたものから抽出されています。テスト例はフィクションの本から派生したもので、元のデータセットの作成者によって共有されています。以前は、WNLI として知られている GLUE に含まれている NLI としてリキャストされた WSC のバージョン。 WNLI では実質的な進歩は見られず、多くの提出物が多数派クラスの予測のみを提出することを選択しました。 WNLI は、敵対的なトレーニングと開発の分割により、特に困難になりました。トレーニング セットに表示された前提文が、異なる仮説と反転したラベルで開発セットに表示されることがありました。システムが意味のある一般化を行わずにトレーニング セットを記憶した場合 (トレーニング セットのサイズが小さいため簡単でした)、開発セットでは可能性をはるかに下回るパフォーマンスを発揮する可能性があります。 SuperGLUE バージョンの WSC では、トレーニング セット、検証セット、およびテスト セット間で文が共有されないようにすることで、この敵対的な設計を削除します。

ただし、検証セットとテスト セットは異なるドメインからのものであり、検証セットはあいまいな例で構成されているため、1 つの非名詞句の単語を変更すると、文内の相互参照の依存関係が変更されます。テスト セットは、より単純な例のみで構成されており、多数の名詞句 (したがって、モデルのより多くの選択肢) が含まれていますが、あいまいさはほとんどまたはまったくありません。

このバージョンでは、スパンが実際にはテキストの部分文字列ではない問題が修正されています。

スプリット
'test' 146
'train' 554
'validation' 104
  • 機能構造:
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'span1_index': int32,
    'span1_text': Text(shape=(), dtype=string),
    'span2_index': int32,
    'span2_text': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
idxテンソルint32
ラベルクラスラベルint64
span1_indexテンソルint32
span1_text文章ストリング
span2_indexテンソルint32
span2_text文章ストリング
文章文章ストリング
  • 引用
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/axb

  • 構成の説明: 幅広い言語、常識、および世界の知識についてモデルを自動的にテストする、専門家によって構築された診断データセット。この広範な診断の各例は、3 方向の含意関係 (含意、中立、または矛盾) でラベル付けされ、2 つの文間の関係を特徴付ける現象を示すラベルでタグ付けされた文のペアです。 GLUE リーダーボードへの送信には、送信の MultiNLI 分類子からの予測を診断データセットに含める必要があり、結果の分析はメインのリーダーボードと一緒に表示されました。この広範囲の診断タスクは最上位モデルでは困難であることが判明したため、SuperGLUE に保持します。ただし、MultiNLI は SuperGLUE の一部ではないため、矛盾と中立を単一の not_entailment ラベルにまとめ、RTE タスクに使用されるモデルからの結果セットに関する予測を提出に含めるように要求します。

  • ホームページ: https://gluebenchmark.com/diagnostics

  • ダウンロードサイズ: 33.15 KiB

  • データセットサイズ: 290.53 KiB

  • 自動キャッシュ(ドキュメント): はい

  • スプリット:

スプリット
'test' 1,104
  • 機能構造:
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
idxテンソルint32
ラベルクラスラベルint64
センテンス1文章ストリング
センテンス2文章ストリング
  • 引用
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/axg

  • 構成の説明: Winogender は、共参照解決システムにおける性別バイアスを測定するように設計されています。 Winogender をテキスト含意タスクとしてキャストする Diverse Natural Language Inference Collection (DNC; Poliak et al., 2018) バージョンを使用します。それぞれの用例は、男性代名詞または女性代名詞を含む前提文と、代名詞の可能な先行詞を与える仮説で構成されています。例は最小限のペアで発生します。例とそのペアの唯一の違いは、前提内の代名詞の性別です。 Winogender でのパフォーマンスは、精度とジェンダー パリティ スコア (予測が同じである最小ペアの割合) の両方で測定されます。システムは、すべての例で同じクラスを推測することで完全な性別パリティ スコアを簡単に取得できることに注意してください。そのため、高い精度が伴わない限り、高い性別パリティ スコアは意味がありません。ジェンダー バイアスの診断テストとして、スキーマの正の予測値が高く、負の予測値が低いと見なします。つまり、システムにジェンダーバイアスが存在することを示しているかもしれませんが、それが存在しないことを証明していません.

  • ホームページ: https://github.com/rudinger/winogender-schemas

  • ダウンロードサイズ: 10.17 KiB

  • データセットサイズ: 69.75 KiB

  • 自動キャッシュ(ドキュメント): はい

  • スプリット:

スプリット
'test' 356
  • 機能構造:
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
仮説文章ストリング
idxテンソルint32
ラベルクラスラベルint64
前提文章ストリング
  • 引用
@inproceedings{rudinger-EtAl:2018:N18,
  author    = {Rudinger, Rachel  and  Naradowsky, Jason  and  Leonard, Brian  and  {Van Durme}, Benjamin},
  title     = {Gender Bias in Coreference Resolution},
  booktitle = {Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2018},
  address   = {New Orleans, Louisiana},
  publisher = {Association for Computational Linguistics}
}

@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.