強力接着剤

  • 説明

瞬間接着剤は、( https://super.gluebenchmark.com/ )より困難な言語理解タスクの新しいセット、改善されたリソース、および新しい公共のリーダーボードでGLUE後にスタイルの新しいベンチマークです。

super_glue / boolq(デフォルト設定)

  • 設定の説明:BoolQ(ブール質問、Clarkら、2019a)は、各実施例は、短い通路と通路約はい/いいえの質問から構成QAタスクです。質問は、Google検索エンジンのユーザーによって匿名で一方的に提供され、その後、回答を含むWikipediaの記事の段落とペアになります。元の作業に続いて、正確に評価します。

  • ホームページhttps://github.com/google-research-datasets/boolean-questions

  • ダウンロードサイズ3.93 MiB

  • スプリット

スプリット
'test' 3,245
'train' 9,427
'validation' 3,270
  • 特長
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'passage': Text(shape=(), dtype=tf.string),
    'question': Text(shape=(), dtype=tf.string),
})
  • 引用
@inproceedings{clark2019boolq,
  title={BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions},
  author={Clark, Christopher and Lee, Kenton and Chang, Ming-Wei, and Kwiatkowski, Tom and Collins, Michael, and Toutanova, Kristina},
  booktitle={NAACL},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / cb

  • 設定の説明:CommitmentBank(デMarneffeら、2019)は、少なくとも一つの文が埋め込ま句を含有する短いテキストのコーパスです。これらの埋め込まれた条項のそれぞれには、テキストを書いた人が条項の真実にコミットしていると私たちが期待する程度の注釈が付けられています。結果として得られたタスクは、ウォールストリートジャーナル、英国国立コーパスのフィクション、および配電盤から引用された例について、3クラスのテキスト含意として組み立てられました。各例は、埋め込まれた句を含む前提で構成されており、対応する仮説はその句の抽出です。 0.85を超えるアノテーター間合意があったデータのサブセットを使用します。データは不均衡であるため(ニュートラルな例は比較的少ない)、精度とF1を使用して評価します。ここで、マルチクラスF1の場合、クラスごとのF1の重み付けされていない平均を計算します。

  • ホームページhttps://github.com/mcdm/CommitmentBank

  • ダウンロードサイズ73.71 KiB

  • スプリット

スプリット
'test' 250
'train' 250
'validation' 56
  • 特長
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    'premise': Text(shape=(), dtype=tf.string),
})
  • 引用
@article{de marneff_simons_tonhauser_2019,
  title={The CommitmentBank: Investigating projection in naturally occurring discourse},
  journal={proceedings of Sinn und Bedeutung 23},
  author={De Marneff, Marie-Catherine and Simons, Mandy and Tonhauser, Judith},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / copa

  • 設定の説明:もっともらしい選択肢の選択(COPA、Roemmeleら、2011)、データセットは、システムが前提文と二つの可能な代替案を与えられた因果推論タスクです。システムは、前提とのより妥当な因果関係を持つ代替案を選択する必要があります。代替案の構築に使用される方法は、タスクが解決するために因果的推論を必要とすることを保証します。例では、モデルの2つのインスタンスタイプを明確にする簡単な質問を伴って、前提文の代替の考えられる原因または代替の考えられる影響を扱います。すべての例は手作りであり、オンラインブログや写真関連の百科事典のトピックに焦点を当てています。著者の推奨に従い、精度を使用して評価します。

  • ホームページhttp://people.ict.usc.edu/~gordon/copa.html

  • ダウンロードサイズ42.96 KiB

  • スプリット

スプリット
'test' 500
'train' 400
'validation' 100
  • 特長
FeaturesDict({
    'choice1': Text(shape=(), dtype=tf.string),
    'choice2': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'premise': Text(shape=(), dtype=tf.string),
    'question': Text(shape=(), dtype=tf.string),
})
  • 引用
@inproceedings{roemmele2011choice,
  title={Choice of plausible alternatives: An evaluation of commonsense causal reasoning},
  author={Roemmele, Melissa and Bejan, Cosmin Adrian and Gordon, Andrew S},
  booktitle={2011 AAAI Spring Symposium Series},
  year={2011}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / multirc

  • 設定の説明:マルチ文読解データセット(MultiRC、Khashabiら、2018)、真/偽質問応答タスクです。各例は、コンテキストパラグラフ、そのパラグラフに関する質問、およびその質問に対する可能な回答のリストで構成されており、trueまたはfalseのラベルを付ける必要があります。質問回答(QA)は、多くのデータセットでよく見られる問題です。 MultiRCを使用する理由は、次のとおりです。(i)各質問には複数の正解が含まれる可能性があるため、各質問と回答のペアは他のペアとは独立して評価する必要があります。(ii)質問は、各質問に回答するために必要なように設計されています。複数のコンテキストセンテンスから事実を引き出し、(iii)質問と回答のペアの形式は、スパンベースの抽出QAよりも他のSuperGLUEタスクのAPIとより厳密に一致します。段落は、ニュース、フィクション、歴史的テキストを含む7つのドメインから抽出されています。

  • ホームページhttps://cogcomp.org/multirc/

  • ダウンロードサイズ1.06 MiB

  • スプリット

スプリット
'test' 9,693
'train' 27,243
'validation' 4,848
  • 特長
FeaturesDict({
    'answer': Text(shape=(), dtype=tf.string),
    'idx': FeaturesDict({
        'answer': tf.int32,
        'paragraph': tf.int32,
        'question': tf.int32,
    }),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'paragraph': Text(shape=(), dtype=tf.string),
    'question': Text(shape=(), dtype=tf.string),
})
  • 引用
@inproceedings{MultiRC2018,
    author = {Daniel Khashabi and Snigdha Chaturvedi and Michael Roth and Shyam Upadhyay and Dan Roth},
    title = {Looking Beyond the Surface:A Challenge Set for Reading Comprehension over Multiple Sentences},
    booktitle = {Proceedings of North American Chapter of the Association for Computational Linguistics (NAACL)},
    year = {2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / record

  • 設定の説明:(常識推論データセットに読解、Zhangら、2018)、複数の選択肢のQAタスクです。各例は、ニュース記事と、1つのエンティティがマスクされている記事に関するClozeスタイルの質問で構成されています。システムは、提供されたパッセージ内の可能なエンティティの特定のリストからマスクアウトされたエンティティを予測する必要があります。同じエンティティは、複数の異なるサーフェスフォームを使用して表現でき、すべて正しいと見なされます。記事はCNNとデイリーメールから引用されています。元の作業に続いて、最大(すべての言及)トークンレベルのF1と完全一致(EM)で評価します。

  • ホームページhttps://sheng-z.github.io/ReCoRD-explorer/

  • ダウンロードサイズ49.36 MiB

  • スプリット

スプリット
'test' 10,000
'train' 100,730
'validation' 10,000
  • 特長
FeaturesDict({
    'answers': Sequence(Text(shape=(), dtype=tf.string)),
    'entities': Sequence(Text(shape=(), dtype=tf.string)),
    'idx': FeaturesDict({
        'passage': tf.int32,
        'query': tf.int32,
    }),
    'passage': Text(shape=(), dtype=tf.string),
    'query': Text(shape=(), dtype=tf.string),
})
  • 引用
@article{zhang2018record,
  title={Record: Bridging the gap between human and machine commonsense reading comprehension},
  author={Zhang, Sheng and Liu, Xiaodong and Liu, Jingjing and Gao, Jianfeng and Duh, Kevin and Van Durme, Benjamin},
  journal={arXiv preprint arXiv:1810.12885},
  year={2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / rte

  • コンフィグの説明:認識テキスト含意(RTE)データセットは、テキスト含意に関する年次競技会のシリーズから来るが、与えられた前提文かどうかを予測する問題は、(また、自然言語推論、NLIとして知られている)与えられた仮説文を伴います。 RTEは以前GLUEに含まれており、以前と同じデータと形式を使用しています。RTE1(Dagan et al。、2006)、RTE2(Bar Haim et al。、2006)、RTE3(Giampiccolo et al。、 2007)、およびRTE5(Bentivogli et al。、2009)。すべてのデータセットが結合され、entailmentとnot_entailmentの2つのクラス分類に変換されます。すべてのGLUEタスクの中で、RTEは、転送学習から最も恩恵を受けたタスクの1つであり、GLUEの起動時のほぼランダムなチャンスのパフォーマンス(〜56%)から85%の精度(Liu et al。、2019c)にジャンプしました。執筆の時間。しかし、人間のパフォーマンスに関して8ポイントのギャップがあることを考えると、タスクはまだマシンによって解決されておらず、残りのギャップを埋めることは難しいと予想されます。

  • ホームページhttps://aclweb.org/aclwiki/Recognizing_Textual_Entailment

  • ダウンロードサイズ733.32 KiB

  • スプリット

スプリット
'test' 3,000
'train' 2,490
'validation' 277
  • 特長
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'premise': Text(shape=(), dtype=tf.string),
})
  • 引用
@inproceedings{dagan2005pascal,
  title={The PASCAL recognising textual entailment challenge},
  author={Dagan, Ido and Glickman, Oren and Magnini, Bernardo},
  booktitle={Machine Learning Challenges Workshop},
  pages={177--190},
  year={2005},
  organization={Springer}
}
@inproceedings{bar2006second,
  title={The second pascal recognising textual entailment challenge},
  author={Bar-Haim, Roy and Dagan, Ido and Dolan, Bill and Ferro, Lisa and Giampiccolo, Danilo and Magnini, Bernardo and Szpektor, Idan},
  booktitle={Proceedings of the second PASCAL challenges workshop on recognising textual entailment},
  volume={6},
  number={1},
  pages={6--4},
  year={2006},
  organization={Venice}
}
@inproceedings{giampiccolo2007third,
  title={The third pascal recognizing textual entailment challenge},
  author={Giampiccolo, Danilo and Magnini, Bernardo and Dagan, Ido and Dolan, Bill},
  booktitle={Proceedings of the ACL-PASCAL workshop on textual entailment and paraphrasing},
  pages={1--9},
  year={2007},
  organization={Association for Computational Linguistics}
}
@inproceedings{bentivogli2009fifth,
  title={The Fifth PASCAL Recognizing Textual Entailment Challenge.},
  author={Bentivogli, Luisa and Clark, Peter and Dagan, Ido and Giampiccolo, Danilo},
  booktitle={TAC},
  year={2009}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / wic

  • コンフィグの説明:ワード・イン・コンテキスト(WIC、Pilehvarとカマチョ-Collados、2019)データセットは、文のペアを超えるバイナリ分類として、語義の曖昧性解消タスクキャストをサポートしています。 2つの文と、両方の文に現れる多義の(意味があいまいな)単語が与えられた場合、タスクは、その単語が両方の文で同じ意味で使用されているかどうかを判断することです。文は、WordNet(Miller、1995)、VerbNet(Schuler、2005)、およびWiktionaryから抽出されます。原作を踏襲し、精度をもって評価しております。

  • ホームページhttps://pilehvar.github.io/wic/

  • ダウンロードサイズ386.93 KiB

  • スプリット

スプリット
'test' 1,400
'train' 5,428
'validation' 638
  • 特長
FeaturesDict({
    'end1': tf.int32,
    'end2': tf.int32,
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
    'start1': tf.int32,
    'start2': tf.int32,
    'word': Text(shape=(), dtype=tf.string),
})
  • 引用
@article{DBLP:journals/corr/abs-1808-09121,
  author={Mohammad Taher Pilehvar and os{'{e} } Camacho{-}Collados},
  title={WiC: 10, 000 Example Pairs for Evaluating Context-Sensitive Representations},
  journal={CoRR},
  volume={abs/1808.09121},
  year={2018},
  url={http://arxiv.org/abs/1808.09121},
  archivePrefix={arXiv},
  eprint={1808.09121},
  timestamp={Mon, 03 Sep 2018 13:36:40 +0200},
  biburl={https://dblp.org/rec/bib/journals/corr/abs-1808-09121},
  bibsource={dblp computer science bibliography, https://dblp.org}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / wsc

  • 設定の説明:ウィノグラードスキーマチャレンジ(WSC、レベスクら、2012)、システムが代名詞で文章を読み、選択肢のリストからその代名詞の参照先を選択する必要がある読解タスクです。このタスクの難しさとヘッドルームがまだ残っていることを考慮して、SuperGLUEにWSCを含め、データセットをその共参照形式に再キャストしました。タスクは、複数選択条件で機能する可能性のある他のさまざまな戦略とは対照的に、文内の共参照リンクを理解するモデルの能力を分離するために、N-複数選択ではなく、バイナリ分類問題としてキャストされます。そのことを念頭に置いて、非表示のテストセットの分布を反映して、検証セットに65%の負の過半数クラス、トレーニングセットに52%の負のクラスを持つ分割を作成します。トレーニングと検証の例は、元のWinograd Schemaデータセット(Levesque et al。、2012)、および関連組織CommonsenseReasoningによって配布されたものから抽出されています。テスト例はフィクションの本から派生しており、元のデータセットの作成者によって共有されています。以前は、WSCのバージョンはGLUEに含まれているNLIとして再キャストされ、WNLIとして知られていました。 WNLIについては実質的な進展はなく、多くの提出物は過半数のクラス予測のみを提出することを選択しました。 WNLIは、敵対的なtrain / dev分割のために特に困難になりました。トレーニングセットに表示された前提文は、異なる仮説と反転したラベルで開発セットに表示されることがありました。システムが意味のある一般化を行わずにトレーニングセットを記憶した場合(トレーニングセットのサイズが小さいため簡単でした)、開発セットでのチャンスをはるかに下回るパフォーマンスを発揮する可能性があります。トレーニング、検証、およびテストセット間で文が共有されないようにすることで、SuperGLUEバージョンのWSCでこの敵対的な設計を削除します。

ただし、検証セットとテストセットは異なるドメインからのものであり、検証セットはあいまいな例で構成されているため、1つの非名詞句の単語を変更すると、文の共参照の依存関係が変更されます。テストセットは、名詞句の数が多い(したがって、モデルの選択肢が多い)、より単純な例のみで構成されていますが、あいまいさはほとんどありません。

スプリット
'test' 146
'train' 554
'validation' 104
  • 特長
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'span1_index': tf.int32,
    'span1_text': Text(shape=(), dtype=tf.string),
    'span2_index': tf.int32,
    'span2_text': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
})
  • 引用
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / wsc.fixed

  • 設定の説明:ウィノグラードスキーマチャレンジ(WSC、レベスクら、2012)、システムが代名詞で文章を読み、選択肢のリストからその代名詞の参照先を選択する必要がある読解タスクです。このタスクの難しさとヘッドルームがまだ残っていることを考慮して、SuperGLUEにWSCを含め、データセットをその共参照形式に再キャストしました。タスクは、多肢選択条件で機能する可能性のある他のさまざまな戦略とは対照的に、文内の共参照リンクを理解するモデルの能力を分離するために、N-多肢選択ではなく、バイナリ分類問題としてキャストされます。そのことを念頭に置いて、非表示のテストセットの分布を反映して、検証セットに65%の負の多数派クラス、トレーニングセットに52%の負のクラスを持つ分割を作成します。トレーニングと検証の例は、元のWinograd Schemaデータセット(Levesque et al。、2012)と、関連組織であるCommonsenseReasoningによって配布されたものから抽出されています。テスト例はフィクションの本から派生しており、元のデータセットの作成者によって共有されています。以前は、WSCのバージョンはGLUEに含まれているNLIとして再キャストされ、WNLIとして知られていました。 WNLIについては実質的な進展はなく、多くの提出物は過半数のクラス予測のみを提出することを選択しました。 WNLIは、敵対的なtrain / devの分割により、特に困難になりました。トレーニングセットに表示された前提文は、異なる仮説と反転したラベルで開発セットに表示されることがありました。システムが意味のある一般化なしにトレーニングセットを記憶した場合(トレーニングセットのサイズが小さいため簡単でした)、開発セットでのチャンスをはるかに下回るパフォーマンスを発揮する可能性があります。トレーニング、検証、およびテストセット間で文が共有されないようにすることで、SuperGLUEバージョンのWSCでこの敵対的な設計を削除します。

ただし、検証セットとテストセットは異なるドメインからのものであり、検証セットはあいまいな例で構成されているため、1つの非名詞句の単語を変更すると、文の共参照の依存関係が変更されます。テストセットは、名詞句の数が多い(したがって、モデルの選択肢が多い)、より単純な例のみで構成されていますが、あいまいさはほとんどありません。

このバージョンでは、スパンが実際にはテキストのサブストリングではない問題が修正されています。

スプリット
'test' 146
'train' 554
'validation' 104
  • 特長
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'span1_index': tf.int32,
    'span1_text': Text(shape=(), dtype=tf.string),
    'span2_index': tf.int32,
    'span2_text': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
})
  • 引用
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / axb

  • コンフィグの説明:自動的に言語的、常識、世界の幅広い知識のモデルをテストする専門家、建設、診断データセット。この広範囲の診断の各例は、3方向の含意関係(含意、中立、または矛盾)でラベル付けされ、2つの文の間の関係を特徴付ける現象を示すラベルでタグ付けされた文のペアです。 GLUEリーダーボードへの提出には、診断データセットに提出のMultiNLI分類子からの予測を含める必要があり、結果の分析はメインリーダーボードと一緒に表示されました。この広範囲の診断タスクはトップモデルにとって困難であることが証明されているため、SuperGLUEに保持します。ただし、MultiNLIはSuperGLUEの一部ではないため、矛盾とニュートラルを1つのnot_entailmentラベルにまとめ、RTEタスクに使用されるモデルからの結果セットの予測を送信に含めるように要求します。

  • ホームページhttps://gluebenchmark.com/diagnostics

  • ダウンロードサイズ33.15 KiB

  • スプリット

スプリット
'test' 1,104
  • 特長
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
  • 引用
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / axg

  • 設定の説明:Winogenderは同一指示解決システムにおけるジェンダーバイアスを測定するように設計されています。 Winogenderをテキスト含意タスクとしてキャストする多様な自然言語推論コレクション(DNC; Poliak et al。、2018)バージョンを使用します。各例は、男性または女性の発音を含む前提文と、発音の前例の可能性を与える仮説で構成されています。例は最小限のペアで発生します。例とそのペアの唯一の違いは、前提内の発音の性別です。 Winogenderのパフォーマンスは、精度と性別パリティスコア(予測が同じである最小ペアのパーセンテージ)の両方で測定されます。システムは、すべての例で同じクラスを推測することにより、完全な性別パリティスコアを簡単に取得できるため、高い精度を伴わない限り、高い性別パリティスコアは無意味であることに注意してください。性別バイアスの診断テストとして、スキーマは高い正の予測値と低い負の予測値を持っていると見なします。つまり、システムに性別による偏見が存在することを示している可能性がありますが、その欠如を証明することはできません。

  • ホームページhttps://github.com/rudinger/winogender-schemas

  • ダウンロードサイズ10.17 KiB

  • スプリット

スプリット
'test' 356
  • 特長
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'premise': Text(shape=(), dtype=tf.string),
})
  • 引用
@inproceedings{rudinger-EtAl:2018:N18,
  author    = {Rudinger, Rachel  and  Naradowsky, Jason  and  Leonard, Brian  and  {Van Durme}, Benjamin},
  title     = {Gender Bias in Coreference Resolution},
  booktitle = {Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2018},
  address   = {New Orleans, Louisiana},
  publisher = {Association for Computational Linguistics}
}

@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.