דֶבֶק

  • תיאור:

דבק, את אמת המידה להערכת הבנת השפה הכללית ( https://gluebenchmark.com/ ) הוא אוסף של משאבים להדרכה, הערכה, ניתוח שפה טבעית להבנת מערכות.

דבק/קולה (תצורת ברירת המחדל)

  • תיאור Config: קורפוס מקובל הלשוני מורכב פסקי קבילות אנגלים שנשאבו ספרים ומאמרי עת על תיאוריה לשונית. כל דוגמה היא רצף של מילים עם הערות אם זה משפט באנגלית דקדוקי.

  • דף הבית: https://nyu-mll.github.io/CoLA/

  • גודל ההורדה: 368.14 KiB

  • מערך נתונים גודל: 965.49 KiB

  • פיצולים:

לְפַצֵל דוגמאות
'test' 1,063
'train' 8,551
'validation' 1,043
  • מאפיינים:
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence': Text(shape=(), dtype=tf.string),
})
  • ציטוט:
@article{warstadt2018neural,
  title={Neural Network Acceptability Judgments},
  author={Warstadt, Alex and Singh, Amanpreet and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1805.12471},
  year={2018}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

דבק/sst2

  • תיאור Config: הסנטימנט סטנפורד Treebank מורכב משפטים מתוך סיקורי סרטים וביאורים אנושיים של הסנטימנט שלהם. המשימה היא לחזות את הסנטימנט של משפט נתון. אנו משתמשים בפיצול המחלקה הדו-כיווני (חיובי/שלילי), ומשתמשים רק בתוויות ברמת המשפט.

  • דף הבית: https://nlp.stanford.edu/sentiment/index.html

  • גודל ההורדה: 7.09 MiB

  • מערך נתונים גודל: 7.22 MiB

  • פיצולים:

לְפַצֵל דוגמאות
'test' 1,821
'train' 67,349
'validation' 872
  • מאפיינים:
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence': Text(shape=(), dtype=tf.string),
})
  • ציטוט:
@inproceedings{socher2013recursive,
  title={Recursive deep models for semantic compositionality over a sentiment treebank},
  author={Socher, Richard and Perelygin, Alex and Wu, Jean and Chuang, Jason and Manning, Christopher D and Ng, Andrew and Potts, Christopher},
  booktitle={Proceedings of the 2013 conference on empirical methods in natural language processing},
  pages={1631--1642},
  year={2013}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

דבק/mrpc

  • תיאור Config: Microsoft Research הפרפרזה קורפוס (דולן & ברוקט, 2005) הוא קורפוס של זוגות משפט חילוץ אוטומטי ממקורות חדשים באינטרנט, עם סברים אנושיים אם המשפטים בצמד שקולים מבחינה סמנטית.

  • דף הבית: https://www.microsoft.com/en-us/download/details.aspx?id=52398

  • גודל ההורדה: 1.43 MiB

  • מערך נתונים גודל: 1.74 MiB

  • פיצולים:

לְפַצֵל דוגמאות
'test' 1,725
'train' 3,668
'validation' 408
  • מאפיינים:
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
  • ציטוט:
@inproceedings{dolan2005automatically,
  title={Automatically constructing a corpus of sentential paraphrases},
  author={Dolan, William B and Brockett, Chris},
  booktitle={Proceedings of the Third International Workshop on Paraphrasing (IWP2005)},
  year={2005}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

דבק/qqp

  • תיאור Config: מערך הנתונים של שאלה Pairs2 Quora הוא אוסף של זוגות השאלה מהאתר הקהילה לענות-השאלה Quora. המשימה היא לקבוע אם צמד שאלות מקבילות מבחינה סמנטית.

  • דף הבית: https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs

  • גודל ההורדה: 39.76 MiB

  • מערך נתונים גודל: 150.37 MiB

  • פיצולים:

לְפַצֵל דוגמאות
'test' 390,965
'train' 363,846
'validation' 40,430
  • מאפיינים:
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'question1': Text(shape=(), dtype=tf.string),
    'question2': Text(shape=(), dtype=tf.string),
})
  • ציטוט:
@online{WinNT,
  author = {Iyer, Shankar and Dandekar, Nikhil and Csernai, Kornel},
  title = {First Quora Dataset Release: Question Pairs},
  year = 2017,
  url = {https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs},
  urldate = {2019-04-03}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

דבק/סטסב

  • תיאור Config: את אמת המידה דמיון טקסטואלי סמנטי (. CER ואח, 2017) הוא אוסף של זוגות משפט שנשאבו כותרות החדשות, כיתובים וידאו ותמונה, ונתונים היקש שפה טבעית. לכל זוג יש הערות אנושיות עם ציון דמיון בין 0 ל-5.

  • דף הבית: http://ixa2.si.ehu.es/stswiki/index.php/STSbenchmark

  • גודל ההורדה: 784.05 KiB

  • מערך נתונים גודל: 1.58 MiB

  • פיצולים:

לְפַצֵל דוגמאות
'test' 1,379
'train' 5,749
'validation' 1,500
  • מאפיינים:
FeaturesDict({
    'idx': tf.int32,
    'label': tf.float32,
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
  • ציטוט:
@article{cer2017semeval,
  title={Semeval-2017 task 1: Semantic textual similarity-multilingual and cross-lingual focused evaluation},
  author={Cer, Daniel and Diab, Mona and Agirre, Eneko and Lopez-Gazpio, Inigo and Specia, Lucia},
  journal={arXiv preprint arXiv:1708.00055},
  year={2017}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

דבק/מנלי

  • תיאור Config: קורפוס הסקת השפה הטבעית Multi-הז'אנר הוא אוסף crowdsourced של זוגות משפט עם סברים הַצרָכָה טקסטואלי. בהינתן משפט הנחת יסוד ומשפט השערה, המשימה היא לחזות האם הנחת היסוד טומנת בחובה את ההשערה (השלכות), סותרת את ההשערה (סתירה), או אף אחת מהן (ניטרלי). משפטי ההנחה נאספים מעשרה מקורות שונים, כולל דיבור מתומלל, בדיוני ודוחות ממשלתיים. אנו משתמשים במערך המבחנים הסטנדרטי, שעבורו השגנו מותגים פרטיים מהמחברים, ומעריכים הן בסעיף המותאם (בתחום) והן בסעיף הבלתי מותאם (חוצה דומיינים). אנו גם משתמשים וממליצים על קורפוס SNLI כדוגמאות של 550,000 לנתוני אימון עזר.

  • דף הבית: http://www.nyu.edu/projects/bowman/multinli/

  • גודל ההורדה: 298.29 MiB

  • מערך נתונים גודל: 100.56 MiB

  • פיצולים:

לְפַצֵל דוגמאות
'test_matched' 9,796
'test_mismatched' 9,847
'train' 392,702
'validation_matched' 9,815
'validation_mismatched' 9,832
  • מאפיינים:
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    'premise': Text(shape=(), dtype=tf.string),
})
  • ציטוט:
@InProceedings{N18-1101,
  author = "Williams, Adina
            and Nangia, Nikita
            and Bowman, Samuel",
  title = "A Broad-Coverage Challenge Corpus for
           Sentence Understanding through Inference",
  booktitle = "Proceedings of the 2018 Conference of
               the North American Chapter of the
               Association for Computational Linguistics:
               Human Language Technologies, Volume 1 (Long
               Papers)",
  year = "2018",
  publisher = "Association for Computational Linguistics",
  pages = "1112--1122",
  location = "New Orleans, Louisiana",
  url = "http://aclweb.org/anthology/N18-1101"
}
@article{bowman2015large,
  title={A large annotated corpus for learning natural language inference},
  author={Bowman, Samuel R and Angeli, Gabor and Potts, Christopher and Manning, Christopher D},
  journal={arXiv preprint arXiv:1508.05326},
  year={2015}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

glue/mnli_mismatched

  • תיאור Config: האימות התואמות ומח' מבחן מ MNLI. עיין ב-"mnli" BuilderConfig למידע נוסף.

  • דף הבית: http://www.nyu.edu/projects/bowman/multinli/

  • גודל ההורדה: 298.29 MiB

  • מערך נתונים גודל: 4.79 MiB

  • פיצולים:

לְפַצֵל דוגמאות
'test' 9,847
'validation' 9,832
  • מאפיינים:
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    'premise': Text(shape=(), dtype=tf.string),
})
  • ציטוט:
@InProceedings{N18-1101,
  author = "Williams, Adina
            and Nangia, Nikita
            and Bowman, Samuel",
  title = "A Broad-Coverage Challenge Corpus for
           Sentence Understanding through Inference",
  booktitle = "Proceedings of the 2018 Conference of
               the North American Chapter of the
               Association for Computational Linguistics:
               Human Language Technologies, Volume 1 (Long
               Papers)",
  year = "2018",
  publisher = "Association for Computational Linguistics",
  pages = "1112--1122",
  location = "New Orleans, Louisiana",
  url = "http://aclweb.org/anthology/N18-1101"
}
@article{bowman2015large,
  title={A large annotated corpus for learning natural language inference},
  author={Bowman, Samuel R and Angeli, Gabor and Potts, Christopher and Manning, Christopher D},
  journal={arXiv preprint arXiv:1508.05326},
  year={2015}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

glue/mnli_matched

  • תיאור Config: מתפצלת אימות ובדיקה שהותאמה מתוך MNLI. עיין ב-"mnli" BuilderConfig למידע נוסף.

  • דף הבית: http://www.nyu.edu/projects/bowman/multinli/

  • גודל ההורדה: 298.29 MiB

  • מערך נתונים גודל: 4.58 MiB

  • פיצולים:

לְפַצֵל דוגמאות
'test' 9,796
'validation' 9,815
  • מאפיינים:
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    'premise': Text(shape=(), dtype=tf.string),
})
  • ציטוט:
@InProceedings{N18-1101,
  author = "Williams, Adina
            and Nangia, Nikita
            and Bowman, Samuel",
  title = "A Broad-Coverage Challenge Corpus for
           Sentence Understanding through Inference",
  booktitle = "Proceedings of the 2018 Conference of
               the North American Chapter of the
               Association for Computational Linguistics:
               Human Language Technologies, Volume 1 (Long
               Papers)",
  year = "2018",
  publisher = "Association for Computational Linguistics",
  pages = "1112--1122",
  location = "New Orleans, Louisiana",
  url = "http://aclweb.org/anthology/N18-1101"
}
@article{bowman2015large,
  title={A large annotated corpus for learning natural language inference},
  author={Bowman, Samuel R and Angeli, Gabor and Potts, Christopher and Manning, Christopher D},
  journal={arXiv preprint arXiv:1508.05326},
  year={2015}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

דבק/qnli

  • תיאור Config: סטנפורד שאלה המענה מערך נתון במערך לענות-שאלה מורכבת זוגות שאלה-פסק, שבו אחד המשפטים בפסקה (שנשאב ויקיפדיה) מכיל את התשובה לשאלה המקבילה (נכתבה על ידי פרשן). אנו ממירים את המשימה לסיווג צמד משפטים על ידי יצירת צמד בין כל שאלה לכל משפט בהקשר המתאים, וסינון זוגות עם חפיפה מילונית נמוכה בין השאלה למשפט ההקשר. המשימה היא לקבוע אם משפט ההקשר מכיל את התשובה לשאלה. גרסה שונה זו של המשימה המקורית מסירה את הדרישה שהמודל יבחר את התשובה המדויקת, אך גם מסירה את ההנחות המפשטות שהתשובה קיימת תמיד בקלט ושהחפיפה המילונית היא רמז אמין.

  • דף הבית: https://rajpurkar.github.io/SQuAD-explorer/

  • גודל ההורדה: 10.14 MiB

  • מערך נתונים גודל: 32.99 MiB

  • פיצולים:

לְפַצֵל דוגמאות
'test' 5,463
'train' 104,743
'validation' 5,463
  • מאפיינים:
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'question': Text(shape=(), dtype=tf.string),
    'sentence': Text(shape=(), dtype=tf.string),
})
  • ציטוט:
@article{rajpurkar2016squad,
  title={Squad: 100,000+ questions for machine comprehension of text},
  author={Rajpurkar, Pranav and Zhang, Jian and Lopyrev, Konstantin and Liang, Percy},
  journal={arXiv preprint arXiv:1606.05250},
  year={2016}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

דבק/rte

  • תיאור Config: בבסיסי הנתונים גרירה טקסטואלית (RTE) הכרה לבוא מתוך סדרה של אתגרים הַצרָכָה טקסטואלי השנתי. אנו משלבים את הנתונים מ-RTE1 (Dagan et al., 2006), RTE2 (Bar Haim et al., 2006), RTE3 (Giampiccolo et al., 2007) ו-RTE5 (Bentivogli et al., 2009).4 דוגמאות לכך הן נבנה על סמך חדשות וטקסט בוויקיפדיה. אנו ממירים את כל מערכי הנתונים לפיצול של שתי מחלקות, כאשר עבור מערכי נתונים של שלוש מחלקות אנו מכווצים נייטרלי וסתירה לכדי אי-הכרה, לצורך עקביות.

  • דף הבית: https://aclweb.org/aclwiki/Recognizing_Textual_Entailment

  • גודל ההורדה: 680.81 KiB

  • מערך נתונים גודל: 2.15 MiB

  • פיצולים:

לְפַצֵל דוגמאות
'test' 3,000
'train' 2,490
'validation' 277
  • מאפיינים:
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
  • ציטוט:
@inproceedings{dagan2005pascal,
  title={The PASCAL recognising textual entailment challenge},
  author={Dagan, Ido and Glickman, Oren and Magnini, Bernardo},
  booktitle={Machine Learning Challenges Workshop},
  pages={177--190},
  year={2005},
  organization={Springer}
}
@inproceedings{bar2006second,
  title={The second pascal recognising textual entailment challenge},
  author={Bar-Haim, Roy and Dagan, Ido and Dolan, Bill and Ferro, Lisa and Giampiccolo, Danilo and Magnini, Bernardo and Szpektor, Idan},
  booktitle={Proceedings of the second PASCAL challenges workshop on recognising textual entailment},
  volume={6},
  number={1},
  pages={6--4},
  year={2006},
  organization={Venice}
}
@inproceedings{giampiccolo2007third,
  title={The third pascal recognizing textual entailment challenge},
  author={Giampiccolo, Danilo and Magnini, Bernardo and Dagan, Ido and Dolan, Bill},
  booktitle={Proceedings of the ACL-PASCAL workshop on textual entailment and paraphrasing},
  pages={1--9},
  year={2007},
  organization={Association for Computational Linguistics}
}
@inproceedings{bentivogli2009fifth,
  title={The Fifth PASCAL Recognizing Textual Entailment Challenge.},
  author={Bentivogli, Luisa and Clark, Peter and Dagan, Ido and Giampiccolo, Danilo},
  booktitle={TAC},
  year={2009}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

דבק/wnli

  • תיאור Config: אתגר סכימת וינוגרד (. לווסק ואח, 2011) הוא משימה בהבנה הנקרא שבו מע' חייבת לקרוא משפט עם כינוי ובוחרת הרפרנט של כינוי הגוף הזה מתוך רשימה של אפשרויות. הדוגמאות בנויות באופן ידני כדי לסכל שיטות סטטיסטיות פשוטות: כל אחת מהן מותנית במידע הקשרי המסופק על ידי מילה או ביטוי בודדים במשפט. כדי להמיר את הבעיה לסיווג צמד משפטים, אנו בונים צמדי משפטים על ידי החלפת הכינוי המעורפל בכל רפרנט אפשרי. המשימה היא לחזות אם המשפט עם הכינוי מוחלף כרוך במשפט המקורי. אנו משתמשים בערכת הערכה קטנה המורכבת מדוגמאות חדשות הנגזרות מספרי בדיוני שחולקו באופן פרטי על ידי מחברי הקורפוס המקורי. בעוד מערך ההכשרה הכלול מאוזן בין שני שיעורים, מערך המבחנים אינו מאוזן ביניהם (65% ללא השתתפות). כמו כן, בשל מוזרות נתונים, מערך הפיתוח הוא אדוורסרי: השערות חולקות לעתים בין דוגמאות אימון ופיתוח, כך שאם מודל משנן את דוגמאות האימון, הם יבאו את התווית השגויה בדוגמה של מערך הפיתוח המקביל. כמו ב-QNLI, כל דוגמה מוערכת בנפרד, כך שאין התאמה שיטתית בין ציון המודל במשימה זו לבין הציון שלו במשימה המקורית שלא הומרה. אנו קוראים למערך הנתונים המרה WNLI (Winograd NLI).

  • דף הבית: https://cs.nyu.edu/faculty/davise/papers/WinogradSchemas/WS.html

  • גודל ההורדה: 28.32 KiB

  • מערך נתונים גודל: 198.88 KiB

  • פיצולים:

לְפַצֵל דוגמאות
'test' 146
'train' 635
'validation' 71
  • מאפיינים:
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
  • ציטוט:
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

דבק/גרזן

  • תיאור Config: מערך נתוני הערכה ידנית-אצרו לניתוח-גרגירים עדינים של ביצועי מערכת על מגוון רחב של תופעות לשוניות. מערך נתונים זה מעריך הבנת משפטים באמצעות בעיות של Natural Language Inference (NLI). השתמש במודל מאומן על MulitNLI כדי לייצר תחזיות עבור מערך הנתונים הזה.

  • דף הבית: https://gluebenchmark.com/diagnostics

  • גודל ההורדה: 217.05 KiB

  • מערך נתונים גודל: 299.16 KiB

  • פיצולים:

לְפַצֵל דוגמאות
'test' 1,104
  • מאפיינים:
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    'premise': Text(shape=(), dtype=tf.string),
})
  • ציטוט:
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.