פער

  • תיאור :

GAP הוא מערך נתונים מאוזן בין המינים המכיל 8,908 צמדים עם תווית coreference של (כינוי מעורפל, שם קדום), שנדגמו מוויקיפדיה ושוחררו על ידי Google AI Language לצורך הערכת רזולוציית coreference ביישומים מעשיים.

לְפַצֵל דוגמאות
'test' 2,000
'train' 2,000
'validation' 454
  • מבנה תכונה :
FeaturesDict({
    'A': Text(shape=(), dtype=string),
    'A-coref': bool,
    'A-offset': int32,
    'B': Text(shape=(), dtype=string),
    'B-coref': bool,
    'B-offset': int32,
    'ID': Text(shape=(), dtype=string),
    'Pronoun': Text(shape=(), dtype=string),
    'Pronoun-offset': int32,
    'Text': Text(shape=(), dtype=string),
    'URL': Text(shape=(), dtype=string),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
א טֶקסט חוּט
א-גרעף מוֹתֵחַ bool
א-קיזוז מוֹתֵחַ int32
ב טֶקסט חוּט
B-coref מוֹתֵחַ bool
קיזוז B מוֹתֵחַ int32
תְעוּדַת זֶהוּת טֶקסט חוּט
כנוי טֶקסט חוּט
כינוי היסט מוֹתֵחַ int32
טֶקסט טֶקסט חוּט
כתובת אתר טֶקסט חוּט
  • ציטוט :
@article{DBLP:journals/corr/abs-1810-05201,
  author    = {Kellie Webster and
               Marta Recasens and
               Vera Axelrod and
               Jason Baldridge},
  title     = {Mind the {GAP:} {A} Balanced Corpus of Gendered Ambiguous Pronouns},
  journal   = {CoRR},
  volume    = {abs/1810.05201},
  year      = {2018},
  url       = {http://arxiv.org/abs/1810.05201},
  archivePrefix = {arXiv},
  eprint    = {1810.05201},
  timestamp = {Tue, 30 Oct 2018 20:39:56 +0100},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1810-05201},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}