conll2002

  • תיאור :

המשימה המשותפת של CoNLL-2002 נוגעת לזיהוי ישויות בשם בלתי תלוי בשפה. סוגי הישויות הנקובות בשמות כוללים: אנשים, מיקומים, ארגונים ושמות של גופים שונים שאינם שייכים לשלוש הקבוצות הקודמות. למשתתפי המשימה המשותפת הוצעו הכשרה ונתוני מבחן לשתי שפות לפחות. ייתכן שנעשה שימוש במקורות מידע אחרים מלבד נתוני ההדרכה במשימה המשותפת הזו.

@inproceedings{tjong-kim-sang-2002-introduction,
    title = "Introduction to the {C}o{NLL}-2002 Shared Task: Language-Independent Named Entity Recognition",
    author = "Tjong Kim Sang, Erik F.",
    booktitle = "{COLING}-02: The 6th Conference on Natural Language Learning 2002 ({C}o{NLL}-2002)",
    year = "2002",
    url = "https://aclanthology.org/W02-2024",
}

conll2002/es (תצורת ברירת המחדל)

  • גודל הורדה : 3.95 MiB

  • גודל ערכת נתונים : 3.52 MiB

  • פיצולים :

לְפַצֵל דוגמאות
'dev' 1,916
'test' 1,518
'train' 8,324
  • מבנה תכונה :
FeaturesDict({
    'ner': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=9)),
    'pos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=60)),
    'tokens': Sequence(Text(shape=(), dtype=string)),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
ner Sequence (ClassLabel) (אף אחד,) int64
pos Sequence (ClassLabel) (אף אחד,) int64
אסימונים רצף (טקסט) (אף אחד,) חוּט

conll2002/nl

  • גודל הורדה : 3.47 MiB

  • גודל מערך נתונים : 3.55 MiB

  • פיצולים :

לְפַצֵל דוגמאות
'dev' 2,896
'test' 5,196
'train' 15,807
  • מבנה תכונה :
FeaturesDict({
    'ner': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=9)),
    'pos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=12)),
    'tokens': Sequence(Text(shape=(), dtype=string)),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
ner Sequence (ClassLabel) (אף אחד,) int64
pos Sequence (ClassLabel) (אף אחד,) int64
אסימונים רצף (טקסט) (אף אחד,) חוּט