conll2002

  • الوصف :

تتعلق المهمة المشتركة لـ CoNLL-2002 بالتعرف على الكيانات المسماة المستقلة عن اللغة. تشمل أنواع الكيانات المسماة: الأشخاص والمواقع والمؤسسات وأسماء الكيانات المتنوعة التي لا تنتمي إلى المجموعات الثلاث السابقة. عُرض على المشاركين في المهمة المشتركة بيانات تدريب واختبار لغتين على الأقل. ربما تم استخدام مصادر معلومات غير بيانات التدريب في هذه المهمة المشتركة.

@inproceedings{tjong-kim-sang-2002-introduction,
    title = "Introduction to the {C}o{NLL}-2002 Shared Task: Language-Independent Named Entity Recognition",
    author = "Tjong Kim Sang, Erik F.",
    booktitle = "{COLING}-02: The 6th Conference on Natural Language Learning 2002 ({C}o{NLL}-2002)",
    year = "2002",
    url = "https://aclanthology.org/W02-2024",
}

conll2002 / es (التكوين الافتراضي)

  • حجم التحميل : 3.95 MiB

  • حجم مجموعة البيانات : 3.52 MiB

  • الانقسامات :

انشق، مزق أمثلة
'dev' 1،916
'test' 1،518
'train' 8324
  • هيكل الميزة :
FeaturesDict({
    'ner': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=9)),
    'pos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=60)),
    'tokens': Sequence(Text(shape=(), dtype=string)),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
نير تسلسل (ClassLabel) (لا أحد،) int64
نقاط البيع تسلسل (ClassLabel) (لا أحد،) int64
الرموز تسلسل (نص) (لا أحد،) سلسلة

conll2002 / nl

  • حجم التحميل : 3.47 MiB

  • حجم مجموعة البيانات : 3.55 MiB

  • الانقسامات :

انشق، مزق أمثلة
'dev' 2896
'test' 5،196
'train' 15807
  • هيكل الميزة :
FeaturesDict({
    'ner': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=9)),
    'pos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=12)),
    'tokens': Sequence(Text(shape=(), dtype=string)),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
نير تسلسل (ClassLabel) (لا أحد،) int64
نقاط البيع تسلسل (ClassLabel) (لا أحد،) int64
الرموز تسلسل (نص) (لا أحد،) سلسلة