conll2002

  • Descriptif :

La tâche partagée de CoNLL-2002 concerne la reconnaissance d'entités nommées indépendantes de la langue. Les types d'entités nommées comprennent : les personnes, les lieux, les organisations et les noms d'entités diverses qui n'appartiennent pas aux trois groupes précédents. Les participants à la tâche partagée ont reçu une formation et des données de test pour au moins deux langues. Des sources d'informations autres que les données d'entraînement peuvent avoir été utilisées dans cette tâche partagée.

@inproceedings{tjong-kim-sang-2002-introduction,
    title = "Introduction to the {C}o{NLL}-2002 Shared Task: Language-Independent Named Entity Recognition",
    author = "Tjong Kim Sang, Erik F.",
    booktitle = "{COLING}-02: The 6th Conference on Natural Language Learning 2002 ({C}o{NLL}-2002)",
    year = "2002",
    url = "https://aclanthology.org/W02-2024",
}

conll2002/es (configuration par défaut)

  • Taille du téléchargement : 3.95 MiB

  • Taille du jeu de données : 3.52 MiB

  • Fractionnements :

Diviser Exemples
'dev' 1 916
'test' 1 518
'train' 8 324
  • Structure des fonctionnalités :
FeaturesDict({
    'ner': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=9)),
    'pos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=60)),
    'tokens': Sequence(Text(shape=(), dtype=string)),
})
  • Documentation des fonctionnalités :
Caractéristique Classe Façonner Dtype Description
FonctionnalitésDict
ner Séquence(ClassLabel) (Aucun,) int64
position Séquence(ClassLabel) (Aucun,) int64
jetons Séquence (texte) (Aucun,) chaîne de caractères

conll2002/nl

  • Taille du téléchargement : 3.47 MiB

  • Taille du jeu de données : 3.55 MiB

  • Fractionnements :

Diviser Exemples
'dev' 2 896
'test' 5 196
'train' 15 807
  • Structure des fonctionnalités :
FeaturesDict({
    'ner': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=9)),
    'pos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=12)),
    'tokens': Sequence(Text(shape=(), dtype=string)),
})
  • Documentation des fonctionnalités :
Caractéristique Classe Façonner Dtype Description
FonctionnalitésDict
ner Séquence(ClassLabel) (Aucun,) int64
position Séquence(ClassLabel) (Aucun,) int64
jetons Séquence (texte) (Aucun,) chaîne de caractères