conll2002

  • Descrizione :

Il compito condiviso di CoNLL-2002 riguarda il riconoscimento di entità denominate indipendenti dalla lingua. I tipi di entità denominate includono: persone, luoghi, organizzazioni e nomi di entità varie che non appartengono ai tre gruppi precedenti. Ai partecipanti del compito condiviso sono stati offerti dati di formazione e test per almeno due lingue. Fonti di informazioni diverse dai dati di addestramento potrebbero essere state utilizzate in questa attività condivisa.

@inproceedings{tjong-kim-sang-2002-introduction,
    title = "Introduction to the {C}o{NLL}-2002 Shared Task: Language-Independent Named Entity Recognition",
    author = "Tjong Kim Sang, Erik F.",
    booktitle = "{COLING}-02: The 6th Conference on Natural Language Learning 2002 ({C}o{NLL}-2002)",
    year = "2002",
    url = "https://aclanthology.org/W02-2024",
}

conll2002/es (configurazione predefinita)

  • Dimensione del download : 3.95 MiB

  • Dimensione del set di dati: 3.52 MiB

  • Divisioni :

Diviso Esempi
'dev' 1.916
'test' 1.518
'train' 8.324
  • Struttura delle caratteristiche :
FeaturesDict({
    'ner': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=9)),
    'pos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=60)),
    'tokens': Sequence(Text(shape=(), dtype=string)),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
ner Sequenza(EtichettaClasse) (Nessuno,) int64
pos Sequenza(EtichettaClasse) (Nessuno,) int64
gettoni Sequenza(Testo) (Nessuno,) corda

conll2002/nl

  • Dimensione del download : 3.47 MiB

  • Dimensione del set di dati: 3.55 MiB

  • Divisioni :

Diviso Esempi
'dev' 2.896
'test' 5.196
'train' 15.807
  • Struttura delle caratteristiche :
FeaturesDict({
    'ner': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=9)),
    'pos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=12)),
    'tokens': Sequence(Text(shape=(), dtype=string)),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
ner Sequenza(EtichettaClasse) (Nessuno,) int64
pos Sequenza(EtichettaClasse) (Nessuno,) int64
gettoni Sequenza(Testo) (Nessuno,) corda