conll2002

  • 説明:

CoNLL-2002 の共有タスクは、言語に依存しない名前付きエンティティの認識に関するものです。名前付きエンティティのタイプには、人、場所、組織、および前の 3 つのグループに属さないその他のエンティティの名前が含まれます。共有タスクの参加者には、少なくとも 2 つの言語のトレーニングとテスト データが提供されました。この共有タスクでは、トレーニング データ以外の情報源が使用された可能性があります。

@inproceedings{tjong-kim-sang-2002-introduction,
    title = "Introduction to the {C}o{NLL}-2002 Shared Task: Language-Independent Named Entity Recognition",
    author = "Tjong Kim Sang, Erik F.",
    booktitle = "{COLING}-02: The 6th Conference on Natural Language Learning 2002 ({C}o{NLL}-2002)",
    year = "2002",
    url = "https://aclanthology.org/W02-2024",
}

conll2002/es (デフォルト構成)

  • ダウンロードサイズ: 3.95 MiB

  • データセットサイズ: 3.52 MiB

  • スプリット:

スプリット
'dev' 1,916
'test' 1,518
'train' 8,324
  • 機能構造:
FeaturesDict({
    'ner': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=9)),
    'pos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=60)),
    'tokens': Sequence(Text(shape=(), dtype=string)),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
ナーシーケンス(クラスラベル) (なし、) int64
位置シーケンス(クラスラベル) (なし、) int64
トークンシーケンス(テキスト) (なし、)ストリング

conll2002/nl

  • ダウンロードサイズ: 3.47 MiB

  • データセットのサイズ: 3.55 MiB

  • スプリット:

スプリット
'dev' 2,896
'test' 5,196
'train' 15,807
  • 機能構造:
FeaturesDict({
    'ner': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=9)),
    'pos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=12)),
    'tokens': Sequence(Text(shape=(), dtype=string)),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
ナーシーケンス(クラスラベル) (なし、) int64
位置シーケンス(クラスラベル) (なし、) int64
トークンシーケンス(テキスト) (なし、)ストリング