위키40b

  • 설명 :

40개 이상의 Wikipedia 언어 버전의 페이지에 대한 정리 텍스트는 엔터티에 해당합니다. 데이터 세트에는 언어별로 학습/개발/테스트 분할이 있습니다. 데이터 세트는 페이지 필터링을 통해 정리되어 명확성 페이지, 리디렉션 페이지, 삭제된 페이지 및 엔터티가 아닌 페이지를 제거합니다. 각 예에는 엔터티의 위키데이터 ID와 콘텐츠가 아닌 섹션과 구조화된 객체를 제거하는 페이지 처리 후의 전체 위키피디아 기사가 포함되어 있습니다. 41개의 단일 언어 모델과 2개의 다국어 모델을 포함하여 이 코퍼스에서 훈련된 언어 모델은 https://tfhub.dev/google/collections/wiki40b-lm/1 에서 찾을 수 있습니다.

FeaturesDict({
    'text': Text(shape=(), dtype=string),
    'version_id': Text(shape=(), dtype=string),
    'wikidata_id': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 Dtype 설명
특징Dict
텍스트 텍스트
버전_ID 텍스트
wikidata_id 텍스트
@inproceedings{49029,
title = {Wiki-40B: Multilingual Language Model Dataset},
author = {Mandy Guo and Zihang Dai and Denny Vrandecic and Rami Al-Rfou},
year = {2020},
booktitle   = {LREC 2020}
}

wiki40b/en (기본 구성)

  • 구성 설명 : en용 Wiki40B 데이터 세트

  • 데이터세트 크기 : 9.91 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'test' 162,274
'train' 2,926,536
'validation' 163,597

위키40b/ar

  • 구성 설명 : ar에 대한 Wiki40B 데이터 세트입니다.

  • 데이터세트 크기 : 833.20 MiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'test' 12,271
'train' 220,885
'validation' 12,198

wiki40b/zh-cn

  • 구성 설명 : zh-cn용 Wiki40B 데이터세트.

  • 데이터세트 크기 : 985.53 MiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'test' 30,355
'train' 549,672
'validation' 30,299

wiki40b/zh-tw

  • 구성 설명 : zh-tw에 대한 Wiki40B 데이터 세트입니다.

  • 데이터세트 크기 : 986.45 MiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'test' 30,670
'train' 552,031
'validation' 30,739

위키40b/nl

  • 구성 설명 : nl용 Wiki40B 데이터 세트.

  • 데이터세트 크기 : 961.82 MiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'test' 24,776
'train' 447,555
'validation' 25,201

wiki40b/fr

  • 구성 설명 : fr에 대한 Wiki40B 데이터 세트.

  • 데이터세트 크기 : 3.37 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'test' 68,004
'train' 1,227,206
'validation' 68,655

wiki40b/de

  • 구성 설명 : de에 대한 Wiki40B 데이터 세트입니다.

  • 데이터세트 크기 : 4.78 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'test' 86,594
'train' 1,554,910
'validation' 86,068

위키40b/it

  • 구성 설명 : Wiki40B 데이터세트입니다.

  • 데이터세트 크기 : 2.00 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'test' 40,443
'train' 732,609
'validation' 40,684

wiki40b/ja

  • 구성 설명 : ja에 대한 Wiki40B 데이터 세트입니다.

  • 데이터세트 크기 : 2.19 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'test' 41,268
'train' 745,392
'validation' 41,576

wiki40b/ko

  • 구성 설명 : ko에 대한 Wiki40B 데이터 세트입니다.

  • 데이터세트 크기 : 453.98 MiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'test' 10,802
'train' 194,977
'validation' 10,805

위키40b/pl

  • 구성 설명 : pl용 Wiki40B 데이터 세트.

  • 데이터세트 크기 : 1.03 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'test' 27,987
'train' 505,191
'validation' 28,310

위키40b/pt

  • 구성 설명 : pt에 대한 Wiki40B 데이터 세트.

  • 데이터세트 크기 : 1.08 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'test' 22,693
'train' 406,507
'validation' 22,301

위키40b/ru

  • 구성 설명 : ru용 Wiki40B 데이터 세트

  • 데이터세트 크기 : 4.13 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'test' 51,885
'train' 926,037
'validation' 51,287

wiki40b/es

  • 구성 설명 : es용 Wiki40B 데이터 세트.

  • 데이터세트 크기 : 2.70 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'test' 48,764
'train' 872,541
'validation' 48,592

wiki40b/일

  • 구성 설명 : th에 대한 Wiki40B 데이터 세트.

  • 데이터세트 크기 : 326.29 MiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'test' 3,114
'train' 56,798
'validation' 3,093

위키40b/tr

  • 구성 설명 : tr에 대한 Wiki40B 데이터 세트.

  • 데이터세트 크기 : 308.87 MiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'test' 7,890
'train' 142,576
'validation' 7,845

위키40b/bg

  • 구성 설명 : bg에 대한 Wiki40B 데이터 세트입니다.

  • 데이터세트 크기 : 433.20 MiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'test' 7,289
'train' 130,670
'validation' 7,259

위키40b/ca

  • 구성 설명 : ca.에 대한 Wiki40B 데이터 세트입니다.

  • 데이터세트 크기 : 753.00 MiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'test' 15,568
'train' 277,313
'validation' 15,362

위키40b/cs

  • 구성 설명 : cs용 Wiki40B 데이터세트입니다.

  • 데이터세트 크기 : 631.84 MiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'test' 12,984
'train' 235,971
'validation' 13,096

위키40b/다

  • 구성 설명 : da에 대한 Wiki40B 데이터 세트입니다.

  • 데이터세트 크기 : 240.51 MiB

  • 자동 캐시 ( 문서 ): 예(테스트, 검증), shuffle_files=False 인 경우에만(학습)

  • 분할 :

나뉘다
'test' 6,219
'train' 109,486
'validation' 6,173

위키40b/el

  • 구성 설명 : el에 대한 Wiki40B 데이터 세트.

  • 데이터세트 크기 : 524.77 MiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'test' 5,261
'train' 93,596
'validation' 5,130

위키40b/et

  • 구성 설명 : et.

  • 데이터세트 크기 : 184.07 MiB

  • 자동 캐시 ( 문서 ): 예(테스트, 검증), shuffle_files=False 인 경우에만(학습)

  • 분할 :

나뉘다
'test' 6,205
'train' 114,464
'validation' 6,351

위키40b/fa

  • 구성 설명 : fa용 Wiki40B 데이터 세트.

  • 데이터세트 크기 : 482.55 MiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'test' 11,262
'train' 203,145
'validation' 11,180

위키40b/fi

  • 구성 설명 : fi용 Wiki40B 데이터세트입니다.

  • 데이터세트 크기 : 534.13 MiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'test' 14,179
'train' 255,822
'validation' 13,962

wiki40b/그

  • 구성 설명 : 그에 대한 Wiki40B 데이터 세트입니다.

  • 데이터세트 크기 : 869.51 MiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'test' 9,344
'train' 165,359
'validation' 9,231

wiki40b/안녕하세요

  • 구성 설명 : hi에 대한 Wiki40B 데이터 세트입니다.

  • 데이터세트 크기 : 277.56 MiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'test' 2,643
'train' 45,737
'validation' 2,596

wiki40b/시간

  • 구성 설명 : hr용 Wiki40B 데이터세트

  • 데이터세트 크기 : 235.58 MiB

  • 자동 캐시 ( 문서 ): 예(테스트, 검증), shuffle_files=False 인 경우에만(학습)

  • 분할 :

나뉘다
'test' 5,724
'train' 103,857
'validation' 5,792

wiki40b/hu

  • 구성 설명 : hu에 대한 Wiki40B 데이터 세트입니다.

  • 데이터세트 크기 : 634.25 MiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'test' 15,258
'train' 273,248
'validation' 15,208

위키40b/id

  • 구성 설명 : ID에 대한 Wiki40B 데이터 세트입니다.

  • 데이터세트 크기 : 334.06 MiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'test' 8,598
'train' 156,255
'validation' 8,714

위키40b/lt

  • 구성 설명 : lt.에 대한 Wiki40B 데이터 세트.

  • 데이터세트 크기 : 140.46 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 4,683
'train' 84,854
'validation' 4,754

wiki40b/lv

  • 구성 설명 : lv.에 대한 Wiki40B 데이터 세트입니다.

  • 데이터세트 크기 : 80.07 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 1,932
'train' 33,064
'validation' 1,857

wiki40b/ms

  • 구성 설명 : ms용 Wiki40B 데이터 세트입니다.

  • 데이터세트 크기 : 142.49 MiB

  • 자동 캐시 ( 문서 ): 예(테스트, 검증), shuffle_files=False 인 경우에만(학습)

  • 분할 :

나뉘다
'test' 5,235
'train' 97,509
'validation' 5,357

wiki40b/아니요

  • 구성 설명 : no.에 대한 Wiki40B 데이터 세트

  • 데이터세트 크기 : 382.03 MiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'test' 10,588
'train' 190,588
'validation' 10,547

위키40b/ro

  • 구성 설명 : ro에 대한 Wiki40B 데이터 세트입니다.

  • 데이터세트 크기 : 319.68 MiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'test' 7,870
'train' 139,615
'validation' 7,624

위키40b/sk

  • 구성 설명 : sk용 Wiki40B 데이터세트

  • 데이터세트 크기 : 170.20 MiB

  • 자동 캐시 ( 문서 ): 예(테스트, 검증), shuffle_files=False 인 경우에만(학습)

  • 분할 :

나뉘다
'test' 5,741
'train' 103,095
'validation' 5,604

위키40b/sl

  • 구성 설명 : sl용 Wiki40B 데이터 세트

  • 데이터세트 크기 : 157.38 MiB

  • 자동 캐시 ( 문서 ): 예(테스트, 검증), shuffle_files=False 인 경우에만(학습)

  • 분할 :

나뉘다
'test' 3,341
'train' 60,927
'validation' 3,287

wiki40b/sr

  • 구성 설명 : sr용 Wiki40B 데이터 세트

  • 데이터세트 크기 : 582.20 MiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'test' 17,997
'train' 327,313
'validation' 18,100

위키40b/sv

  • 구성 설명 : sv.에 대한 Wiki40B 데이터 세트입니다.

  • 데이터세트 크기 : 613.62 MiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'test' 22,291
'train' 400,742
'validation' 22,263

위키40b/tl

  • 구성 설명 : tl에 대한 Wiki40B 데이터 세트.

  • 데이터세트 크기 : 29.04 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 1,446
'train' 25,940
'validation' 1,472

wiki40b/uk

  • 구성 설명 : 영국용 Wiki40B 데이터세트

  • 데이터세트 크기 : 1.67 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'test' 26,581
'train' 477,618
'validation' 26,324

위키40b/vi

  • 구성 설명 : vi용 Wiki40B 데이터 세트.

  • 데이터세트 크기 : 497.70 MiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'test' 7,942
'train' 146,255
'validation' 8,195