날짜를 저장하십시오! Google I / O가 5 월 18 일부터 20 일까지 반환됩니다. 지금 등록
이 페이지는 Cloud Translation API를 통해 번역되었습니다.
Switch to English

위키 40b

  • 설명 :

40 개 이상의 Wikipedia 언어 버전 페이지의 정리 텍스트는 엔티티에 해당합니다. 데이터 세트에는 언어 별 학습 / 개발 / 테스트 분할이 있습니다. 데이터 세트는 페이지 필터링에 의해 정리되어 명확성 페이지, 리디렉션 페이지, 삭제 된 페이지 및 비 엔터티 페이지를 제거합니다. 각 예제에는 엔티티의 위키 데이터 ID와 비 컨텐츠 섹션과 구조화 된 객체를 제거하는 페이지 처리 후 전체 위키 백과 기사가 포함됩니다. 41 개의 단일 언어 모델과 2 개의 다국어 모델을 포함하여이 말뭉치에서 학습 된 언어 모델은 https : //tfhub.dev/google/collections/wiki40b-lm/1에서 찾을 수 있습니다.

FeaturesDict({
    'text': Text(shape=(), dtype=tf.string),
    'version_id': Text(shape=(), dtype=tf.string),
    'wikidata_id': Text(shape=(), dtype=tf.string),
})
@inproceedings{49029,
title = {Wiki-40B: Multilingual Language Model Dataset},
author = {Mandy Guo and Zihang Dai and Denny Vrandecic and Rami Al-Rfou},
year = {2020},
booktitle   = {LREC 2020}
}

wiki40b / en (기본 구성)

  • 구성 설명 : Wiki40B 데이터 셋 for en.

  • 데이터 세트 크기 : 9.91 GiB

  • 자동 캐시 됨 ( 문서 ) : 아니요

  • 분할 :

스플릿
'test' 162,274
'train' 2,926,536
'validation' 163,597

wiki40b / ar

  • 구성 설명 : ar.

  • 데이터 세트 크기 : 833.20 MiB

  • 자동 캐시 됨 ( 문서 ) : 아니요

  • 분할 :

스플릿
'test' 12,271
'train' 220,885
'validation' 12,198

wiki40b / zh-cn

  • 구성 설명 : zh-cn 용 Wiki40B 데이터 세트.

  • 데이터 세트 크기 : 985.53 MiB

  • 자동 캐시 됨 ( 문서 ) : 아니요

  • 분할 :

스플릿
'test' 30,355
'train' 549,672
'validation' 30,299

wiki40b / zh-tw

  • 구성 설명 : zh-tw에 대한 Wiki40B 데이터 세트.

  • 데이터 세트 크기 : 986.45 MiB

  • 자동 캐시 됨 ( 문서 ) : 아니요

  • 분할 :

스플릿
'test' 30,670
'train' 552,031
'validation' 30,739

wiki40b / nl

  • 구성 설명 : nl 용 Wiki40B 데이터 셋.

  • 데이터 세트 크기 : 961.82 MiB

  • 자동 캐시 됨 ( 문서 ) : 아니요

  • 분할 :

스플릿
'test' 24,776
'train' 447,555
'validation' 25,201

wiki40b / fr

  • 구성 설명 : fr에 대한 Wiki40B 데이터 셋.

  • 데이터 세트 크기 : 3.37 GiB

  • 자동 캐시 됨 ( 문서 ) : 아니요

  • 분할 :

스플릿
'test' 68,004
'train' 1,227,206
'validation' 68,655

wiki40b / de

  • 구성 설명 : de.

  • 데이터 세트 크기 : 4.78 GiB

  • 자동 캐시 됨 ( 문서 ) : 아니요

  • 분할 :

스플릿
'test' 86,594
'train' 1,554,910
'validation' 86,068

wiki40b / it

  • 구성 설명 : Wiki40B 데이터 세트.

  • 데이터 세트 크기 : 2.00 GiB

  • 자동 캐시 됨 ( 문서 ) : 아니요

  • 분할 :

스플릿
'test' 40,443
'train' 732,609
'validation' 40,684

wiki40b / ja

  • 구성 설명 : ja 용 Wiki40B 데이터 세트.

  • 데이터 세트 크기 : 2.19 GiB

  • 자동 캐시 됨 ( 문서 ) : 아니요

  • 분할 :

스플릿
'test' 41,268
'train' 745,392
'validation' 41,576

wiki40b / ko

  • 구성 설명 : ko 용 Wiki40B 데이터 셋.

  • 데이터 세트 크기 : 453.98 MiB

  • 자동 캐시 됨 ( 문서 ) : 아니요

  • 분할 :

스플릿
'test' 10,802
'train' 194,977
'validation' 10,805

wiki40b / pl

  • 구성 설명 : Wiki40B 데이터 셋 for pl.

  • 데이터 세트 크기 : 1.03 GiB

  • 자동 캐시 됨 ( 문서 ) : 아니요

  • 분할 :

스플릿
'test' 27,987
'train' 505,191
'validation' 28,310

wiki40b / pt

  • 구성 설명 : pt에 대한 Wiki40B 데이터 세트.

  • 데이터 세트 크기 : 1.08 GiB

  • 자동 캐시 됨 ( 문서 ) : 아니요

  • 분할 :

스플릿
'test' 22,693
'train' 406,507
'validation' 22,301

wiki40b / ru

  • 구성 설명 : ru에 대한 Wiki40B 데이터 세트.

  • 데이터 세트 크기 : 4.13 GiB

  • 자동 캐시 됨 ( 문서 ) : 아니요

  • 분할 :

스플릿
'test' 51,885
'train' 926,037
'validation' 51,287

wiki40b / es

  • 구성 설명 : es. 용 Wiki40B 데이터 셋

  • 데이터 세트 크기 : 2.70 GiB

  • 자동 캐시 됨 ( 문서 ) : 아니요

  • 분할 :

스플릿
'test' 48,764
'train' 872,541
'validation' 48,592

wiki40b / th

  • 구성 설명 : Wiki40B 데이터 셋 for th.

  • 데이터 세트 크기 : 326.29 MiB

  • 자동 캐시 됨 ( 문서 ) : 아니요

  • 분할 :

스플릿
'test' 3,114
'train' 56,798
'validation' 3,093

위키 40b / tr

  • 구성 설명 : tr 용 Wiki40B 데이터 세트.

  • 데이터 세트 크기 : 308.87 MiB

  • 자동 캐시 됨 ( 문서 ) : 아니요

  • 분할 :

스플릿
'test' 7,890
'train' 142,576
'validation' 7,845

wiki40b / bg

  • 구성 설명 : bg 용 Wiki40B 데이터 셋

  • 데이터 세트 크기 : 433.20 MiB

  • 자동 캐시 됨 ( 문서 ) : 아니요

  • 분할 :

스플릿
'test' 7,289
'train' 130,670
'validation' 7,259

wiki40b / ca

  • 구성 설명 : Wiki40B 데이터 셋 for ca.

  • 데이터 세트 크기 : 753.00 MiB

  • 자동 캐시 됨 ( 문서 ) : 아니요

  • 분할 :

스플릿
'test' 15,568
'train' 277,313
'validation' 15,362

wiki40b / cs

  • 구성 설명 : cs 용 Wiki40B 데이터 셋.

  • 데이터 세트 크기 : 631.84 MiB

  • 자동 캐시 됨 ( 문서 ) : 아니요

  • 분할 :

스플릿
'test' 12,984
'train' 235,971
'validation' 13,096

wiki40b / da

  • 구성 설명 : da에 대한 Wiki40B 데이터 세트.

  • 데이터 세트 크기 : 240.51 MiB

  • 자동 캐시 됨 ( 문서 ) : 예 (테스트, 검증), shuffle_files=False (train) 인 경우에만

  • 분할 :

스플릿
'test' 6,219
'train' 109,486
'validation' 6,173

wiki40b / el

  • 구성 설명 : el 용 Wiki40B 데이터 셋.

  • 데이터 세트 크기 : 524.77 MiB

  • 자동 캐시 됨 ( 문서 ) : 아니요

  • 분할 :

스플릿
'test' 5,261
'train' 93,596
'validation' 5,130

wiki40b / et

  • 구성 설명 : Wiki40B 데이터 셋 for et.

  • 데이터 세트 크기 : 184.07 MiB

  • 자동 캐시 됨 ( 문서 ) : 예 (테스트, 유효성 검사), shuffle_files=False (train) 인 경우에만

  • 분할 :

스플릿
'test' 6,205
'train' 114,464
'validation' 6,351

wiki40b / fa

  • 구성 설명 : fa 용 Wiki40B 데이터 셋.

  • 데이터 세트 크기 : 482.55 MiB

  • 자동 캐시 됨 ( 문서 ) : 아니요

  • 분할 :

스플릿
'test' 11,262
'train' 203,145
'validation' 11,180

wiki40b / fi

  • 구성 설명 : Wiki40B 데이터 셋 for fi.

  • 데이터 세트 크기 : 534.13 MiB

  • 자동 캐시 됨 ( 문서 ) : 아니요

  • 분할 :

스플릿
'test' 14,179
'train' 255,822
'validation' 13,962

wiki40b / he

  • 구성 설명 : Wiki40B 데이터 세트.

  • 데이터 세트 크기 : 869.51 MiB

  • 자동 캐시 됨 ( 문서 ) : 아니요

  • 분할 :

스플릿
'test' 9,344
'train' 165,359
'validation' 9,231

wiki40b / hi

  • 구성 설명 : hi 용 Wiki40B 데이터 셋

  • 데이터 세트 크기 : 277.56 MiB

  • 자동 캐시 됨 ( 문서 ) : 아니요

  • 분할 :

스플릿
'test' 2,643
'train' 45,737
'validation' 2,596

wiki40b / 시간

  • 구성 설명 : 시간에 대한 Wiki40B 데이터 세트.

  • 데이터 세트 크기 : 235.58 MiB

  • 자동 캐시 됨 ( 문서 ) : 예 (테스트, 유효성 검사), shuffle_files=False (train) 인 경우에만

  • 분할 :

스플릿
'test' 5,724
'train' 103,857
'validation' 5,792

wiki40b / hu

  • 구성 설명 : Hu 용 Wiki40B 데이터 셋

  • 데이터 세트 크기 : 634.25 MiB

  • 자동 캐시 됨 ( 문서 ) : 아니요

  • 분할 :

스플릿
'test' 15,258
'train' 273,248
'validation' 15,208

wiki40b / id

  • 구성 설명 : ID에 대한 Wiki40B 데이터 세트.

  • 데이터 세트 크기 : 334.06 MiB

  • 자동 캐시 됨 ( 문서 ) : 아니요

  • 분할 :

스플릿
'test' 8,598
'train' 156,255
'validation' 8,714

wiki40b / lt

  • 구성 설명 : lt에 대한 Wiki40B 데이터 세트.

  • 데이터 세트 크기 : 140.46 MiB

  • 자동 캐시 됨 ( 문서 ) : 예

  • 분할 :

스플릿
'test' 4,683
'train' 84,854
'validation' 4,754

wiki40b / lv

  • 구성 설명 : lv.

  • 데이터 세트 크기 : 80.07 MiB

  • 자동 캐시 됨 ( 문서 ) : 예

  • 분할 :

스플릿
'test' 1,932
'train' 33,064
'validation' 1,857

위키 40b / ms

  • 구성 설명 : ms 용 Wiki40B 데이터 셋.

  • 데이터 세트 크기 : 142.49 MiB

  • 자동 캐시 됨 ( 문서 ) : 예 (테스트, 검증), shuffle_files=False (train) 인 경우에만

  • 분할 :

스플릿
'test' 5,235
'train' 97,509
'validation' 5,357

wiki40b / 아니요

  • 구성 설명 : Wiki40B 데이터 세트.

  • 데이터 세트 크기 : 382.03 MiB

  • 자동 캐시 됨 ( 문서 ) : 아니요

  • 분할 :

스플릿
'test' 10,588
'train' 190,588
'validation' 10,547

wiki40b / ro

  • 구성 설명 : Ro.

  • 데이터 세트 크기 : 319.68 MiB

  • 자동 캐시 됨 ( 문서 ) : 아니요

  • 분할 :

스플릿
'test' 7,870
'train' 139,615
'validation' 7,624

wiki40b / sk

  • 구성 설명 : sk 용 Wiki40B 데이터 셋.

  • 데이터 세트 크기 : 170.20 MiB

  • 자동 캐시 됨 ( 문서 ) : 예 (테스트, 검증), shuffle_files=False (train) 인 경우에만

  • 분할 :

스플릿
'test' 5,741
'train' 103,095
'validation' 5,604

wiki40b / sl

  • 구성 설명 : sl 용 Wiki40B 데이터 셋.

  • 데이터 세트 크기 : 157.38 MiB

  • 자동 캐시 됨 ( 문서 ) : 예 (테스트, 검증), shuffle_files=False (train) 인 경우에만

  • 분할 :

스플릿
'test' 3,341
'train' 60,927
'validation' 3,287

위키 40b / sr

  • 구성 설명 : sr 용 Wiki40B 데이터 셋.

  • 데이터 세트 크기 : 582.20 MiB

  • 자동 캐시 됨 ( 문서 ) : 아니요

  • 분할 :

스플릿
'test' 17,997
'train' 327,313
'validation' 18,100

wiki40b / sv

  • 구성 설명 : Wiki40B 데이터 셋 for sv.

  • 데이터 세트 크기 : 613.62 MiB

  • 자동 캐시 됨 ( 문서 ) : 아니요

  • 분할 :

스플릿
'test' 22,291
'train' 400,742
'validation' 22,263

wiki40b / tl

  • 구성 설명 : Wiki40B 데이터 셋 for tl.

  • 데이터 세트 크기 : 29.04 MiB

  • 자동 캐시 됨 ( 문서 ) : 예

  • 분할 :

스플릿
'test' 1,446
'train' 25,940
'validation' 1,472

wiki40b / uk

  • 구성 설명 : 영국 용 Wiki40B 데이터 셋.

  • 데이터 세트 크기 : 1.67 GiB

  • 자동 캐시 됨 ( 문서 ) : 아니요

  • 분할 :

스플릿
'test' 26,581
'train' 477,618
'validation' 26,324

wiki40b / vi

  • 구성 설명 : vi 용 Wiki40B 데이터 세트.

  • 데이터 세트 크기 : 497.70 MiB

  • 자동 캐시 됨 ( 문서 ) : 아니요

  • 분할 :

스플릿
'test' 7,942
'train' 146,255
'validation' 8,195