• 설명 :

OPUS는 웹에서 번역된 텍스트 모음입니다.

로드할 데이터/언어 쌍을 선택하려면 고유한 구성을 만드십시오.

config = tfds.translate.opus.OpusConfig(
    version=tfds.core.Version('0.1.0'),
    language_pair=("de", "en"),
    subsets=["GNOME", "EMEA"]
)
builder = tfds.builder("opus", config=config)
Translation({
    'de': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
번역
텍스트
ko 텍스트
@inproceedings{Tiedemann2012ParallelData,
  author = {Tiedemann, J},
  title = {Parallel Data, Tools and Interfaces in OPUS},
  booktitle = {LREC}
  year = {2012} }

opus/의료(기본 구성)

  • 구성 설명 : 의료 문서

  • 다운로드 크기 : 34.29 MiB

  • 데이터 세트 크기 : 188.85 MiB

  • 자동 캐시 됨( 문서 ): shuffle_files=False (트레인)인 경우에만

  • 분할 :

나뉘다
'train' 1,108,752

오푸스/법률

  • 구성 설명 : 법률 문서

  • 다운로드 크기 : 46.99 MiB

  • 데이터 세트 크기 : 214.44 MiB

  • 자동 캐시 됨( 문서 ): shuffle_files=False (트레인)인 경우에만

  • 분할 :

나뉘다
'train' 719,372

오푸스/코란

  • 구성 설명 : 코란 문서

  • 다운로드 크기 : 35.42 MiB

  • 데이터 세트 크기 : 117.54 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'train' 537,128

오푸스/IT

  • 구성 설명 : IT 문서

  • 다운로드 크기 : 10.33 MiB

  • 데이터 세트 크기 : 42.51 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'train' 347,817

작품/자막

  • 구성 설명 : 자막 문서

  • 다운로드 크기 : 677.64 MiB

  • 데이터세트 크기 : 2.01 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'train' 22,512,639