wmt16_translate

  • 설명 :

statmt.org의 데이터를 기반으로 데이터 세트를 번역합니다.

버전은 여러 데이터 소스의 조합을 사용하여 서로 다른 연도에 대해 존재합니다. 기본 wmt_translate 를 사용하면 사용자 정의 tfds.translate.wmt.WmtConfig 를 생성하여 고유한 데이터/언어 쌍을 선택하는 고유한 구성을 생성할 수 있습니다.

config = tfds.translate.wmt.WmtConfig(
    version="0.0.1",
    language_pair=("fr", "de"),
    subsets={
        tfds.Split.TRAIN: ["commoncrawl_frde"],
        tfds.Split.VALIDATION: ["euelections_dev2019"],
    },
)
builder = tfds.builder("wmt_translate", config=config)
@InProceedings{bojar-EtAl:2016:WMT1,
  author    = {Bojar, Ond
{r}ej  and  Chatterjee, Rajen  and  Federmann, Christian  and  Graham, Yvette  and  Haddow, Barry  and  Huck, Matthias  and  Jimeno Yepes, Antonio  and  Koehn, Philipp  and  Logacheva, Varvara  and  Monz, Christof  and  Negri, Matteo  and  Neveol, Aurelie  and  Neves, Mariana  and  Popel, Martin  and  Post, Matt  and  Rubino, Raphael  and  Scarton, Carolina  and  Specia, Lucia  and  Turchi, Marco  and  Verspoor, Karin  and  Zampieri, Marcos},
  title     = {Findings of the 2016 Conference on Machine Translation},
  booktitle = {Proceedings of the First Conference on Machine Translation},
  month     = {August},
  year      = {2016},
  address   = {Berlin, Germany},
  publisher = {Association for Computational Linguistics},
  pages     = {131--198},
  url       = {http://www.aclweb.org/anthology/W/W16/W16-2301}
}

wmt16_translate/cs-en(기본 구성)

  • 구성 설명 : WMT 2016 cs-en 번역 작업 데이터 세트.

  • 다운로드 크기 : 1.57 GiB

  • 데이터세트 크기 : 7.56 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'test' 2,999
'train' 52,335,651
'validation' 2,656
  • 기능 구조 :
Translation({
    'cs': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
번역
CS 텍스트
ko 텍스트

wmt16_translate/de-en

  • 구성 설명 : WMT 2016 de-en 번역 작업 데이터 세트.

  • 다운로드 크기 : 1.57 GiB

  • 데이터세트 크기 : 1.38 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'test' 2,999
'train' 4,548,885
'validation' 2,169
  • 기능 구조 :
Translation({
    'de': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
번역
텍스트
ko 텍스트

wmt16_translate/fi-en

  • 구성 설명 : WMT 2016 fi-en 번역 작업 데이터 세트.

  • 다운로드 크기 : 260.51 MiB

  • 데이터 세트 크기 : 624.31 MiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'test' 6,000
'train' 2,073,394
'validation' 1,370
  • 기능 구조 :
Translation({
    'en': Text(shape=(), dtype=string),
    'fi': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
번역
ko 텍스트
파이 텍스트

wmt16_translate/ro-en

  • 구성 설명 : WMT 2016 ro-en 번역 작업 데이터 세트.

  • 다운로드 크기 : 273.83 MiB

  • 데이터 세트 크기 : 194.35 MiB

  • 자동 캐싱 ( 문서 ): 예(테스트, 검증), shuffle_files=False 인 경우에만(훈련)

  • 분할 :

나뉘다
'test' 1,999
'train' 610,320
'validation' 1,999
  • 기능 구조 :
Translation({
    'en': Text(shape=(), dtype=string),
    'ro': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
번역
ko 텍스트
텍스트

wmt16_translate/ru-en

  • 구성 설명 : WMT 2016 ru-en 번역 작업 데이터 세트.

  • 다운로드 크기 : 993.38 MiB

  • 데이터 세트 크기 : 854.44 MiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'test' 2,998
'train' 2,516,162
'validation' 2,818
  • 기능 구조 :
Translation({
    'en': Text(shape=(), dtype=string),
    'ru': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
번역
ko 텍스트
텍스트

wmt16_translate/tr-en

  • 구성 설명 : WMT 2016 tr-en 번역 작업 데이터 세트.

  • 다운로드 크기 : 59.32 MiB

  • 데이터 세트 크기 : 63.21 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 3,000
'train' 205,756
'validation' 1,001
  • 기능 구조 :
Translation({
    'en': Text(shape=(), dtype=string),
    'tr': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
번역
ko 텍스트
텍스트