O Dia da Comunidade de ML é dia 9 de novembro! Junte-nos para atualização de TensorFlow, JAX, e mais Saiba mais

wmt17_translate

  • Descrição:

Traduzir o conjunto de dados com base nos dados de statmt.org.

Existem versões para os diferentes anos usando uma combinação de várias fontes de dados. A base wmt_translate permite que você crie sua própria configuração para escolher o seu próprio par de dados / idioma através da criação de um costume tfds.translate.wmt.WmtConfig .

config = tfds.translate.wmt.WmtConfig(
    version="0.0.1",
    language_pair=("fr", "de"),
    subsets={
        tfds.Split.TRAIN: ["commoncrawl_frde"],
        tfds.Split.VALIDATION: ["euelections_dev2019"],
    },
)
builder = tfds.builder("wmt_translate", config=config)
  • Homepage: http://www.statmt.org/wmt17/translation-task.html

  • O código-fonte: tfds.translate.Wmt17Translate

  • versões:

    • 1.0.0 (padrão): Não há notas de lançamento.
  • Tamanho do conjunto de dados: Unknown size

  • Instruções baixar o manual: Este conjunto de dados requer que você baixe os dados de origem manualmente para download_config.manual_dir (o padrão é ~/tensorflow_datasets/downloads/manual/ ):
    Algumas das configurações wmt aqui requerem um download manual. Consulte wmt.py para ver o caminho exato (e o nome do arquivo) que deve ser baixado.

  • Cache-Auto ( documentação ): Desconhecido

  • Figura ( tfds.show_examples ): Não suportado.

  • citação:

@InProceedings{bojar-EtAl:2017:WMT1,
  author    = {Bojar, Ond
{r}ej  and  Chatterjee, Rajen  and  Federmann, Christian  and  Graham, Yvette  and  Haddow, Barry  and  Huang, Shujian  and  Huck, Matthias  and  Koehn, Philipp  and  Liu, Qun  and  Logacheva, Varvara  and  Monz, Christof  and  Negri, Matteo  and  Post, Matt  and  Rubino, Raphael  and  Specia, Lucia  and  Turchi, Marco},
  title     = {Findings of the 2017 Conference on Machine Translation (WMT17)},
  booktitle = {Proceedings of the Second Conference on Machine Translation, Volume 2: Shared Task Papers},
  month     = {September},
  year      = {2017},
  address   = {Copenhagen, Denmark},
  publisher = {Association for Computational Linguistics},
  pages     = {169--214},
  url       = {http://www.aclweb.org/anthology/W17-4717}
}

wmt17_translate / cs-en (configuração padrão)

  • A inscrição Config: WMT 2017 cs-en conjunto de dados tarefa de tradução.

  • Tamanho do download: 1.66 GiB

  • desdobramentos:

Dividir Exemplos
'test' 3.005
'train' 15.851.649
'validation' 2.999
  • Características:
Translation({
    'cs': Text(shape=(), dtype=tf.string),
    'en': Text(shape=(), dtype=tf.string),
})

wmt17_translate / de-en

  • A inscrição Config: WMT 2.017 de-en conjunto de dados tarefa de tradução.

  • Tamanho do download: 1.81 GiB

  • desdobramentos:

Dividir Exemplos
'test' 3.004
'train' 5.906.184
'validation' 2.999
  • Características:
Translation({
    'de': Text(shape=(), dtype=tf.string),
    'en': Text(shape=(), dtype=tf.string),
})

wmt17_translate / fi-en

  • A inscrição Config: WMT 2017 fi-en tradução tarefa conjunto de dados.

  • Tamanho do download: 414.10 MiB

  • desdobramentos:

Dividir Exemplos
'test' 6.004
'train' 2.656.542
'validation' 6.000
  • Características:
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'fi': Text(shape=(), dtype=tf.string),
})

wmt17_translate / lv-en

  • A inscrição Config: WMT 2017 lv-en tradução tarefa conjunto de dados.

  • Tamanho do download: 161.69 MiB

  • desdobramentos:

Dividir Exemplos
'test' 2.001
'train' 3.567.528
'validation' 2.003
  • Características:
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'lv': Text(shape=(), dtype=tf.string),
})

wmt17_translate / ru-en

  • A inscrição Config: WMT 2017 ru-en conjunto de dados tarefa de tradução.

  • Tamanho do download: 3.34 GiB

  • desdobramentos:

Dividir Exemplos
'test' 3.001
'train' 25.782.720
'validation' 2.998
  • Características:
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'ru': Text(shape=(), dtype=tf.string),
})

wmt17_translate / tr-en

  • A inscrição Config: WMT 2017 tr-en tradução tarefa conjunto de dados.

  • Tamanho do download: 59.32 MiB

  • desdobramentos:

Dividir Exemplos
'test' 3.007
'train' 205.756
'validation' 3.000
  • Características:
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'tr': Text(shape=(), dtype=tf.string),
})

wmt17_translate / zh-en

  • A inscrição Config: WMT 2017 zh-en tradução tarefa conjunto de dados.

  • Tamanho do download: 2.16 GiB

  • desdobramentos:

Dividir Exemplos
'test' 2.001
'train' 25.136.609
'validation' 2.002
  • Características:
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'zh': Text(shape=(), dtype=tf.string),
})