wmt15_translate

  • opis :

Przetłumacz zestaw danych na podstawie danych z statmt.org.

Wersje istnieją dla różnych lat przy użyciu kombinacji wielu źródeł danych. Podstawowy wmt_translate umożliwia utworzenie własnej konfiguracji w celu wybrania własnej pary danych/języka poprzez utworzenie niestandardowego tfds.translate.wmt.WmtConfig .

config = tfds.translate.wmt.WmtConfig(
    version="0.0.1",
    language_pair=("fr", "de"),
    subsets={
        tfds.Split.TRAIN: ["commoncrawl_frde"],
        tfds.Split.VALIDATION: ["euelections_dev2019"],
    },
)
builder = tfds.builder("wmt_translate", config=config)
@InProceedings{bojar-EtAl:2015:WMT,
  author    = {Bojar, Ond
{r}ej  and  Chatterjee, Rajen  and  Federmann, Christian  and  Haddow, Barry  and  Huck, Matthias  and  Hokamp, Chris  and  Koehn, Philipp  and  Logacheva, Varvara  and  Monz, Christof  and  Negri, Matteo  and  Post, Matt  and  Scarton, Carolina  and  Specia, Lucia  and  Turchi, Marco},
  title     = {Findings of the 2015 Workshop on Statistical Machine Translation},
  booktitle = {Proceedings of the Tenth Workshop on Statistical Machine Translation},
  month     = {September},
  year      = {2015},
  address   = {Lisbon, Portugal},
  publisher = {Association for Computational Linguistics},
  pages     = {1--46},
  url       = {http://aclweb.org/anthology/W15-3001}
}

wmt15_translate/cs-en (domyślna konfiguracja)

  • Opis konfiguracji: zestaw danych zadania tłumaczenia WMT 2015 cs-en.

  • Rozmiar pliku do pobrania : 1.62 GiB

  • Rozmiar zestawu danych : 2.89 GiB

  • Podziały :

Rozdzielać Przykłady
'test' 2656
'train' 15 793 126
'validation' 3003
  • Struktura funkcji :
Translation({
    'cs': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
Tłumaczenie
cs Tekst strunowy
en Tekst strunowy

wmt15_translate/de-en

  • Opis konfiguracji: zestaw danych zadania tłumaczenia WMT 2015 de-en.

  • Rozmiar pliku do pobrania : 1.62 GiB

  • Rozmiar zestawu danych : 1.37 GiB

  • Podziały :

Rozdzielać Przykłady
'test' 2169
'train' 4 522 998
'validation' 3003
  • Struktura funkcji :
Translation({
    'de': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
Tłumaczenie
de Tekst strunowy
en Tekst strunowy

wmt15_translate/fi-en

  • Opis konfiguracji: zestaw danych zadania tłumaczenia WMT 2015 fi-en.

  • Rozmiar pliku do pobrania : 260.51 MiB

  • Rozmiar zestawu danych : 623.22 MiB

  • Podziały :

Rozdzielać Przykłady
'test' 1370
'train' 2 073 394
'validation' 1500
  • Struktura funkcji :
Translation({
    'en': Text(shape=(), dtype=string),
    'fi': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
Tłumaczenie
en Tekst strunowy
fi Tekst strunowy

wmt15_translate/fr-en

  • Opis konfiguracji: zestaw danych zadania tłumaczenia WMT 2015 fr-en.

  • Rozmiar pliku do pobrania : 6.24 GiB

  • Rozmiar zestawu danych : 14.65 GiB

  • Podziały :

Rozdzielać Przykłady
'test' 1500
'train' 40 853 298
'validation' 4503
  • Struktura funkcji :
Translation({
    'en': Text(shape=(), dtype=string),
    'fr': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
Tłumaczenie
en Tekst strunowy
fr Tekst strunowy

wmt15_translate/ru-en

  • Opis konfiguracji: zestaw danych zadania tłumaczenia WMT 2015 ru-en.

  • Rozmiar pliku do pobrania : 1.02 GiB

  • Rozmiar zbioru danych : 843.90 MiB

  • Podziały :

Rozdzielać Przykłady
'test' 2818
'train' 2 495 081
'validation' 3003
  • Struktura funkcji :
Translation({
    'en': Text(shape=(), dtype=string),
    'ru': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
Tłumaczenie
en Tekst strunowy
ru Tekst strunowy