wmt18_translate

 • opis :

Przetłumacz zestaw danych na podstawie danych z statmt.org.

Wersje istnieją dla różnych lat przy użyciu kombinacji wielu źródeł danych. Podstawowy wmt_translate umożliwia utworzenie własnej konfiguracji w celu wybrania własnej pary danych/języka poprzez utworzenie niestandardowego tfds.translate.wmt.WmtConfig .

config = tfds.translate.wmt.WmtConfig(
  version="0.0.1",
  language_pair=("fr", "de"),
  subsets={
    tfds.Split.TRAIN: ["commoncrawl_frde"],
    tfds.Split.VALIDATION: ["euelections_dev2019"],
  },
)
builder = tfds.builder("wmt_translate", config=config)
@InProceedings{bojar-EtAl:2018:WMT1,
 author  = {Bojar, Ond
{r}ej and Federmann, Christian and Fishel, Mark
  and Graham, Yvette and Haddow, Barry and Huck, Matthias and
  Koehn, Philipp and Monz, Christof},
 title   = {Findings of the 2018 Conference on Machine Translation (WMT18)},
 booktitle = {Proceedings of the Third Conference on Machine Translation,
  Volume 2: Shared Task Papers},
 month   = {October},
 year   = {2018},
 address  = {Belgium, Brussels},
 publisher = {Association for Computational Linguistics},
 pages   = {272--307},
 url    = {http://www.aclweb.org/anthology/W18-6401}
}

wmt18_translate/cs-en (domyślna konfiguracja)

 • Opis konfiguracji: zestaw danych zadania tłumaczenia WMT 2018 cs-en.

 • Rozmiar pliku do pobrania : 1.89 GiB

 • Rozmiar zestawu danych : 3.84 GiB

 • Automatyczne buforowanie ( dokumentacja ): Nie

 • Podziały :

Rozdzielać Przykłady
'test' 2983
'train' 24 021 877
'validation' 3005
 • Struktura funkcji :
Translation({
  'cs': Text(shape=(), dtype=string),
  'en': Text(shape=(), dtype=string),
})
 • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
Tłumaczenie
cs Tekst strunowy
en Tekst strunowy

wmt18_translate/de-en

 • Opis konfiguracji: zestaw danych zadania tłumaczenia WMT 2018 de-en.

 • Rozmiar pliku do pobrania : 3.55 GiB

 • Rozmiar zestawu danych : 8.44 GiB

 • Automatyczne buforowanie ( dokumentacja ): Nie

 • Podziały :

Rozdzielać Przykłady
'test' 2998
'train' 42 271 874
'validation' 3004
 • Struktura funkcji :
Translation({
  'de': Text(shape=(), dtype=string),
  'en': Text(shape=(), dtype=string),
})
 • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
Tłumaczenie
de Tekst strunowy
en Tekst strunowy

wmt18_translate/et-en

 • Opis konfiguracji: zestaw danych zadań tłumaczeniowych WMT 2018 et-en.

 • Rozmiar pliku do pobrania : 499.91 MiB

 • Rozmiar zestawu danych : 663.80 MiB

 • Automatyczne buforowanie ( dokumentacja ): Nie

 • Podziały :

Rozdzielać Przykłady
'test' 2000
'train' 2175873
'validation' 2000
 • Struktura funkcji :
Translation({
  'en': Text(shape=(), dtype=string),
  'et': Text(shape=(), dtype=string),
})
 • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
Tłumaczenie
en Tekst strunowy
et Tekst strunowy

wmt18_translate/fi-en

 • Opis konfiguracji: zestaw danych zadania tłumaczenia WMT 2018 fi-en.

 • Rozmiar pliku do pobrania : 468.76 MiB

 • Rozmiar zbioru danych : 889.40 MiB

 • Automatyczne buforowanie ( dokumentacja ): Nie

 • Podziały :

Rozdzielać Przykłady
'test' 3000
'train' 3 280 600
'validation' 6004
 • Struktura funkcji :
Translation({
  'en': Text(shape=(), dtype=string),
  'fi': Text(shape=(), dtype=string),
})
 • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
Tłumaczenie
en Tekst strunowy
fi Tekst strunowy

wmt18_translate/ru-en

 • Opis konfiguracji: zestaw danych zadania tłumaczenia WMT 2018 ru-en.

 • Rozmiar pliku do pobrania : 1.63 GiB

 • Rozmiar zestawu danych : 13.89 GiB

 • Automatyczne buforowanie ( dokumentacja ): Nie

 • Podziały :

Rozdzielać Przykłady
'test' 3000
'train' 37 858 512
'validation' 3001
 • Struktura funkcji :
Translation({
  'en': Text(shape=(), dtype=string),
  'ru': Text(shape=(), dtype=string),
})
 • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
Tłumaczenie
en Tekst strunowy
ru Tekst strunowy

wmt18_translate/tr-en

 • Opis konfiguracji: zestaw danych zadania tłumaczenia WMT 2018 tr-en.

 • Rozmiar pliku do pobrania : 59.32 MiB

 • Rozmiar zestawu danych : 63.78 MiB

 • Automatyczne buforowanie ( dokumentacja ): Tak

 • Podziały :

Rozdzielać Przykłady
'test' 3000
'train' 205756
'validation' 3007
 • Struktura funkcji :
Translation({
  'en': Text(shape=(), dtype=string),
  'tr': Text(shape=(), dtype=string),
})
 • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
Tłumaczenie
en Tekst strunowy
tr Tekst strunowy

wmt18_translate/zh-en

 • Opis konfiguracji: zestaw danych zadania tłumaczenia WMT 2018 zh-en.

 • Rozmiar pliku do pobrania : 831.45 MiB

 • Rozmiar zestawu danych : 6.43 GiB

 • Automatyczne buforowanie ( dokumentacja ): Nie

 • Podziały :

Rozdzielać Przykłady
'test' 3981
'train' 25162209
'validation' 2001
 • Struktura funkcji :
Translation({
  'en': Text(shape=(), dtype=string),
  'zh': Text(shape=(), dtype=string),
})
 • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
Tłumaczenie
en Tekst strunowy
zh Tekst strunowy