wmt16_translate

  • opis :

Przetłumacz zestaw danych na podstawie danych z statmt.org.

Wersje istnieją dla różnych lat przy użyciu kombinacji wielu źródeł danych. Podstawowy wmt_translate umożliwia utworzenie własnej konfiguracji w celu wybrania własnej pary danych/języka poprzez utworzenie niestandardowego tfds.translate.wmt.WmtConfig .

config = tfds.translate.wmt.WmtConfig(
    version="0.0.1",
    language_pair=("fr", "de"),
    subsets={
        tfds.Split.TRAIN: ["commoncrawl_frde"],
        tfds.Split.VALIDATION: ["euelections_dev2019"],
    },
)
builder = tfds.builder("wmt_translate", config=config)
@InProceedings{bojar-EtAl:2016:WMT1,
  author    = {Bojar, Ond
{r}ej  and  Chatterjee, Rajen  and  Federmann, Christian  and  Graham, Yvette  and  Haddow, Barry  and  Huck, Matthias  and  Jimeno Yepes, Antonio  and  Koehn, Philipp  and  Logacheva, Varvara  and  Monz, Christof  and  Negri, Matteo  and  Neveol, Aurelie  and  Neves, Mariana  and  Popel, Martin  and  Post, Matt  and  Rubino, Raphael  and  Scarton, Carolina  and  Specia, Lucia  and  Turchi, Marco  and  Verspoor, Karin  and  Zampieri, Marcos},
  title     = {Findings of the 2016 Conference on Machine Translation},
  booktitle = {Proceedings of the First Conference on Machine Translation},
  month     = {August},
  year      = {2016},
  address   = {Berlin, Germany},
  publisher = {Association for Computational Linguistics},
  pages     = {131--198},
  url       = {http://www.aclweb.org/anthology/W/W16/W16-2301}
}

wmt16_translate/cs-en (domyślna konfiguracja)

  • Opis konfiguracji: zestaw danych zadania tłumaczenia WMT 2016 cs-en.

  • Rozmiar pliku do pobrania : 1.57 GiB

  • Rozmiar zestawu danych : 7.56 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Rozdzielać Przykłady
'test' 2999
'train' 52 335 651
'validation' 2656
  • Struktura funkcji :
Translation({
    'cs': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
Tłumaczenie
cs Tekst strunowy
en Tekst strunowy

wmt16_translate/de-en

  • Opis konfiguracji: zestaw danych zadania tłumaczenia WMT 2016 de-en.

  • Rozmiar pliku do pobrania : 1.57 GiB

  • Rozmiar zestawu danych : 1.38 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Rozdzielać Przykłady
'test' 2999
'train' 4548885
'validation' 2169
  • Struktura funkcji :
Translation({
    'de': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
Tłumaczenie
de Tekst strunowy
en Tekst strunowy

wmt16_translate/fi-pl

  • Opis konfiguracji: zestaw danych zadania tłumaczenia WMT 2016 fi-en.

  • Rozmiar pliku do pobrania : 260.51 MiB

  • Rozmiar zbioru danych : 624.31 MiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Rozdzielać Przykłady
'test' 6000
'train' 2 073 394
'validation' 1370
  • Struktura funkcji :
Translation({
    'en': Text(shape=(), dtype=string),
    'fi': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
Tłumaczenie
en Tekst strunowy
fi Tekst strunowy

wmt16_translate/ro-en

  • Opis konfiguracji: zestaw danych zadania tłumaczenia WMT 2016 ro-en.

  • Rozmiar pliku do pobrania : 273.83 MiB

  • Rozmiar zestawu danych : 194.35 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak (test, walidacja), Tylko wtedy, gdy shuffle_files=False (pociąg)

  • Podziały :

Rozdzielać Przykłady
'test' 1999
'train' 610320
'validation' 1999
  • Struktura funkcji :
Translation({
    'en': Text(shape=(), dtype=string),
    'ro': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
Tłumaczenie
en Tekst strunowy
ro Tekst strunowy

wmt16_translate/ru-en

  • Opis konfiguracji: zestaw danych zadania tłumaczenia WMT 2016 ru-en.

  • Rozmiar pliku do pobrania : 993.38 MiB

  • Rozmiar zbioru danych : 854.44 MiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Rozdzielać Przykłady
'test' 2998
'train' 2516162
'validation' 2818
  • Struktura funkcji :
Translation({
    'en': Text(shape=(), dtype=string),
    'ru': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
Tłumaczenie
en Tekst strunowy
ru Tekst strunowy

wmt16_translate/tr-en

  • Opis konfiguracji: zestaw danych zadania tłumaczenia WMT 2016 tr-en.

  • Rozmiar pliku do pobrania : 59.32 MiB

  • Rozmiar zestawu danych : 63.21 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'test' 3000
'train' 205756
'validation' 1001
  • Struktura funkcji :
Translation({
    'en': Text(shape=(), dtype=string),
    'tr': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
Tłumaczenie
en Tekst strunowy
tr Tekst strunowy