opus

  • opis :

OPUS to zbiór przetłumaczonych tekstów z sieci.

Utwórz własną konfigurację, aby wybrać parę danych / języka do załadowania.

config = tfds.translate.opus.OpusConfig(
    version=tfds.core.Version('0.1.0'),
    language_pair=("de", "en"),
    subsets=["GNOME", "EMEA"]
)
builder = tfds.builder("opus", config=config)
Translation({
    'de': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
Tłumaczenie
de Tekst strunowy
en Tekst strunowy
@inproceedings{Tiedemann2012ParallelData,
  author = {Tiedemann, J},
  title = {Parallel Data, Tools and Interfaces in OPUS},
  booktitle = {LREC}
  year = {2012} }

opus/medical (domyślna konfiguracja)

  • Opis konfiguracji : dokumenty medyczne

  • Rozmiar pliku do pobrania : 34.29 MiB

  • Rozmiar zestawu danych : 188.85 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tylko wtedy, gdy shuffle_files=False (pociąg)

  • Podziały :

Rozdzielać Przykłady
'train' 1 108 752

opus/prawo

  • Opis konfiguracji : dokumenty prawne

  • Rozmiar pliku do pobrania : 46.99 MiB

  • Rozmiar zestawu danych : 214.44 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tylko wtedy, gdy shuffle_files=False (pociąg)

  • Podziały :

Rozdzielać Przykłady
'train' 719372

opus/koran

  • Opis konfiguracji: dokumenty Koranu

  • Rozmiar pliku do pobrania : 35.42 MiB

  • Rozmiar zestawu danych : 117.54 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'train' 537128

opus/IT

  • Opis konfiguracji : Dokumenty IT

  • Rozmiar pliku do pobrania : 10.33 MiB

  • Rozmiar zestawu danych : 42.51 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'train' 347 817

opus/napisy

  • Opis konfiguracji : napisy do dokumentów

  • Rozmiar pliku do pobrania : 677.64 MiB

  • Rozmiar zestawu danych : 2.01 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Rozdzielać Przykłady
'train' 22.512.639