başyapıt

  • Açıklama :

OPUS, web'den çevrilmiş metinlerin bir koleksiyonudur.

Hangi veri / dil çiftinin yükleneceğini seçmek için kendi yapılandırmanızı oluşturun.

config = tfds.translate.opus.OpusConfig(
    version=tfds.core.Version('0.1.0'),
    language_pair=("de", "en"),
    subsets=["GNOME", "EMEA"]
)
builder = tfds.builder("opus", config=config)
Translation({
    'de': Text(shape=(), dtype=tf.string),
    'en': Text(shape=(), dtype=tf.string),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
Tercüme
de Metin tf.string
tr Metin tf.string
@inproceedings{Tiedemann2012ParallelData,
  author = {Tiedemann, J},
  title = {Parallel Data, Tools and Interfaces in OPUS},
  booktitle = {LREC}
  year = {2012} }

opus/medikal (varsayılan yapılandırma)

  • Yapılandırma açıklaması : tıbbi belgeler

  • İndirme boyutu : 34.29 MiB

  • Veri kümesi boyutu : 188.85 MiB

  • Otomatik önbelleğe alınmış ( belgeler ): Yalnızca shuffle_files=False (tren) olduğunda

  • Bölmeler :

Bölmek Örnekler
'train' 1.108.752

eser/hukuk

  • Yapılandırma açıklaması : yasa belgeleri

  • İndirme boyutu : 46.99 MiB

  • Veri kümesi boyutu : 214.44 MiB

  • Otomatik önbelleğe alınmış ( belgeler ): Yalnızca shuffle_files=False (tren) olduğunda

  • Bölmeler :

Bölmek Örnekler
'train' 719.372

opus/kuran

  • Yapılandırma açıklaması : kuran belgeleri

  • İndirme boyutu : 35.42 MiB

  • Veri kümesi boyutu : 117.54 MiB

  • Otomatik önbelleğe alınmış ( belgeler ): Evet

  • Bölmeler :

Bölmek Örnekler
'train' 537.128

opus/BT

  • Yapılandırma açıklaması : BT belgeleri

  • İndirme boyutu : 10.33 MiB

  • Veri kümesi boyutu : 42.51 MiB

  • Otomatik önbelleğe alınmış ( belgeler ): Evet

  • Bölmeler :

Bölmek Örnekler
'train' 347.817

opus/altyazı

  • Yapılandırma açıklaması : altyazı belgeleri

  • İndirme boyutu : 677.64 MiB

  • Veri kümesi boyutu : 2.01 GiB

  • Otomatik önbelleğe alınmış ( belgeler ): Hayır

  • Bölmeler :

Bölmek Örnekler
'train' 22.512.639