אוֹפּוּס

  • תיאור :

OPUS הוא אוסף של טקסטים מתורגמים מהרשת.

צור תצורה משלך כדי לבחור איזה צמד נתונים/שפות לטעון.

config = tfds.translate.opus.OpusConfig(
    version=tfds.core.Version('0.1.0'),
    language_pair=("de", "en"),
    subsets=["GNOME", "EMEA"]
)
builder = tfds.builder("opus", config=config)
Translation({
    'de': Text(shape=(), dtype=tf.string),
    'en': Text(shape=(), dtype=tf.string),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
תִרגוּם
דה טֶקסט tf.string
he טֶקסט tf.string
@inproceedings{Tiedemann2012ParallelData,
  author = {Tiedemann, J},
  title = {Parallel Data, Tools and Interfaces in OPUS},
  booktitle = {LREC}
  year = {2012} }

אופוס/רפואי (תצורת ברירת מחדל)

  • תיאור תצורה : מסמכים רפואיים

  • גודל הורדה : 34.29 MiB

  • גודל ערכת נתונים: 188.85 MiB

  • שמור אוטומטי במטמון ( תיעוד ): רק כאשר shuffle_files=False (רכבת)

  • פיצולים :

לְפַצֵל דוגמאות
'train' 1,108,752

אופוס/חוק

  • תיאור תצורה : מסמכי חוק

  • גודל הורדה : 46.99 MiB

  • גודל מערך נתונים : 214.44 MiB

  • שמור אוטומטי במטמון ( תיעוד ): רק כאשר shuffle_files=False (רכבת)

  • פיצולים :

לְפַצֵל דוגמאות
'train' 719,372

אופוס/קוראן

  • תיאור תצורה : מסמכי קוראן

  • גודל הורדה : 35.42 MiB

  • גודל ערכת נתונים: 117.54 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'train' 537,128

אופוס/IT

  • תיאור תצורה : מסמכי IT

  • גודל הורדה : 10.33 MiB

  • גודל ערכת נתונים: 42.51 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'train' 347,817

אופוס/כתוביות

  • תיאור תצורה : מסמכי כתוביות

  • גודל הורדה : 677.64 MiB

  • גודל מערך נתונים : 2.01 GiB

  • שמור אוטומטי במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'train' 22,512,639