- תיאור :
OPUS הוא אוסף של טקסטים מתורגמים מהרשת.
צור תצורה משלך כדי לבחור איזה צמד נתונים/שפות לטעון.
config = tfds.translate.opus.OpusConfig(
version=tfds.core.Version('0.1.0'),
language_pair=("de", "en"),
subsets=["GNOME", "EMEA"]
)
builder = tfds.builder("opus", config=config)
תיעוד נוסף : חקור על ניירות עם קוד
דף הבית : http://opus.nlpl.eu/
קוד מקור :
tfds.datasets.opus.Builder
גרסאות :
-
0.1.0
(ברירת מחדל): אין הערות שחרור.
-
מבנה תכונה :
Translation({
'de': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
תִרגוּם | ||||
דה | טֶקסט | חוּט | ||
he | טֶקסט | חוּט |
מפתחות בפיקוח (ראה
as_supervised
doc ):('de', 'en')
איור ( tfds.show_examples ): לא נתמך.
ציטוט :
@inproceedings{Tiedemann2012ParallelData,
author = {Tiedemann, J},
title = {Parallel Data, Tools and Interfaces in OPUS},
booktitle = {LREC}
year = {2012} }
אופוס/רפואה (תצורת ברירת מחדל)
תיאור תצורה : מסמכים רפואיים
גודל הורדה :
34.29 MiB
גודל ערכת נתונים:
188.85 MiB
שמור אוטומטי במטמון ( תיעוד ): רק כאשר
shuffle_files=False
(רכבת)פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 1,108,752 |
- דוגמאות ( tfds.as_dataframe ):
אופוס/חוק
תיאור תצורה : מסמכי חוק
גודל הורדה :
46.99 MiB
גודל ערכת נתונים:
214.44 MiB
שמור אוטומטי במטמון ( תיעוד ): רק כאשר
shuffle_files=False
(רכבת)פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 719,372 |
- דוגמאות ( tfds.as_dataframe ):
אופוס/קוראן
תיאור תצורה : מסמכי קוראן
גודל הורדה :
35.42 MiB
גודל ערכת נתונים:
117.54 MiB
שמור אוטומטי במטמון ( תיעוד ): כן
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 537,128 |
- דוגמאות ( tfds.as_dataframe ):
אופוס/IT
תיאור תצורה : מסמכי IT
גודל הורדה :
10.33 MiB
גודל ערכת נתונים:
42.51 MiB
שמור אוטומטי במטמון ( תיעוד ): כן
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 347,817 |
- דוגמאות ( tfds.as_dataframe ):
אופוס/כתוביות
תיאור תצורה : מסמכי כתוביות
גודל הורדה :
677.64 MiB
גודל מערך נתונים :
2.01 GiB
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 22,512,639 |
- דוגמאות ( tfds.as_dataframe ):