tatoeba

  • תיאור :

נתונים אלו מופקים מקורפוס Tatoeba, מיום שבת 2018/11/17.

עבור כל שפה, בחרנו 1000 משפטים באנגלית והתרגומים שלהם, אם זמינים. אנא עיין במאמר זה לקבלת תיאור של השפות, המשפחות והסקריפטים שלהן וכן תוצאות בסיס.

שימו לב שהמשפטים באנגלית אינם זהים עבור כל צמדי השפות. המשמעות היא שהתוצאות אינן ניתנות להשוואה ישירה בין השפות.

FeaturesDict({
    'source_language': Text(shape=(), dtype=string),
    'source_sentence': Text(shape=(), dtype=string),
    'target_language': Text(shape=(), dtype=string),
    'target_sentence': Text(shape=(), dtype=string),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
שפת מקור טֶקסט חוּט
מקור_משפט טֶקסט חוּט
target_language טֶקסט חוּט
משפט_מטרה טֶקסט חוּט
@article{tatoeba,
          title={Massively Multilingual Sentence Embeddings for Zero-Shot
                   Cross-Lingual Transfer and Beyond},
          author={Mikel, Artetxe and Holger, Schwenk,},
          journal={arXiv:1812.10464v2},
          year={2018}
}

@InProceedings{TIEDEMANN12.463,
  author = {J{\"o}rg}rg Tiedemann},
  title = {Parallel Data, Tools and Interfaces in OPUS},
  booktitle = {Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC'12)},
  year = {2012},
  month = {may},
  date = {23-25},
  address = {Istanbul, Turkey},
  editor = {Nicoletta Calzolari (Conference Chair) and Khalid Choukri and Thierry Declerck and Mehmet Ugur Dogan and Bente Maegaard and Joseph Mariani and Jan Odijk and Stelios Piperidis},
  publisher = {European Language Resources Association (ELRA)},
  isbn = {978-2-9517408-7-7},
  language = {english}
}

tatoeba/tatoeba_af (תצורת ברירת המחדל)

  • גודל הורדה : 58.24 KiB

  • גודל מערך נתונים : 162.74 KiB

  • פיצולים :

לְפַצֵל דוגמאות
'train' 1,000

tatoeba/tatoeba_ar

  • גודל הורדה : 70.95 KiB

  • גודל מערך נתונים : 175.46 KiB

  • פיצולים :

לְפַצֵל דוגמאות
'train' 1,000

tatoeba/tatoeba_bg

  • גודל הורדה : 99.88 KiB

  • גודל מערך נתונים : 204.64 KiB

  • פיצולים :

לְפַצֵל דוגמאות
'train' 1,000

tatoeba/tatoeba_bn

  • גודל הורדה : 89.55 KiB

  • גודל מערך נתונים : 194.24 KiB

  • פיצולים :

לְפַצֵל דוגמאות
'train' 1,000

tatoeba/tatoeba_de

  • גודל הורדה : 103.09 KiB

  • גודל מערך נתונים : 207.93 KiB

  • פיצולים :

לְפַצֵל דוגמאות
'train' 1,000

tatoeba/tatoeba_el

  • גודל הורדה : 77.11 KiB

  • גודל ערכת נתונים: 181.65 KiB

  • פיצולים :

לְפַצֵל דוגמאות
'train' 1,000

tatoeba/tatoeba_es

  • גודל הורדה : 70.57 KiB

  • גודל מערך נתונים : 175.12 KiB

  • פיצולים :

לְפַצֵל דוגמאות
'train' 1,000

tatoeba/tatoeba_et

  • גודל הורדה : 58.33 KiB

  • גודל מערך נתונים : 162.85 KiB

  • פיצולים :

לְפַצֵל דוגמאות
'train' 1,000

tatoeba/tatoeba_eu

  • גודל הורדה : 64.52 KiB

  • גודל מערך נתונים : 169.02 KiB

  • פיצולים :

לְפַצֵל דוגמאות
'train' 1,000

tatoeba/tatoeba_fa

  • גודל הורדה : 91.52 KiB

  • גודל מערך נתונים : 196.15 KiB

  • פיצולים :

לְפַצֵל דוגמאות
'train' 1,000

tatoeba/tatoeba_fi

  • גודל הורדה : 73.90 KiB

  • גודל מערך נתונים : 178.47 KiB

  • פיצולים :

לְפַצֵל דוגמאות
'train' 1,000

tatoeba/tatoeba_fr

  • גודל הורדה : 78.14 KiB

  • גודל מערך נתונים : 182.68 KiB

  • פיצולים :

לְפַצֵל דוגמאות
'train' 1,000

tatoeba/tatoeba_he

  • גודל הורדה : 81.54 KiB

  • גודל מערך נתונים : 186.15 KiB

  • פיצולים :

לְפַצֵל דוגמאות
'train' 1,000

tatoeba/tatoeba_hi

  • גודל הורדה : 119.69 KiB

  • גודל מערך נתונים : 224.89 KiB

  • פיצולים :

לְפַצֵל דוגמאות
'train' 1,000

tatoeba/tatoeba_hu

  • גודל הורדה : 67.27 KiB

  • גודל מערך נתונים : 171.78 KiB

  • פיצולים :

לְפַצֵל דוגמאות
'train' 1,000

tatoeba/tatoeba_id

  • גודל הורדה : 73.09 KiB

  • גודל מערך נתונים : 177.61 KiB

  • פיצולים :

לְפַצֵל דוגמאות
'train' 1,000

tatoeba/tatoeba_it

  • גודל הורדה : 64.29 KiB

  • גודל מערך נתונים : 168.81 KiB

  • פיצולים :

לְפַצֵל דוגמאות
'train' 1,000

tatoeba/tatoeba_ja

  • גודל הורדה : 90.90 KiB

  • גודל מערך נתונים : 195.53 KiB

  • פיצולים :

לְפַצֵל דוגמאות
'train' 1,000

tatoeba/tatoeba_jv

  • גודל הורדה : 13.59 KiB

  • גודל מערך נתונים : 35.01 KiB

  • פיצולים :

לְפַצֵל דוגמאות
'train' 205

tatoeba/tatoeba_ka

  • גודל הורדה : 70.47 KiB

  • גודל מערך נתונים : 148.67 KiB

  • פיצולים :

לְפַצֵל דוגמאות
'train' 746

tatoeba/tatoeba_kk

  • גודל הורדה : 46.07 KiB

  • גודל מערך נתונים : 106.25 KiB

  • פיצולים :

לְפַצֵל דוגמאות
'train' 575

tatoeba/tatoeba_ko

  • גודל הורדה : 77.28 KiB

  • גודל מערך נתונים : 181.88 KiB

  • פיצולים :

לְפַצֵל דוגמאות
'train' 1,000

tatoeba/tatoeba_ml

  • גודל הורדה : 92.50 KiB

  • גודל מערך נתונים : 165.14 KiB

  • פיצולים :

לְפַצֵל דוגמאות
'train' 687

tatoeba/tatoeba_mr

  • גודל הורדה : 98.19 KiB

  • גודל מערך נתונים : 202.96 KiB

  • פיצולים :

לְפַצֵל דוגמאות
'train' 1,000

tatoeba/tatoeba_nl

  • גודל הורדה : 71.55 KiB

  • גודל מערך נתונים : 176.10 KiB

  • פיצולים :

לְפַצֵל דוגמאות
'train' 1,000

tatoeba/tatoeba_pt

  • גודל הורדה : 73.42 KiB

  • גודל מערך נתונים : 177.95 KiB

  • פיצולים :

לְפַצֵל דוגמאות
'train' 1,000

tatoeba/tatoeba_ru

  • גודל הורדה : 90.30 KiB

  • גודל מערך נתונים : 194.92 KiB

  • פיצולים :

לְפַצֵל דוגמאות
'train' 1,000

tatoeba/tatoeba_sw

  • גודל הורדה : 19.99 KiB

  • גודל מערך נתונים : 60.75 KiB

  • פיצולים :

לְפַצֵל דוגמאות
'train' 390

tatoeba/tatoeba_ta

  • גודל הורדה : 38.52 KiB

  • גודל מערך נתונים : 70.93 KiB

  • פיצולים :

לְפַצֵל דוגמאות
'train' 307

tatoeba/tatoeba_te

  • גודל הורדה : 24.55 KiB

  • גודל מערך נתונים : 49.07 KiB

  • פיצולים :

לְפַצֵל דוגמאות
'train' 234

tatoeba/tatoeba_th

  • גודל הורדה : 61.72 KiB

  • גודל מערך נתונים : 119.32 KiB

  • פיצולים :

לְפַצֵל דוגמאות
'train' 548

tatoeba/tatoeba_tl

  • גודל הורדה : 66.54 KiB

  • גודל מערך נתונים : 171.04 KiB

  • פיצולים :

לְפַצֵל דוגמאות
'train' 1,000

tatoeba/tatoeba_tr

  • גודל הורדה : 70.20 KiB

  • גודל מערך נתונים : 174.70 KiB

  • פיצולים :

לְפַצֵל דוגמאות
'train' 1,000

tatoeba/tatoeba_ur

  • גודל הורדה : 86.63 KiB

  • גודל מערך נתונים : 191.20 KiB

  • פיצולים :

לְפַצֵל דוגמאות
'train' 1,000

tatoeba/tatoeba_vi

  • גודל הורדה : 89.26 KiB

  • גודל מערך נתונים : 193.89 KiB

  • פיצולים :

לְפַצֵל דוגמאות
'train' 1,000

tatoeba/tatoeba_zh

  • גודל הורדה : 67.32 KiB

  • גודל מערך נתונים : 171.85 KiB

  • פיצולים :

לְפַצֵל דוגמאות
'train' 1,000