اپوس

 • توضیحات :

OPUS مجموعه ای از متون ترجمه شده از وب است.

پیکربندی خود را ایجاد کنید تا انتخاب کنید کدام جفت داده / زبان بارگیری شود.

config = tfds.translate.opus.OpusConfig(
  version=tfds.core.Version('0.1.0'),
  language_pair=("de", "en"),
  subsets=["GNOME", "EMEA"]
)
builder = tfds.builder("opus", config=config)
Translation({
  'de': Text(shape=(), dtype=string),
  'en': Text(shape=(), dtype=string),
})
 • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
ترجمه
de متن رشته
en متن رشته
@inproceedings{Tiedemann2012ParallelData,
 author = {Tiedemann, J},
 title = {Parallel Data, Tools and Interfaces in OPUS},
 booktitle = {LREC}
 year = {2012} }

opus/medical (پیکربندی پیش فرض)

 • توضیحات پیکربندی : اسناد پزشکی

 • حجم دانلود : 34.29 MiB

 • حجم مجموعه داده : 188.85 MiB

 • ذخیره خودکار ( مستندات ): فقط زمانی که shuffle_files=False (قطار)

 • تقسیم ها :

شکاف مثال ها
'train' 1,108,752

اثر/قانون

 • توضیحات پیکربندی : اسناد قانونی

 • حجم دانلود : 46.99 MiB

 • حجم مجموعه داده : 214.44 MiB

 • ذخیره خودکار ( مستندات ): فقط زمانی که shuffle_files=False (قطار)

 • تقسیم ها :

شکاف مثال ها
'train' 719,372

opus/koran

 • توضیحات پیکربندی : اسناد قرآنی

 • حجم دانلود : 35.42 MiB

 • حجم مجموعه داده : 117.54 MiB

 • ذخیره خودکار ( اسناد ): بله

 • تقسیم ها :

شکاف مثال ها
'train' 537,128

opus/IT

 • توضیحات پیکربندی : اسناد IT

 • حجم دانلود : 10.33 MiB

 • حجم مجموعه داده : 42.51 MiB

 • ذخیره خودکار ( اسناد ): بله

 • تقسیم ها :

شکاف مثال ها
'train' 347,817

اپوس/زیرنویس

 • توضیحات پیکربندی : اسناد زیرنویس

 • حجم دانلود : 677.64 MiB

 • حجم مجموعه داده : 2.01 GiB

 • ذخیره خودکار ( اسناد ): خیر

 • تقسیم ها :

شکاف مثال ها
'train' 22,512,639