- توضیحات :
OPUS مجموعه متون ترجمه شده از وب است.
پیکربندی خود را برای انتخاب جفت داده / زبان برای بارگیری ایجاد کنید.
config = tfds.translate.opus.OpusConfig(
version=tfds.core.Version('0.1.0'),
language_pair=("de", "en"),
subsets=["GNOME", "EMEA"]
)
builder = tfds.builder("opus", config=config)
صفحه اصلی : http://opus.nlpl.eu/
کد منبع :
tfds.translate.Opus
نسخه ها :
-
0.1.0
(پیش فرض): بدون یادداشت انتشار.
-
ویژگی ها :
Translation({
'de': Text(shape=(), dtype=tf.string),
'en': Text(shape=(), dtype=tf.string),
})
کلیدهای تحت نظارت (به
as_supervised
سند نظارت شده مراجعه کنید):('de', 'en')
نقل قول :
@inproceedings{Tiedemann2012ParallelData,
author = {Tiedemann, J},
title = {Parallel Data, Tools and Interfaces in OPUS},
booktitle = {LREC}
year = {2012} }
- شکل ( tfds.show_examples ): پشتیبانی نمی شود.
opus / medical (پیکربندی پیش فرض)
شرح پیکربندی : اسناد پزشکی
اندازه بارگیری :
34.29 MiB
اندازه مجموعه داده :
188.85 MiB
ذخیره خودکار ( مستندات ): فقط وقتی
shuffle_files=False
(قطار)تقسیم :
شکاف | مثال ها |
---|---|
'train' | 1،108،752 |
- مثالها ( tfds.as_dataframe ):
اپوس / قانون
شرح پیکربندی : اسناد قانون
حجم دانلود :
46.99 MiB
اندازه مجموعه داده :
214.44 MiB
ذخیره خودکار ( مستندات ): فقط وقتی
shuffle_files=False
(قطار)تقسیم :
شکاف | مثال ها |
---|---|
'train' | 719،372 |
- مثالها ( tfds.as_dataframe ):
اپوس / قرآن
شرح پیکربندی : اسناد قرآن
حجم دانلود :
35.42 MiB
اندازه مجموعه داده :
117.54 MiB
ذخیره خودکار ( مستندات ): بله
تقسیم :
شکاف | مثال ها |
---|---|
'train' | 537،128 |
- مثالها ( tfds.as_dataframe ):
opus / IT
شرح پیکربندی : اسناد IT
اندازه بارگیری :
10.33 MiB
اندازه مجموعه داده :
42.51 MiB
ذخیره خودکار ( مستندات ): بله
تقسیم :
شکاف | مثال ها |
---|---|
'train' | 347 817 |
- مثالها ( tfds.as_dataframe ):
opus / زیرنویس
توضیحات پیکربندی : اسناد زیرنویس
حجم دانلود :
677.64 MiB
اندازه مجموعه داده :
2.01 GiB
ذخیره خودکار ( مستندات ): خیر
تقسیم :
شکاف | مثال ها |
---|---|
'train' | 22،512،639 |
- مثالها ( tfds.as_dataframe ):