- توضیحات :
مجموعه داده را بر اساس داده های statmt.org ترجمه کنید.
نسخه ها برای سالهای مختلف با استفاده از ترکیبی از چندین منبع داده وجود دارد. wmt_translate
پایه به شما این امکان را می دهد که با ایجاد یک tfds.translate.wmt.WmtConfig
سفارشی پیکربندی خود را برای انتخاب جفت داده / زبان خود ایجاد کنید.
config = tfds.translate.wmt.WmtConfig(
version="0.0.1",
language_pair=("fr", "de"),
subsets={
tfds.Split.TRAIN: ["commoncrawl_frde"],
tfds.Split.VALIDATION: ["euelections_dev2019"],
},
)
builder = tfds.builder("wmt_translate", config=config)
صفحه اصلی : http://www.statmt.org/wmt15/translation-task.html
کد منبع :
tfds.translate.Wmt15Translate
نسخه ها :
-
1.0.0
(پیش فرض): بدون یادداشت انتشار.
-
اندازه مجموعه داده :
Unknown size
دستورالعمل های بارگیری دستی : برای این مجموعه داده لازم است که داده های منبع را به صورت دستی در
download_config.manual_dir
(به طور پیش فرض~/tensorflow_datasets/downloads/manual/
):
برخی از تنظیمات wmt در اینجا ، نیاز به بارگیری دستی دارند. لطفاً به wmt.py مراجعه کنید تا مسیر دقیق (و نام پرونده) را که باید بارگیری شود ، ببینید.ذخیره خودکار ( مستندات ): ناشناخته است
نقل قول :
@InProceedings{bojar-EtAl:2015:WMT,
author = {Bojar, Ond
{r}ej and Chatterjee, Rajen and Federmann, Christian and Haddow, Barry and Huck, Matthias and Hokamp, Chris and Koehn, Philipp and Logacheva, Varvara and Monz, Christof and Negri, Matteo and Post, Matt and Scarton, Carolina and Specia, Lucia and Turchi, Marco},
title = {Findings of the 2015 Workshop on Statistical Machine Translation},
booktitle = {Proceedings of the Tenth Workshop on Statistical Machine Translation},
month = {September},
year = {2015},
address = {Lisbon, Portugal},
publisher = {Association for Computational Linguistics},
pages = {1--46},
url = {http://aclweb.org/anthology/W15-3001}
}
- شکل ( tfds.show_examples ): پشتیبانی نمی شود.
wmt15_translate / cs-en (پیکربندی پیش فرض)
شرح پیکربندی : مجموعه داده کار ترجمه WMT 2015 cs-en.
اندازه بارگیری :
1.62 GiB
تقسیم :
شکاف | مثال ها |
---|---|
'test' | 2،656 |
'train' | 15،793،126 |
'validation' | 3،003 |
- ویژگی ها :
Translation({
'cs': Text(shape=(), dtype=tf.string),
'en': Text(shape=(), dtype=tf.string),
})
کلیدهای تحت نظارت (به
as_supervised
سند نظارت شده مراجعه کنید):('cs', 'en')
مثالها ( tfds.as_dataframe ):
wmt15_translate / de-en
شرح پیکربندی : WMT 2015 مجموعه داده های کار ترجمه de-en.
اندازه بارگیری :
1.62 GiB
تقسیم :
شکاف | مثال ها |
---|---|
'test' | 2،169 |
'train' | 4،522،998 |
'validation' | 3،003 |
- ویژگی ها :
Translation({
'de': Text(shape=(), dtype=tf.string),
'en': Text(shape=(), dtype=tf.string),
})
کلیدهای تحت نظارت (به
as_supervised
سند نظارت شده مراجعه کنید):('de', 'en')
مثالها ( tfds.as_dataframe ):
wmt15_translate / fi-en
شرح پیکربندی : WMT 2015 مجموعه داده های کار ترجمه fi-en.
اندازه
260.51 MiB
:260.51 MiB
تقسیم :
شکاف | مثال ها |
---|---|
'test' | 1،370 |
'train' | 2،073،394 |
'validation' | 1500 |
- ویژگی ها :
Translation({
'en': Text(shape=(), dtype=tf.string),
'fi': Text(shape=(), dtype=tf.string),
})
کلیدهای تحت نظارت (به
as_supervised
سند نظارت شده مراجعه کنید):('fi', 'en')
مثالها ( tfds.as_dataframe ):
wmt15_translate / fr-en
شرح پیکربندی : WMT 2015 fr-en مجموعه داده های کار ترجمه.
اندازه بارگیری :
6.24 GiB
تقسیم :
شکاف | مثال ها |
---|---|
'test' | 1500 |
'train' | 40،853،298 |
'validation' | 4،503 |
- ویژگی ها :
Translation({
'en': Text(shape=(), dtype=tf.string),
'fr': Text(shape=(), dtype=tf.string),
})
کلیدهای تحت نظارت (به
as_supervised
سند نظارت شده مراجعه کنید):('fr', 'en')
مثالها ( tfds.as_dataframe ):
wmt15_translate / ru-en
شرح پیکربندی : WMT 2015 ru-en مجموعه داده های کار ترجمه.
اندازه بارگیری :
1.02 GiB
تقسیم :
شکاف | مثال ها |
---|---|
'test' | 2818 |
'train' | 2،495،081 |
'validation' | 3،003 |
- ویژگی ها :
Translation({
'en': Text(shape=(), dtype=tf.string),
'ru': Text(shape=(), dtype=tf.string),
})
کلیدهای تحت نظارت (به
as_supervised
سند نظارت شده مراجعه کنید):('ru', 'en')
مثالها ( tfds.as_dataframe ):