- Deskripsi :
Terjemahkan dataset berdasarkan data dari statmt.org.
Versi tersedia untuk tahun yang berbeda menggunakan kombinasi dari beberapa sumber data. Basis wmt_translate
memungkinkan Anda membuat konfigurasi sendiri untuk memilih pasangan data / bahasa Anda sendiri dengan membuat tfds.translate.wmt.WmtConfig
kustom.
config = tfds.translate.wmt.WmtConfig(
version="0.0.1",
language_pair=("fr", "de"),
subsets={
tfds.Split.TRAIN: ["commoncrawl_frde"],
tfds.Split.VALIDATION: ["euelections_dev2019"],
},
)
builder = tfds.builder("wmt_translate", config=config)
Situs web : http://www.statmt.org/wmt16/translation-task.html
Kode sumber :
tfds.translate.Wmt16Translate
Versi :
-
1.0.0
(default): Tidak ada catatan rilis.
-
Ukuran kumpulan data :
Unknown size
Petunjuk pengunduhan manual : Dataset ini mengharuskan Anda untuk mengunduh data sumber secara manual ke dalam
download_config.manual_dir
(defaultnya~/tensorflow_datasets/downloads/manual/
):
Beberapa konfigurasi wmt di sini, memerlukan unduhan manual. Silakan lihat ke wmt.py untuk melihat jalur yang tepat (dan nama file) yang harus diunduh.Cache otomatis ( dokumentasi ): Tidak diketahui
Kutipan :
@InProceedings{bojar-EtAl:2016:WMT1,
author = {Bojar, Ond
{r}ej and Chatterjee, Rajen and Federmann, Christian and Graham, Yvette and Haddow, Barry and Huck, Matthias and Jimeno Yepes, Antonio and Koehn, Philipp and Logacheva, Varvara and Monz, Christof and Negri, Matteo and Neveol, Aurelie and Neves, Mariana and Popel, Martin and Post, Matt and Rubino, Raphael and Scarton, Carolina and Specia, Lucia and Turchi, Marco and Verspoor, Karin and Zampieri, Marcos},
title = {Findings of the 2016 Conference on Machine Translation},
booktitle = {Proceedings of the First Conference on Machine Translation},
month = {August},
year = {2016},
address = {Berlin, Germany},
publisher = {Association for Computational Linguistics},
pages = {131--198},
url = {http://www.aclweb.org/anthology/W/W16/W16-2301}
}
- Gambar ( tfds.show_examples ): Tidak didukung.
wmt16_translate / cs-en (konfigurasi default)
Deskripsi konfigurasi : Dataset tugas terjemahan WMT 2016 cs-en.
Ukuran unduhan :
1.57 GiB
Split :
Membagi | Contoh |
---|---|
'test' | 2.999 |
'train' | 52.335.651 |
'validation' | 2.656 |
- Fitur :
Translation({
'cs': Text(shape=(), dtype=tf.string),
'en': Text(shape=(), dtype=tf.string),
})
Kunci yang diawasi (Lihat
as_supervised
doc ):('cs', 'en')
Contoh ( tfds.as_dataframe ):
wmt16_translate / de-en
Deskripsi konfigurasi : Dataset tugas terjemahan de-en WMT 2016.
Ukuran unduhan :
1.57 GiB
Split :
Membagi | Contoh |
---|---|
'test' | 2.999 |
'train' | 4.548.885 |
'validation' | 2.169 |
- Fitur :
Translation({
'de': Text(shape=(), dtype=tf.string),
'en': Text(shape=(), dtype=tf.string),
})
Kunci yang diawasi (Lihat
as_supervised
doc ):('de', 'en')
Contoh ( tfds.as_dataframe ):
wmt16_translate / fi-en
Deskripsi konfigurasi : Dataset tugas terjemahan fi-en WMT 2016.
Ukuran unduhan :
260.51 MiB
Split :
Membagi | Contoh |
---|---|
'test' | 6.000 |
'train' | 2.073.394 |
'validation' | 1.370 |
- Fitur :
Translation({
'en': Text(shape=(), dtype=tf.string),
'fi': Text(shape=(), dtype=tf.string),
})
Kunci yang diawasi (Lihat
as_supervised
doc ):('fi', 'en')
Contoh ( tfds.as_dataframe ):
wmt16_translate / ro-en
Deskripsi konfigurasi : Dataset tugas terjemahan ro-en WMT 2016.
Ukuran unduhan :
273.83 MiB
Split :
Membagi | Contoh |
---|---|
'test' | 1.999 |
'train' | 610.320 |
'validation' | 1.999 |
- Fitur :
Translation({
'en': Text(shape=(), dtype=tf.string),
'ro': Text(shape=(), dtype=tf.string),
})
Kunci yang diawasi (Lihat
as_supervised
doc ):('ro', 'en')
Contoh ( tfds.as_dataframe ):
wmt16_translate / ru-en
Deskripsi konfigurasi : Dataset tugas terjemahan WMT 2016 ru-en.
Ukuran unduhan :
993.38 MiB
Split :
Membagi | Contoh |
---|---|
'test' | 2.998 |
'train' | 2.516.162 |
'validation' | 2.818 |
- Fitur :
Translation({
'en': Text(shape=(), dtype=tf.string),
'ru': Text(shape=(), dtype=tf.string),
})
Kunci yang diawasi (Lihat
as_supervised
doc ):('ru', 'en')
Contoh ( tfds.as_dataframe ):
wmt16_translate / tr-en
Deskripsi konfigurasi : Dataset tugas terjemahan tr-en WMT 2016.
Ukuran unduhan :
59.32 MiB
Split :
Membagi | Contoh |
---|---|
'test' | 3.000 |
'train' | 205.756 |
'validation' | 1.001 |
- Fitur :
Translation({
'en': Text(shape=(), dtype=tf.string),
'tr': Text(shape=(), dtype=tf.string),
})
Kunci yang diawasi (Lihat
as_supervised
doc ):('tr', 'en')
Contoh ( tfds.as_dataframe ):