- Açıklama :
Bu veri kümesi, tipolojik olarak farklı altı dilde 23.659 insan tarafından çevrilmiş PAWS değerlendirme çifti ve 296.406 makine tarafından çevrilmiş eğitim çifti içerir:
- Fransızca
- İspanyol
- Almanca
- Çince
- Japonca
- Koreli
Daha fazla ayrıntı için, ekteki makaleye bakın: PAWS-X: https://arxiv.org/abs/1908.11828 adresindeki Paraphrase Identification için Cross-lingual Adversarial Dataset
PAWS Veri Kümesine benzer şekilde, örnekler Eğitim/Geliştirme/Test bölümlerine ayrılmıştır. Tüm dosyalar dört sütunlu tsv biçimindedir:
id Her çift için benzersiz bir kimlik cümle1 İlk cümle cümlesi2 İkinci cümle (gürültülü_)etiket (Gürültülü) her çift için etiket
Her etiketin iki olası değeri vardır: 0, çiftin farklı bir anlama sahip olduğunu gösterirken 1, çiftin bir açıklama olduğunu gösterir.
Ana sayfa : https://github.com/google-research-datasets/paws/tree/master/pawsx
Kaynak kodu :
tfds.text.paws_x_wiki.PawsXWiki
Sürümler :
-
1.0.0
(varsayılan): Sürüm notu yok.
-
İndirme boyutu :
28.88 MiB
Otomatik önbelleğe alınmış ( belgeler ): Evet
Özellik yapısı :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
'sentence1': Text(shape=(), dtype=tf.string),
'sentence2': Text(shape=(), dtype=tf.string),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtype | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
etiket | sınıf etiketi | tf.int64 | ||
cümle1 | Metin | tf.string | ||
cümle2 | Metin | tf.string |
Denetimli anahtarlar (bkz
as_supervised
doc ):None
Şekil ( tfds.show_examples ): Desteklenmez.
Örnekler ( tfds.as_dataframe ): Eksik.
alıntı :
@InProceedings{pawsx2019emnlp,
title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
booktitle = {Proc. of EMNLP},
year = {2019}
}
paws_x_wiki/de (varsayılan yapılandırma)
Yapılandırma açıklaması : de çevrildi
Veri kümesi boyutu :
15.27 MiB
Bölmeler :
Bölmek | Örnekler |
---|---|
'test' | 2.000 |
'train' | 49.380 |
'validation' | 2.000 |
paws_x_wiki/tr
Yapılandırma açıklaması : tr'ye çevrildi
Veri kümesi boyutu :
14.59 MiB
Bölmeler :
Bölmek | Örnekler |
---|---|
'test' | 2.000 |
'train' | 49.175 |
'validation' | 2.000 |
paws_x_wiki/es
Yapılandırma açıklaması : es'ye çevrildi
Veri kümesi boyutu :
15.27 MiB
Bölmeler :
Bölmek | Örnekler |
---|---|
'test' | 2.000 |
'train' | 49.401 |
'validation' | 1.961 |
paws_x_wiki/fr
Yapılandırma açıklaması : fr'ye çevrildi
Veri kümesi boyutu :
15.79 MiB
Bölmeler :
Bölmek | Örnekler |
---|---|
'test' | 2.000 |
'train' | 49.399 |
'validation' | 1.988 |
paws_x_wiki/ja
Yapılandırma açıklaması : Ja'ya çevrildi
Veri kümesi boyutu :
17.77 MiB
Bölmeler :
Bölmek | Örnekler |
---|---|
'test' | 2.000 |
'train' | 49.401 |
'validation' | 2.000 |
paws_x_wiki/ko
Yapılandırma açıklaması : Ko'ya çevrildi
Veri kümesi boyutu :
16.42 MiB
Bölmeler :
Bölmek | Örnekler |
---|---|
'test' | 1999 |
'train' | 49.164 |
'validation' | 2.000 |
paws_x_wiki/zh
Yapılandırma açıklaması : zh'ye çevrildi
Veri kümesi boyutu :
13.20 MiB
Bölmeler :
Bölmek | Örnekler |
---|---|
'test' | 2.000 |
'train' | 49.401 |
'validation' | 2.000 |