- Açıklama:
Mevcut açıklama tanımlama veri kümeleri, açıklama olmadan yüksek sözcüksel örtüşmeye sahip cümle çiftlerinden yoksundur. Bu tür veriler üzerinde eğitilen modeller, New York'tan Florida'ya uçuşlar ve Florida'dan New York'a uçuşlar gibi çiftleri ayırt edemez. Bu veri seti, açıklama tanımlama problemi için modelleme yapısı, bağlam ve kelime sırası bilgilerinin önemini öne çıkaran 108.463 insan etiketli ve 656k gürültülü etiketli çift içerir.
En Scrambling Word açımlanması Adversaries: PAWS: Daha fazla bilgi için, eşlik eden incelemeye bakın https://arxiv.org/abs/1904.01130
Bu derlem, Wikipedia sayfalarından oluşturulan ve hem sözcük değiştirme hem de geri çevirme yöntemlerinden oluşturulan çiftleri içerir. Tüm çiftlerin hem açıklama hem de akıcılık konusunda insan yargıları vardır ve bunlar Eğitim/Geliştirme/Test bölümlerine ayrılır.
Tüm dosyalar dört sütunlu tsv biçimindedir:
id Her çift için benzersiz bir kimlik cümle1 İlk cümle cümlesi2 İkinci cümle (gürültülü_)etiket (Gürültülü) her çift için etiket
Her etiketin iki olası değeri vardır: 0, çiftin farklı bir anlama sahip olduğunu gösterirken 1, çiftin bir açıklama olduğunu gösterir.
Kaynak kodu:
tfds.text.PawsWiki
sürümleri:
-
1.0.0
: İlk versiyon. -
1.1.0
(varsayılan): Farklı alt kümesi ve destek ham metne ekler yapılandırmaları.
-
İndirme boyutu:
57.47 MiB
Özellikler:
FeaturesDict({
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
'sentence1': Text(shape=(), dtype=tf.string),
'sentence2': Text(shape=(), dtype=tf.string),
})
Denetimli tuşları (Bkz
as_supervised
doc ):None
Şekil ( tfds.show_examples ): desteklenmez.
Citation:
@InProceedings{paws2019naacl,
title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
booktitle = {Proc. of NAACL},
year = {2019}
}
paws_wiki / labeled_final_tokenized (varsayılan yapılandırma)
Yapılandırma tanımı: Alt Küme: labeled_final dizgecikli: Doğru
Veri kümesi boyutu:
17.96 MiB
Otomatik önbelleğe ( dokümantasyon ): Evet
Splits:
Bölmek | Örnekler |
---|---|
'test' | 8.000 |
'train' | 49.401 |
'validation' | 8.000 |
- Örnekler ( tfds.as_dataframe ):
paws_wiki / labeled_final_raw
Yapılandırma tanımı: Alt Küme: labeled_final dizgecikli: Yanlış
Veri kümesi boyutu:
17.57 MiB
Otomatik önbelleğe ( dokümantasyon ): Evet
Splits:
Bölmek | Örnekler |
---|---|
'test' | 8.000 |
'train' | 49.401 |
'validation' | 8.000 |
- Örnekler ( tfds.as_dataframe ):
paws_wiki / labeled_swap_tokenized
Yapılandırma tanımı: Alt Küme: labeled_swap simgeleþtirilmiþ: Doğru
Veri kümesi boyutu:
8.79 MiB
Otomatik önbelleğe ( dokümantasyon ): Evet
Splits:
Bölmek | Örnekler |
---|---|
'train' | 30.397 |
- Örnekler ( tfds.as_dataframe ):
paws_wiki / labeled_swap_raw
Yapılandırma tanımı: Alt Küme: labeled_swap simgeleþtirilmiþ: Yanlış
Veri kümesi boyutu:
8.60 MiB
Otomatik önbelleğe ( dokümantasyon ): Evet
Splits:
Bölmek | Örnekler |
---|---|
'train' | 30.397 |
- Örnekler ( tfds.as_dataframe ):
paws_wiki / unlabeled_final_tokenized
Yapılandırma tanımı: Alt Küme: unlabeled_final simgeleþtirilmiþ: Doğru
Veri kümesi boyutu:
177.89 MiB
Otomatik önbelleğe ( dokümantasyon ): Evet (doğrulama), Sadece zaman
shuffle_files=False
(tren)Splits:
Bölmek | Örnekler |
---|---|
'train' | 645.652 |
'validation' | 10.000 |
- Örnekler ( tfds.as_dataframe ):