paws_wiki

  • Açıklama:

Mevcut açıklama tanımlama veri kümeleri, açıklama olmadan yüksek sözcüksel örtüşmeye sahip cümle çiftlerinden yoksundur. Bu tür veriler üzerinde eğitilen modeller, New York'tan Florida'ya uçuşlar ve Florida'dan New York'a uçuşlar gibi çiftleri ayırt edemez. Bu veri seti, açıklama tanımlama problemi için modelleme yapısı, bağlam ve kelime sırası bilgilerinin önemini öne çıkaran 108.463 insan etiketli ve 656k gürültülü etiketli çift içerir.

En Scrambling Word açımlanması Adversaries: PAWS: Daha fazla bilgi için, eşlik eden incelemeye bakın https://arxiv.org/abs/1904.01130

Bu derlem, Wikipedia sayfalarından oluşturulan ve hem sözcük değiştirme hem de geri çevirme yöntemlerinden oluşturulan çiftleri içerir. Tüm çiftlerin hem açıklama hem de akıcılık konusunda insan yargıları vardır ve bunlar Eğitim/Geliştirme/Test bölümlerine ayrılır.

Tüm dosyalar dört sütunlu tsv biçimindedir:

id Her çift için benzersiz bir kimlik cümle1 İlk cümle cümlesi2 İkinci cümle (gürültülü_)etiket (Gürültülü) her çift için etiket

Her etiketin iki olası değeri vardır: 0, çiftin farklı bir anlama sahip olduğunu gösterirken 1, çiftin bir açıklama olduğunu gösterir.

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
@InProceedings{paws2019naacl,
  title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
  author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
  booktitle = {Proc. of NAACL},
  year = {2019}
}

paws_wiki / labeled_final_tokenized (varsayılan yapılandırma)

  • Yapılandırma tanımı: Alt Küme: labeled_final dizgecikli: Doğru

  • Veri kümesi boyutu: 17.96 MiB

  • Otomatik önbelleğe ( dokümantasyon ): Evet

  • Splits:

Bölmek Örnekler
'test' 8.000
'train' 49.401
'validation' 8.000

paws_wiki / labeled_final_raw

  • Yapılandırma tanımı: Alt Küme: labeled_final dizgecikli: Yanlış

  • Veri kümesi boyutu: 17.57 MiB

  • Otomatik önbelleğe ( dokümantasyon ): Evet

  • Splits:

Bölmek Örnekler
'test' 8.000
'train' 49.401
'validation' 8.000

paws_wiki / labeled_swap_tokenized

  • Yapılandırma tanımı: Alt Küme: labeled_swap simgeleþtirilmiþ: Doğru

  • Veri kümesi boyutu: 8.79 MiB

  • Otomatik önbelleğe ( dokümantasyon ): Evet

  • Splits:

Bölmek Örnekler
'train' 30.397

paws_wiki / labeled_swap_raw

  • Yapılandırma tanımı: Alt Küme: labeled_swap simgeleþtirilmiþ: Yanlış

  • Veri kümesi boyutu: 8.60 MiB

  • Otomatik önbelleğe ( dokümantasyon ): Evet

  • Splits:

Bölmek Örnekler
'train' 30.397

paws_wiki / unlabeled_final_tokenized

  • Yapılandırma tanımı: Alt Küme: unlabeled_final simgeleþtirilmiþ: Doğru

  • Veri kümesi boyutu: 177.89 MiB

  • Otomatik önbelleğe ( dokümantasyon ): Evet (doğrulama), Sadece zaman shuffle_files=False (tren)

  • Splits:

Bölmek Örnekler
'train' 645.652
'validation' 10.000