Halaman ini diterjemahkan oleh Cloud Translation API.
Switch to English

paws_wiki

  • Deskripsi :

Dataset identifikasi parafrase yang ada tidak memiliki pasangan kalimat yang memiliki tumpang tindih leksikal yang tinggi tanpa menjadi parafrase. Model yang dilatih pada data tersebut gagal membedakan pasangan seperti penerbangan dari New York ke Florida dan penerbangan dari Florida ke New York. Dataset ini berisi 108.463 pasangan berlabel manusia dan 656k pasangan berlabel berisik yang menampilkan pentingnya struktur pemodelan, konteks, dan informasi urutan kata untuk masalah identifikasi parafrase.

Untuk detail lebih lanjut, lihat makalah yang menyertai: PAWS: Parafrase Musuh dari Word Scrambling di https://arxiv.org/abs/1904.01130

Korpus ini berisi pasangan yang dihasilkan dari halaman Wikipedia, berisi pasangan yang dihasilkan dari pertukaran kata dan metode terjemahan balik. Semua pasangan memiliki penilaian manusiawi pada parafrase dan kefasihan dan mereka dibagi menjadi bagian Latih / Pengembangan / Tes.

Semua file dalam format tsv dengan empat kolom:

id Id unik untuk setiap pasangan kalimat1 Kalimat pertama kalimat2 Kalimat kedua (berisik_) label label (Bising) untuk setiap pasangan

Setiap label memiliki dua kemungkinan nilai: 0 menunjukkan pasangan memiliki arti yang berbeda, sedangkan 1 menunjukkan pasangan adalah parafrase.

Membagi Contoh
'test' 8.000
'train' 49.401
'validation' 8.000
  • Fitur :
FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
@InProceedings{paws2019naacl,
  title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
  author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
  booktitle = {Proc. of NAACL},
  year = {2019}
}