ช่วยปกป้อง Great Barrier Reef กับ TensorFlow บน Kaggle เข้าร่วมท้าทาย

paws_wiki

  • รายละเอียด:

ชุดข้อมูลการระบุการถอดความที่มีอยู่ไม่มีคู่ประโยคที่มีการทับซ้อนของคำศัพท์สูงโดยไม่ต้องถอดความ โมเดลที่ได้รับการฝึกอบรมเกี่ยวกับข้อมูลดังกล่าวล้มเหลวในการแยกแยะคู่เช่นเที่ยวบินจากนิวยอร์กไปยังฟลอริดาและเที่ยวบินจากฟลอริดาไปยังนิวยอร์ก ชุดข้อมูลนี้มีคู่ที่ติดป้ายกำกับโดยมนุษย์จำนวน 108,463 คู่และฉลากที่มีเสียงดัง 656k คู่ที่ให้ความสำคัญกับโครงสร้างแบบจำลอง บริบท และข้อมูลลำดับคำสำหรับปัญหาการระบุการถอดความ

สำหรับรายละเอียดเพิ่มเติมโปรดดูที่กระดาษที่มาพร้อมกับ: อุ้งเท้า: แปลความหมายศัตรูจาก Word Scrambling ที่ https://arxiv.org/abs/1904.01130

คลังข้อมูลนี้มีคู่ที่สร้างขึ้นจากหน้า Wikipedia ซึ่งมีคู่ที่สร้างขึ้นจากทั้งการสลับคำและการแปลกลับ ทุกคู่มีวิจารณญาณของมนุษย์ทั้งด้านการถอดความและความคล่องแคล่ว และแบ่งออกเป็นส่วน Train/Dev/Test

ไฟล์ทั้งหมดอยู่ในรูปแบบ tsv โดยมีสี่คอลัมน์:

id รหัสเฉพาะสำหรับแต่ละคู่ ประโยค1 ประโยคประโยคแรก2 ประโยคที่สอง (noisy_) ป้ายกำกับ (Noisy) สำหรับแต่ละคู่

แต่ละป้ายกำกับมีค่าที่เป็นไปได้สองค่า: 0 ระบุว่าทั้งคู่มีความหมายต่างกัน ในขณะที่ 1 ระบุว่าทั้งคู่เป็นการถอดความ

  • โฮมเพจ: https://github.com/google-research-datasets/paws

  • รหัสที่มา: tfds.text.PawsWiki

  • รุ่น:

    • 1.0.0 : รุ่นแรก
    • 1.1.0 (เริ่มต้น): configs เพิ่มชุดย่อยที่แตกต่างกันและการสนับสนุนข้อความดิบ
  • ขนาดการดาวน์โหลด: 57.47 MiB

  • คุณสมบัติ:

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
  • คีย์ภายใต้การดูแล (ดู as_supervised doc ): None

  • รูป ( tfds.show_examples ): ไม่ได้รับการสนับสนุน

  • อ้างอิง:

@InProceedings{paws2019naacl,
  title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
  author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
  booktitle = {Proc. of NAACL},
  year = {2019}
}

paws_wiki / labeled_final_tokenized (config ค่าเริ่มต้น)

  • คำอธิบาย Config: กลุ่มย่อย: labeled_final tokenized: ทรู

  • ขนาดชุด: 17.96 MiB

  • ออโต้แคช ( เอกสาร ): ใช่

  • แยก:

แยก ตัวอย่าง
'test' 8,000
'train' 49,401
'validation' 8,000

paws_wiki / labeled_final_raw

  • คำอธิบาย Config: กลุ่มย่อย: labeled_final tokenized: เท็จ

  • ขนาดชุด: 17.57 MiB

  • ออโต้แคช ( เอกสาร ): ใช่

  • แยก:

แยก ตัวอย่าง
'test' 8,000
'train' 49,401
'validation' 8,000

paws_wiki / labeled_swap_tokenized

  • คำอธิบาย Config: กลุ่มย่อย: labeled_swap tokenized: ทรู

  • ขนาดชุด: 8.79 MiB

  • ออโต้แคช ( เอกสาร ): ใช่

  • แยก:

แยก ตัวอย่าง
'train' 30,397

paws_wiki / labeled_swap_raw

  • คำอธิบาย Config: กลุ่มย่อย: labeled_swap tokenized: เท็จ

  • ขนาดชุด: 8.60 MiB

  • ออโต้แคช ( เอกสาร ): ใช่

  • แยก:

แยก ตัวอย่าง
'train' 30,397

paws_wiki / unlabeled_final_tokenized

  • คำอธิบาย Config: กลุ่มย่อย: unlabeled_final tokenized: ทรู

  • ขนาดชุด: 177.89 MiB

  • ออโต้แคช ( เอกสาร ): ใช่ (ตรวจสอบ) เฉพาะเมื่อ shuffle_files=False (รถไฟ)

  • แยก:

แยก ตัวอย่าง
'train' 645,652
'validation' 10,000