bucc

  • คำอธิบาย :

การระบุประโยคคู่ขนานในหน่วยเปรียบเทียบ เมื่อพิจารณาจากองค์กรภาษาเดียวที่แยกประโยคออกเป็นสองประโยค ระบบผู้เข้าร่วมคาดว่าจะระบุคู่ของประโยคที่เป็นการแปลของกันและกัน

งานการขุด BUCC เป็นงานที่ใช้ร่วมกันในการแยกประโยคคู่ขนานจากคลังข้อมูลภาษาเดียวสองรายการโดยมีส่วนย่อยที่ถือว่าคู่ขนานกัน และมีให้บริการตั้งแต่ปี 2559 สำหรับแต่ละคู่ภาษา งานที่ใช้ร่วมกันจะจัดเตรียมคลังข้อมูลภาษาเดียวสำหรับแต่ละภาษาและ รายการการจับคู่ทองคำที่มีคู่การแปลจริง คู่เหล่านี้เป็นความจริงพื้นฐาน ภารกิจคือสร้างรายการคู่การแปลจากองค์กรภาษาเดียว รายการที่สร้างขึ้นจะถูกเปรียบเทียบกับความจริงพื้นฐาน และประเมินในแง่ของการวัด F1

FeaturesDict({
    'source_id': Text(shape=(), dtype=string),
    'source_sentence': Text(shape=(), dtype=string),
    'target_id': Text(shape=(), dtype=string),
    'target_sentence': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
รหัสแหล่งที่มา ข้อความ สตริง
source_sentence ข้อความ สตริง
target_id ข้อความ สตริง
target_sentence ข้อความ สตริง
  • คีย์ภายใต้การดูแล (ดู as_supervised doc ): None

  • รูปภาพ ( tfds.show_examples ): ไม่รองรับ

  • การอ้างอิง :

@inproceedings{zweigenbaum2018overview,
  title={Overview of the third BUCC shared task: Spotting parallel sentences  in comparable corpora},
  author={Zweigenbaum, Pierre and Sharoff, Serge and Rapp, Reinhard},
  booktitle={Proceedings of 11th Workshop on Building and Using Comparable Corpora},
  pages={39--42},
  year={2018}
}

bucc/bucc_de (การกำหนดค่าเริ่มต้น)

  • ขนาดการดาวน์โหลด : 29.30 MiB

  • ขนาดชุดข้อมูล : 3.21 MiB

  • แยก :

แยก ตัวอย่าง
'test' 9,580
'validation' 1,038

บัค/bucc_fr

  • ขนาดการดาวน์โหลด : 21.65 MiB

  • ขนาดชุดข้อมูล : 2.90 MiB

  • แยก :

แยก ตัวอย่าง
'test' 9,086
'validation' 929

บัค/bucc_zh

  • ขนาดการดาวน์โหลด : 6.79 MiB

  • ขนาดชุดข้อมูล : 615.20 KiB

  • แยก :

แยก ตัวอย่าง
'test' 1,899
'validation' 257

บัค/bucc_ru

  • ขนาดการดาวน์โหลด : 39.44 MiB

  • ขนาดชุดข้อมูล : 6.36 MiB

  • แยก :

แยก ตัวอย่าง
'test' 14,435
'validation' 2,374