बुके

  • विवरण :

तुलनीय कॉर्पोरा में समानांतर वाक्यों की पहचान करना। दो वाक्य-विभाजित मोनोलिंगुअल कॉर्पोरा को देखते हुए, प्रतिभागी प्रणालियों से उन वाक्यों के जोड़े की पहचान करने की अपेक्षा की जाती है जो एक दूसरे के अनुवाद हैं।

BUCC खनन कार्य दो मोनोलिंगुअल कॉर्पोरा से समानांतर वाक्य निष्कर्षण पर एक साझा कार्य है, जिसमें से एक सबसेट को समानांतर माना जाता है, और यह 2016 से उपलब्ध है। प्रत्येक भाषा जोड़ी के लिए, साझा कार्य प्रत्येक भाषा के लिए एक मोनोलिंगुअल कॉर्पस प्रदान करता है और एक गोल्ड मैपिंग सूची जिसमें सच्चे अनुवाद जोड़े हैं। ये जोड़ियाँ जमीनी सच्चाई हैं। कार्य मोनोलिंगुअल कॉरपोरा से अनुवाद जोड़े की सूची बनाना है। निर्मित सूची की तुलना जमीनी सच्चाई से की जाती है, और F1 माप के संदर्भ में मूल्यांकन किया जाता है।

FeaturesDict({
    'source_id': Text(shape=(), dtype=string),
    'source_sentence': Text(shape=(), dtype=string),
    'target_id': Text(shape=(), dtype=string),
    'target_sentence': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
स्रोत_आईडी मूलपाठ डोरी
स्रोत वाक्य मूलपाठ डोरी
target_id मूलपाठ डोरी
target_sentence मूलपाठ डोरी
  • पर्यवेक्षित कुंजियाँ ( as_supervised doc देखें): None

  • चित्र ( tfds.show_examples ): समर्थित नहीं है।

  • उद्धरण :

@inproceedings{zweigenbaum2018overview,
  title={Overview of the third BUCC shared task: Spotting parallel sentences  in comparable corpora},
  author={Zweigenbaum, Pierre and Sharoff, Serge and Rapp, Reinhard},
  booktitle={Proceedings of 11th Workshop on Building and Using Comparable Corpora},
  pages={39--42},
  year={2018}
}

bucc/bucc_de (डिफ़ॉल्ट कॉन्फ़िगरेशन)

  • डाउनलोड आकार : 29.30 MiB

  • डेटासेट का आकार : 3.21 MiB

  • विभाजन :

विभाजित करना उदाहरण
'test' 9,580
'validation' 1,038

bcc/bucc_fr

  • डाउनलोड आकार : 21.65 MiB

  • डेटासेट का आकार : 2.90 MiB

  • विभाजन :

विभाजित करना उदाहरण
'test' 9,086
'validation' 929

bcc/bucc_zh

  • डाउनलोड आकार : 6.79 MiB

  • डेटासेट का आकार : 615.20 KiB

  • विभाजन :

विभाजित करना उदाहरण
'test' 1,899
'validation' 257

bcc/bucc_ru

  • डाउनलोड आकार : 39.44 MiB

  • डेटासेट का आकार : 6.36 MiB

  • विभाजन :

विभाजित करना उदाहरण
'test' 14,435
'validation' 2,374