multi_nli

  • বর্ণনা :

মাল্টি-জেনার ন্যাচারাল ল্যাঙ্গুয়েজ ইনফারেন্স (মাল্টিএনএলআই) কর্পাস হল 433k বাক্য জোড়ার একটি ক্রাউড-সোর্স সংগ্রহ যা পাঠ্য এনটেইলমেন্ট তথ্য সহ টীকা করা হয়েছে। কর্পাসটি SNLI কর্পাসের উপর ভিত্তি করে তৈরি করা হয়েছে, তবে কথ্য এবং লিখিত পাঠ্যের বিভিন্ন ধরণের শ্রেণীকে কভার করে এবং একটি স্বতন্ত্র ক্রস-জেনার সাধারণীকরণ মূল্যায়নকে সমর্থন করে। কোপেনহেগেনে EMNLP-এ RepEval 2017 ওয়ার্কশপের ভাগ করা টাস্কের ভিত্তি হিসেবে এই কর্পাস কাজ করেছে।

বিভক্ত উদাহরণ
'train' 392,702
'validation_matched' ৯,৮১৫
'validation_mismatched' ৯,৮৩২
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'premise': Text(shape=(), dtype=string),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
অনুমান পাঠ্য স্ট্রিং
লেবেল ক্লাসলেবেল int64
ভিত্তি পাঠ্য স্ট্রিং
  • উদ্ধৃতি :
@InProceedings{N18-1101,
  author = "Williams, Adina
            and Nangia, Nikita
            and Bowman, Samuel",
  title = "A Broad-Coverage Challenge Corpus for
           Sentence Understanding through Inference",
  booktitle = "Proceedings of the 2018 Conference of
               the North American Chapter of the
               Association for Computational Linguistics:
               Human Language Technologies, Volume 1 (Long
               Papers)",
  year = "2018",
  publisher = "Association for Computational Linguistics",
  pages = "1112--1122",
  location = "New Orleans, Louisiana",
  url = "http://aclweb.org/anthology/N18-1101"
}