assin2

  • বর্ণনা :

প্রাসঙ্গিককরণ

ASSIN 2 হল Avaliação de Similaridade Semantica e Inferência Textual এর দ্বিতীয় সংস্করণ (অর্থবোধক সাদৃশ্য এবং টেক্সচুয়াল এনটেইলমেন্টের মূল্যায়ন), এবং এটি STIL 2019 -এর সাথে একত্রিত একটি কর্মশালা ছিল। এটি ASSIN এর প্রথম সংস্করণ অনুসরণ করে, নতুন ডেটা সহ একটি নতুন ভাগ করা টাস্ক প্রস্তাব করে৷

কর্মশালাটি মূল্যায়ন করা সিস্টেমগুলি যা দুটি বাক্যের মধ্যে দুটি ধরণের সম্পর্কের মূল্যায়ন করে: শব্দার্থ টেক্সচুয়াল মিল এবং টেক্সচুয়াল এনটেইলমেন্ট।

শব্দার্থিক টেক্সচুয়াল সাদৃশ্য বাক্যগুলির মধ্যে শব্দার্থিক সমতুলতার স্তরের পরিমাণ নির্ধারণ করে, যখন টেক্সচুয়াল এনটেইলমেন্ট রিকগনিশন প্রথম বাক্যটি দ্বিতীয়টি অন্তর্ভুক্ত করে কিনা তা শ্রেণিবদ্ধ করে।

ডেটা

ASSIN 2-এ ব্যবহৃত কর্পাসটি বরং সাধারণ বাক্য দ্বারা গঠিত। SemEval 2014 টাস্ক 1 এর পদ্ধতি অনুসরণ করে, আমরা কর্পাস নামক সত্তা এবং অপ্রত্যক্ষ বক্তৃতা থেকে সরানোর চেষ্টা করেছি এবং বর্তমান কালের সমস্ত ক্রিয়াপদ রাখার চেষ্টা করেছি। টীকাকারদের দেওয়া টীকা নির্দেশাবলী উপলব্ধ (পর্তুগিজ ভাষায়)।

প্রশিক্ষণ এবং যাচাইকরণের ডেটা ব্রাজিলিয়ান পর্তুগিজ ভাষায় যথাক্রমে 6,500 এবং 500 বাক্য জোড়ার সমন্বয়ে গঠিত, যা এনটেলমেন্ট এবং শব্দার্থিক মিলের জন্য টীকা করা হয়েছে। শব্দার্থগত সাদৃশ্যের মান 1 থেকে 5 পর্যন্ত, এবং টেক্সট এনটেইলমেন্ট ক্লাসগুলি হয় এনটেইলমেন্ট বা কিছুই নয়। পরীক্ষার ডেটা একই টীকা সহ প্রায় 3,000 বাক্য জোড়া নিয়ে গঠিত। সমস্ত ডেটা ম্যানুয়ালি টীকা করা হয়েছিল।

মূল্যায়ন

মূল্যায়ন ASSIN 2-এ জমা দেওয়ার মূল্যায়ন প্রথম ASSIN-এর মতো একই মেট্রিক্সের সাথে, টেক্সট এনটেইলমেন্টের প্রধান মেট্রিক এবং শব্দার্থগত মিলের জন্য পিয়ারসন পারস্পরিক সম্পর্ক হিসাবে নির্ভুলতা এবং রিকলের F1 সহ। মূল্যায়নের স্ক্রিপ্টগুলি গত সংস্করণের মতোই।

PS.: বর্ণনাটি অফিসিয়াল হোমপেজ থেকে নেওয়া হয়েছে।

বিভক্ত উদাহরণ
'test' 2,448
'train' ৬,৫০০
'validation' 500
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'entailment': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'hypothesis': Text(shape=(), dtype=string),
    'id': int32,
    'similarity': float32,
    'text': Text(shape=(), dtype=string),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
entailment ক্লাসলেবেল int64
অনুমান পাঠ্য স্ট্রিং
আইডি টেনসর int32
মিল টেনসর float32
পাঠ্য পাঠ্য স্ট্রিং
  • উদ্ধৃতি :
@inproceedings{DBLP:conf/propor/RealFO20,
  author    = {Livy Real and
               Erick Fonseca and
               Hugo Gon{\c{c} }alo Oliveira},
  editor    = {Paulo Quaresma and
               Renata Vieira and
               Sandra M. Alu{\'{\i} }sio and
               Helena Moniz and
               Fernando Batista and
               Teresa Gon{\c{c} }alves},
  title     = {The {ASSIN} 2 Shared Task: {A} Quick Overview},
  booktitle = {Computational Processing of the Portuguese Language - 14th International
               Conference, {PROPOR} 2020, Evora, Portugal, March 2-4, 2020, Proceedings},
  series    = {Lecture Notes in Computer Science},
  volume    = {12037},
  pages     = {406--412},
  publisher = {Springer},
  year      = {2020},
  url       = {https://doi.org/10.1007/978-3-030-41505-1_39},
  doi       = {10.1007/978-3-030-41505-1_39},
  timestamp = {Tue, 03 Mar 2020 09:40:18 +0100},
  biburl    = {https://dblp.org/rec/conf/propor/RealFO20.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}