উইকি_অটো

  • বর্ণনা :

WikiAuto ইংরেজি উইকিপিডিয়া এবং সাধারণ ইংরেজি উইকিপিডিয়া থেকে বাক্য সরলীকরণ ব্যবস্থাকে প্রশিক্ষণের জন্য একটি সংস্থান হিসাবে সারিবদ্ধ বাক্যের একটি সেট সরবরাহ করে। লেখকরা প্রথমে সাধারণ ইংরেজি উইকিপিডিয়ার একটি উপসেট এবং ইংরেজি উইকিপিডিয়াতে তাদের সংশ্লিষ্ট সংস্করণগুলির মধ্যে বাক্যগুলির মধ্যে ম্যানুয়াল অ্যালাইনমেন্টের একটি সেট ক্রাউড-সোর্স করেন (এটি manual কনফিগারেশনের সাথে মিলে যায়), তারপর এই প্রান্তিককরণগুলির পূর্বাভাস দেওয়ার জন্য একটি নিউরাল CRF সিস্টেমকে প্রশিক্ষণ দেন। প্রশিক্ষিত মডেলটি তখন সরল ইংরেজি উইকিপিডিয়ার অন্যান্য নিবন্ধগুলিতে একটি ইংরেজি প্রতিরূপের সাথে সারিবদ্ধ বাক্যগুলির একটি বৃহত্তর কর্পাস তৈরি করতে প্রয়োগ করা হয়েছিল (এখানে auto , auto_acl , auto_full_no_split , এবং auto_full_with_split সাথে সম্পর্কিত)।

@inproceedings{acl/JiangMLZX20,
  author    = {Chao Jiang and
               Mounica Maddela and
               Wuwei Lan and
               Yang Zhong and
               Wei Xu},
  editor    = {Dan Jurafsky and
               Joyce Chai and
               Natalie Schluter and
               Joel R. Tetreault},
  title     = {Neural {CRF} Model for Sentence Alignment in Text Simplification},
  booktitle = {Proceedings of the 58th Annual Meeting of the Association for Computational
               Linguistics, {ACL} 2020, Online, July 5-10, 2020},
  pages     = {7943--7960},
  publisher = {Association for Computational Linguistics},
  year      = {2020},
  url       = {https://www.aclweb.org/anthology/2020.acl-main.709/}
}

উইকি_অটো/ম্যানুয়াল (ডিফল্ট কনফিগারেশন)

  • কনফিগারেশনের বিবরণ : ভিড় কর্মীদের দ্বারা সারিবদ্ধ 10K উইকিপিডিয়া বাক্য জোড়ার একটি সেট।

  • ডাউনলোড সাইজ : 53.47 MiB

  • ডেটাসেটের আকার : 76.87 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'dev' 73,249
'test' 118,074
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'GLEU-score': float64,
    'alignment_label': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'normal_sentence': Text(shape=(), dtype=string),
    'normal_sentence_id': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
    'simple_sentence_id': Text(shape=(), dtype=string),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
GLEU-স্কোর টেনসর float64
প্রান্তিককরণ_লেবেল ক্লাসলেবেল int64
স্বাভাবিক_বাক্য পাঠ্য স্ট্রিং
normal_sentence_id পাঠ্য স্ট্রিং
সহজ বাক্য পাঠ্য স্ট্রিং
সহজ_বাক্য_আইডি পাঠ্য স্ট্রিং

wiki_auto/auto_acl

  • কনফিগারেশনের বিবরণ : ACL2020 সিস্টেমকে প্রশিক্ষণ দিতে বাক্য জোড়া সারিবদ্ধ।

  • ডাউনলোড আকার : 112.60 MiB

  • ডেটাসেটের আকার : 138.83 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): শুধুমাত্র যখন shuffle_files=False (সম্পূর্ণ)

  • বিভাজন :

বিভক্ত উদাহরণ
'full' ৪৮৮,৩৩২
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
স্বাভাবিক_বাক্য পাঠ্য স্ট্রিং
সহজ বাক্য পাঠ্য স্ট্রিং

wiki_auto/auto_full_no_split

  • কনফিগারের বিবরণ : বাক্য বিভাজন ছাড়াই সমস্ত স্বয়ংক্রিয়ভাবে সারিবদ্ধ বাক্য জোড়া।

  • ডাউনলোড আকার : 135.02 MiB

  • ডেটাসেটের আকার : 166.78 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): শুধুমাত্র যখন shuffle_files=False (সম্পূর্ণ)

  • বিভাজন :

বিভক্ত উদাহরণ
'full' ৫৯১,৯৯৪
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
স্বাভাবিক_বাক্য পাঠ্য স্ট্রিং
সহজ বাক্য পাঠ্য স্ট্রিং

wiki_auto/auto_full_with_split

  • কনফিগারের বিবরণ : বাক্য বিভাজনের সাথে সমস্ত স্বয়ংক্রিয়ভাবে সারিবদ্ধ বাক্য জোড়া।

  • ডাউনলোডের আকার : 115.09 MiB

  • ডেটাসেটের আকার : 141.20 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): শুধুমাত্র যখন shuffle_files=False (সম্পূর্ণ)

  • বিভাজন :

বিভক্ত উদাহরণ
'full' 483,801
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
স্বাভাবিক_বাক্য পাঠ্য স্ট্রিং
সহজ বাক্য পাঠ্য স্ট্রিং

উইকি_অটো/অটো

  • কনফিগার বর্ণনা : স্বয়ংক্রিয়ভাবে সারিবদ্ধ বাক্য জোড়ার একটি বড় সেট।

  • ডাউনলোড সাইজ : 2.01 GiB

  • ডেটাসেটের আকার : 1.76 GiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না

  • বিভাজন :

বিভক্ত উদাহরণ
'part_1' 125,059
'part_2' 13,036
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'example_id': Text(shape=(), dtype=string),
    'normal': FeaturesDict({
        'normal_article_content': Sequence({
            'normal_sentence': Text(shape=(), dtype=string),
            'normal_sentence_id': Text(shape=(), dtype=string),
        }),
        'normal_article_id': int32,
        'normal_article_title': Text(shape=(), dtype=string),
        'normal_article_url': Text(shape=(), dtype=string),
    }),
    'paragraph_alignment': Sequence({
        'normal_paragraph_id': Text(shape=(), dtype=string),
        'simple_paragraph_id': Text(shape=(), dtype=string),
    }),
    'sentence_alignment': Sequence({
        'normal_sentence_id': Text(shape=(), dtype=string),
        'simple_sentence_id': Text(shape=(), dtype=string),
    }),
    'simple': FeaturesDict({
        'simple_article_content': Sequence({
            'simple_sentence': Text(shape=(), dtype=string),
            'simple_sentence_id': Text(shape=(), dtype=string),
        }),
        'simple_article_id': int32,
        'simple_article_title': Text(shape=(), dtype=string),
        'simple_article_url': Text(shape=(), dtype=string),
    }),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
উদাহরণ_আইডি পাঠ্য স্ট্রিং
স্বাভাবিক ফিচারসডিক্ট
স্বাভাবিক/স্বাভাবিক_নিবন্ধ_সামগ্রী ক্রম
স্বাভাবিক/স্বাভাবিক_নিবন্ধ_সামগ্রী/স্বাভাবিক_বাক্য পাঠ্য স্ট্রিং
normal/normal_article_content/normal_sentence_id পাঠ্য স্ট্রিং
normal/normal_article_id টেনসর int32
স্বাভাবিক/স্বাভাবিক_নিবন্ধ_শিরোনাম পাঠ্য স্ট্রিং
স্বাভাবিক/স্বাভাবিক_আর্টিকেল_ইউআরএল পাঠ্য স্ট্রিং
অনুচ্ছেদ_সারিবদ্ধকরণ ক্রম
অনুচ্ছেদ_অ্যালাইনমেন্ট/সাধারণ_অনুচ্ছেদ_আইডি পাঠ্য স্ট্রিং
অনুচ্ছেদ_অ্যালাইনমেন্ট/সাধারণ_অনুচ্ছেদ_আইডি পাঠ্য স্ট্রিং
বাক্য_বিন্যাস ক্রম
sentence_alignment/normal_sentence_id পাঠ্য স্ট্রিং
বাক্য_বিন্যাস/সরল_বাক্য_আইডি পাঠ্য স্ট্রিং
সহজ ফিচারসডিক্ট
সহজ/সরল_নিবন্ধ_সামগ্রী ক্রম
সরল/সরল_নিবন্ধ_সামগ্রী/সরল_বাক্য পাঠ্য স্ট্রিং
simple/simple_article_content/simple_sentence_id পাঠ্য স্ট্রিং
সরল/সাধারণ_আর্টিকেল_আইডি টেনসর int32
সহজ/সরল_নিবন্ধ_শিরোনাম পাঠ্য স্ট্রিং
সহজ/সরল_নিবন্ধ_ইউআরএল পাঠ্য স্ট্রিং