reddit_tifu

  • বর্ণনা :

Reddit ডেটাসেট, যেখানে TIFU সাবব্রেডিট /r/tifu এর নাম নির্দেশ করে। প্রকাশনায় সংজ্ঞায়িত হিসাবে, শৈলী "ছোট" সারাংশ হিসাবে শিরোনাম ব্যবহার করে এবং "দীর্ঘ" সারাংশ হিসাবে tldr ব্যবহার করে।

বৈশিষ্ট্য অন্তর্ভুক্ত:

  • নথি: tldr ছাড়া পাঠ্য পোস্ট করুন।
  • tldr: tldr লাইন।
  • শিরোনাম: টিএলডিআর ছাড়া শিরোনাম ছাঁটা।
  • ups: আপভোট।
  • স্কোর: স্কোর।
  • সংখ্যা_মন্তব্য: মন্তব্যের সংখ্যা।
  • upvote_ratio: আপভোট অনুপাত।

  • অতিরিক্ত ডকুমেন্টেশন : কোড সহ কাগজপত্রে অন্বেষণ করুন

  • হোমপেজ : https://github.com/ctr4si/MMN

  • সোর্স কোড : tfds.datasets.reddit_tifu.Builder

  • সংস্করণ :

    • 1.1.0 : খালি নথি এবং সারাংশ স্ট্রিংগুলি সরান৷
    • 1.1.1 : ট্রেন, ডেভ এবং টেস্ট (80/10/10) স্প্লিট যোগ করুন যা PEGASUS ( https://arxiv.org/abs/1912.08777 ) এ একটি পৃথক কনফিগারে ব্যবহার করা হয়। এগুলি এলোমেলোভাবে tfds স্প্লিট ফাংশন ব্যবহার করে তৈরি করা হয়েছে এবং Reddit Tifu Long এর ফলাফলগুলি পুনরুত্পাদনযোগ্য এবং তুলনাযোগ্য তা নিশ্চিত করার জন্য প্রকাশ করা হচ্ছে৷ এছাড়াও ডেটাপয়েন্টগুলিতে id যুক্ত করুন৷
    • 1.1.2 (ডিফল্ট): সংশোধন করা বিভক্ত আপলোড করা হয়েছে।
  • বৈশিষ্ট্য গঠন :

FeaturesDict({
    'documents': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'num_comments': float32,
    'score': float32,
    'title': Text(shape=(), dtype=string),
    'tldr': Text(shape=(), dtype=string),
    'ups': float32,
    'upvote_ratio': float32,
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
নথি পাঠ্য স্ট্রিং
আইডি পাঠ্য স্ট্রিং
সংখ্যা_মন্তব্য টেনসর float32
স্কোর টেনসর float32
শিরোনাম পাঠ্য স্ট্রিং
tldr পাঠ্য স্ট্রিং
ইউ। পি। এস টেনসর float32
আপভোট_অনুপাত টেনসর float32
  • চিত্র ( tfds.show_examples ): সমর্থিত নয়।

  • উদ্ধৃতি :

@misc{kim2018abstractive,
    title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},
    author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},
    year={2018},
    eprint={1811.00783},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

reddit_tifu/short (ডিফল্ট কনফিগারেশন)

  • কনফিগ বিবরণ : সারাংশ হিসাবে শিরোনাম ব্যবহার করে।

  • ডাউনলোড সাইজ : 639.54 MiB

  • ডেটাসেটের আকার : 141.46 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): শুধুমাত্র যখন shuffle_files=False (ট্রেন)

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 79,740

reddit_tifu/লং

  • কনফিগারেশনের বিবরণ : সারাংশ হিসাবে TLDR ব্যবহার করা।

  • ডাউনলোড সাইজ : 639.54 MiB

  • ডেটাসেটের আকার : 93.10 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 42,139

reddit_tifu/long_split

  • কনফিগারেশনের বিবরণ : সারাংশ হিসাবে TLDR ব্যবহার করা এবং ট্রেন/পরীক্ষা/দেব বিভক্ত করা।

  • ডাউনলোডের আকার : 639.94 MiB

  • ডেটাসেটের আকার : 93.10 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 4,214
'train' 33,711
'validation' 4,214