ওয়েব_গ্রাফ

  • বর্ণনা :

এই ডেটাসেটে একটি স্পার্স গ্রাফ রয়েছে যা ওয়েবের একটি ছোট উপসেটের জন্য ওয়েব লিঙ্কের কাঠামোকে উপস্থাপন করে।

এটি 2021 সালে CommonCrawl দ্বারা সঞ্চালিত একটি একক ক্রলের একটি প্রক্রিয়াকৃত সংস্করণ যেখানে আমরা সবকিছু খুলে রাখি এবং শুধুমাত্র লিঙ্ক->আউটলিঙ্কের কাঠামো রাখি। চূড়ান্ত ডেটাসেটটি মূলত int -> তালিকা[int] বিন্যাস যার প্রতিটি পূর্ণসংখ্যা আইডি একটি url প্রতিনিধিত্ব করে।

এছাড়াও, এই সম্পদের মান বৃদ্ধি করার জন্য, আমরা WebGraph-এর 6টি ভিন্ন সংস্করণ তৈরি করেছি, প্রতিটি স্পার্সিটি প্যাটার্ন এবং লোকেলে পরিবর্তিত। আমরা ক্রমানুসারে নিম্নলিখিত প্রক্রিয়াকরণ পদক্ষেপ নিয়েছি:

  • আমরা জুন 2021 ক্রল থেকে WAT ফাইলগুলি দিয়ে শুরু করেছি।
  • যেহেতু HTTP-প্রতিক্রিয়া-মেটাডেটাতে আউটলিঙ্কগুলি আপেক্ষিক পাথ হিসাবে সংরক্ষণ করা হয়, তাই আমরা প্রতিটি লিঙ্ক যাচাই করার পরে urllib ব্যবহার করে তাদের পরম পাথে রূপান্তর করি।
  • লোকেল-নির্দিষ্ট গ্রাফগুলি অধ্যয়ন করার জন্য, আমরা 2টি শীর্ষ স্তরের ডোমেনের উপর ভিত্তি করে আরও ফিল্টার করি: 'de' এবং 'in', প্রতিটি নোডের কম সংখ্যক মাত্রার ক্রম সহ একটি গ্রাফ তৈরি করে।
  • এই গ্রাফগুলিতে এখনও নির্বিচারে স্পারসিটি প্যাটার্ন এবং ঝুলন্ত লিঙ্ক থাকতে পারে। এইভাবে আমরা প্রতিটি গ্রাফে নোডগুলিকে ফিল্টার করি যাতে ন্যূনতম K ∈ [10, 50] ইনলিংক এবং আউটলিঙ্ক থাকে। মনে রাখবেন যে আমরা এই প্রক্রিয়াকরণটি শুধুমাত্র একবার করি, এইভাবে এটি এখনও একটি আনুমানিক অর্থাৎ ফলাফল গ্রাফে K লিঙ্কের চেয়ে কম নোড থাকতে পারে।
  • উভয় লোকেল এবং গণনা ফিল্টার ব্যবহার করে, আমরা ওয়েবগ্রাফ ডেটাসেটের 6 টি সংস্করণ চূড়ান্ত করি, যা ফলো করা টেবিলে সংক্ষিপ্ত করা হয়েছে।
সংস্করণ শীর্ষ স্তরের ডোমেইন নূন্যতম গণনা নোড সংখ্যা প্রান্ত সংখ্যা
sparse 10 365.4M 30B
ঘন 50 136.5M 22B
ডি-স্পার্স ডি 10 19.7M 1.19B
কম ঘন ডি 50 5.7M 0.82B
in-sparse ভিতরে 10 1.5M 0.14B
মধ্যে ঘন ভিতরে 50 0.5M 0.12B

ডেটাসেটের সমস্ত সংস্করণে নিম্নলিখিত বৈশিষ্ট্য রয়েছে:

  • "row_tag": সারির একটি অনন্য শনাক্তকারী (উৎস লিঙ্ক)।
  • "col_tag": অ-শূন্য কলামের অনন্য শনাক্তকারীর একটি তালিকা (ডেস্ট আউটলিঙ্ক)।
  • "gt_tag": গ্রাউন্ড ট্রুথ (ডেস্ট আউটলিঙ্ক) হিসাবে ব্যবহৃত নন-জিরো কলামগুলির অনন্য শনাক্তকারীর একটি তালিকা, ট্রেন/ট্রেন_টি বিভাজনের জন্য খালি।

  • হোমপেজ : https://arxiv.org/abs/2112.02194

  • সোর্স কোড : tfds.structured.web_graph.WebGraph

  • সংস্করণ :

    • 1.0.0 (ডিফল্ট): প্রাথমিক প্রকাশ।
  • ডাউনলোড আকার : Unknown size

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না

  • বৈশিষ্ট্য গঠন :

FeaturesDict({
    'col_tag': Sequence(int64),
    'gt_tag': Sequence(int64),
    'row_tag': int64,
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
col_tag ক্রম (টেনসর) (কোনটিই নয়,) int64
gt_tag ক্রম (টেনসর) (কোনটিই নয়,) int64
সারি_ট্যাগ টেনসর int64
  • তত্ত্বাবধান করা কী (দেখুন as_supervised doc ): None

  • চিত্র ( tfds.show_examples ): সমর্থিত নয়।

  • উদ্ধৃতি :

@article{mehta2021alx,
    title={ALX: Large Scale Matrix Factorization on TPUs},
    author={Harsh Mehta and Steffen Rendle and Walid Krichene and Li Zhang},
    year={2021},
    eprint={2112.02194},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

web_graph/sparse (ডিফল্ট কনফিগারেশন)

  • কনফিগারেশনের বিবরণ : ওয়েবগ্রাফ-স্পার্সে প্রায় 30B প্রান্ত এবং প্রায় 365M নোড রয়েছে।

  • ডেটাসেটের আকার : 273.38 GiB

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 39,871,321
'train' 372,049,054
'train_t' 410,867,007

ওয়েব_গ্রাফ/ঘন

  • কনফিগারেশনের বিবরণ : ওয়েবগ্রাফ-ঘনটিতে প্রায় 22B প্রান্ত এবং প্রায় 136.5M নোড রয়েছে।

  • ডেটাসেটের আকার : 170.87 GiB

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 13,256,496
'train' 122,815,749
'train_t' 136,019,364

web_graph/de-sparse

  • কনফিগারেশনের বিবরণ : ওয়েবগ্রাফ-ডি-স্পার্সে প্রায় 1.19B প্রান্ত এবং প্রায় 19.7M নোড রয়েছে।

  • ডেটাসেটের আকার : 10.25 GiB

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 1,903,443
'train' 17,688,633
'train_t' 19,566,045

web_graph/de-dens

  • কনফিগারেশনের বিবরণ : ওয়েবগ্রাফ-ডি-ডেনস-এ প্রায় 0.82B প্রান্ত এবং প্রায় 5.7M নোড রয়েছে।

  • ডেটাসেটের আকার : 5.90 GiB

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 553,270
'train' 5,118,902
'train_t' ৫,৬৭২,৪৭৩

web_graph/in-sparse

  • কনফিগারেশনের বিবরণ : ওয়েবগ্রাফ-ডি-স্পার্সে প্রায় 0.14B প্রান্ত এবং প্রায় 1.5M নোড রয়েছে।

  • ডেটাসেটের আকার : 960.57 MiB

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 140,313
'train' 1,309,063
'train_t' 1,445,042

web_graph/in-dens

  • কনফিগারেশনের বিবরণ : ওয়েবগ্রাফ-ডি-ডেনস-এ প্রায় 0.12B প্রান্ত এবং প্রায় 0.5M নোড রয়েছে।

  • ডেটাসেটের আকার : 711.72 MiB

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 47,894
'train' 443,786
'train_t' 491,634