এলসিসি

তথ্যসূত্র:

বড়

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:lccc/large')
  • বর্ণনা :
LCCC: Large-scale Cleaned Chinese Conversation corpus (LCCC) is a large corpus of Chinese conversations.
A rigorous data cleaning pipeline is designed to ensure the quality of the corpus.
This pipeline involves a set of rules and several classifier-based filters.
Noises such as offensive or sensitive words, special symbols, emojis,
grammatically incorrect sentences, and incoherent conversations are filtered.
  • লাইসেন্স : এমআইটি
  • সংস্করণ : 1.0.0
  • বিভাজন :
বিভক্ত উদাহরণ
'train' 12007759
  • বৈশিষ্ট্য :
{
    "dialog": [
        {
            "dtype": "string",
            "id": null,
            "_type": "Value"
        }
    ]
}

ভিত্তি

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:lccc/base')
  • বর্ণনা :
LCCC: Large-scale Cleaned Chinese Conversation corpus (LCCC) is a large corpus of Chinese conversations.
A rigorous data cleaning pipeline is designed to ensure the quality of the corpus.
This pipeline involves a set of rules and several classifier-based filters.
Noises such as offensive or sensitive words, special symbols, emojis,
grammatically incorrect sentences, and incoherent conversations are filtered.
  • লাইসেন্স : এমআইটি
  • সংস্করণ : 1.0.0
  • বিভাজন :
বিভক্ত উদাহরণ
'test' 10000
'train' 6820506
'validation' 20000
  • বৈশিষ্ট্য :
{
    "dialog": [
        {
            "dtype": "string",
            "id": null,
            "_type": "Value"
        }
    ]
}