มักซาน

ข้อมูลอ้างอิง:

ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:

ds = tfds.load('huggingface:makhzan')
  • คำอธิบาย :
An Urdu text corpus for machine learning, natural language processing and linguistic analysis.
  • ใบอนุญาต : ไฟล์ทั้งหมดในไดเร็กทอรี /text อยู่ภายใต้ลิขสิทธิ์มาตรฐาน ข้อความแต่ละชิ้นรวมอยู่ในที่เก็บข้อมูลนี้โดยได้รับอนุญาตอย่างชัดเจนจากผู้ถือลิขสิทธิ์ที่เกี่ยวข้อง ซึ่งระบุไว้ใน แท็กสำหรับแต่ละไฟล์ คุณสามารถใช้ข้อความนี้ในการวิเคราะห์ วิจัยและพัฒนาได้อย่างอิสระ แต่ไม่อนุญาตให้เผยแพร่ซ้ำหรือเผยแพร่ข้อความนี้ซ้ำ บางกรณีที่สิทธิ์ใช้งานที่จำกัดน้อยกว่าสามารถนำไปใช้กับไฟล์ในไดเร็กทอรี /text ได้แสดงไว้ด้านล่าง ในบางกรณี ข้อความปลอดลิขสิทธิ์ได้รับการทำซ้ำแบบดิจิทัลผ่านการทำงานอย่างหนักของผู้ทำงานร่วมกันของเรา ในกรณีดังกล่าว เราได้ให้เครดิตกับบุคคลที่เหมาะสมแล้วหากเป็นไปได้ในช่องหมายเหตุในข้อมูลเมตาของไฟล์ และเราขอแนะนำให้คุณติดต่อพวกเขาก่อนที่จะแจกจ่ายข้อความนี้ในรูปแบบใดๆ เมื่อมีการให้ใบอนุญาตแยกต่างหากพร้อมกับข้อความ เราได้ให้ข้อมูลที่เกี่ยวข้องในช่องสิ่งพิมพ์ในข้อมูลเมตาของไฟล์
  • เวอร์ชัน : 1.0.0
  • แยก :
แยก ตัวอย่าง
'train' 5522
  • คุณสมบัติ :
{
    "file_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "metadata": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "num-words": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "contains-non-urdu-languages": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "document_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}