trivia_qa

  • คำอธิบาย :

TriviaqQA เป็นชุดข้อมูลความเข้าใจในการอ่านที่ประกอบด้วยคำถาม-คำตอบ-หลักฐานมากกว่า 650,000 ข้อ TriviaqQA ประกอบด้วยคู่คำถาม-คำตอบ 95,000 คู่ที่เขียนขึ้นโดยผู้ที่ชื่นชอบเรื่องไม่สำคัญและเอกสารหลักฐานที่รวบรวมโดยอิสระ หกคู่ต่อคำถามโดยเฉลี่ย ซึ่งให้การกำกับดูแลระยะไกลคุณภาพสูงสำหรับการตอบคำถาม

FeaturesDict({
    'answer': FeaturesDict({
        'aliases': Sequence(Text(shape=(), dtype=string)),
        'matched_wiki_entity_name': Text(shape=(), dtype=string),
        'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
        'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
        'normalized_value': Text(shape=(), dtype=string),
        'type': Text(shape=(), dtype=string),
        'value': Text(shape=(), dtype=string),
    }),
    'entity_pages': Sequence({
        'doc_source': Text(shape=(), dtype=string),
        'filename': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'wiki_context': Text(shape=(), dtype=string),
    }),
    'question': Text(shape=(), dtype=string),
    'question_id': Text(shape=(), dtype=string),
    'question_source': Text(shape=(), dtype=string),
    'search_results': Sequence({
        'description': Text(shape=(), dtype=string),
        'filename': Text(shape=(), dtype=string),
        'rank': int32,
        'search_context': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'url': Text(shape=(), dtype=string),
    }),
})
  • เอกสารคุณสมบัติ :
คุณสมบัติ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
คำตอบ คุณสมบัติDict
คำตอบ/นามแฝง ลำดับ (ข้อความ) (ไม่มี,) สตริง
คำตอบ/matched_wiki_entity_name ข้อความ สตริง
คำตอบ / normalized_aliases ลำดับ (ข้อความ) (ไม่มี,) สตริง
คำตอบ/normalized_matched_wiki_entity_name ข้อความ สตริง
คำตอบ/ค่าปกติ ข้อความ สตริง
ตอบ/พิมพ์ ข้อความ สตริง
คำตอบ/ค่า ข้อความ สตริง
เอนทิตี_เพจ ลำดับ
entity_pages/doc_source ข้อความ สตริง
entity_pages/ชื่อไฟล์ ข้อความ สตริง
entity_pages/ชื่อเรื่อง ข้อความ สตริง
entity_pages/wiki_context ข้อความ สตริง
คำถาม ข้อความ สตริง
คำถาม_id ข้อความ สตริง
คำถาม_แหล่งที่มา ข้อความ สตริง
ผลการค้นหา ลำดับ
search_results/description ข้อความ สตริง
search_results/ชื่อไฟล์ ข้อความ สตริง
search_results/อันดับ เทนเซอร์ int32
search_results/search_context ข้อความ สตริง
search_results/title ข้อความ สตริง
search_results/url ข้อความ สตริง
  • คีย์ภายใต้การดูแล (ดู as_supervised doc ): None

  • รูปภาพ ( tfds.show_examples ): ไม่รองรับ

  • การอ้างอิง :

@article{2017arXivtriviaqa,
       author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
                 Daniel and {Zettlemoyer}, Luke},
        title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
      journal = {arXiv e-prints},
         year = 2017,
          eid = {arXiv:1705.03551},
        pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
       eprint = {1705.03551},
}

trivia_qa/rc (การกำหนดค่าเริ่มต้น)

  • คำอธิบายการกำหนดค่า : คู่คำถาม-คำตอบ โดยที่เอกสารทั้งหมดสำหรับคำถามที่กำหนดมีสตริงคำตอบ รวมบริบทจากวิกิพีเดียและผลการค้นหา

  • ขนาดการดาวน์โหลด : 2.48 GiB

  • ขนาดชุดข้อมูล : 14.99 GiB

  • แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่

  • แยก :

แยก ตัวอย่าง
'test' 17,210
'train' 138,384
'validation' 18,669

trivia_qa/rc.nocontext

  • คำอธิบายการกำหนดค่า : คู่คำถาม-คำตอบ โดยที่เอกสารทั้งหมดสำหรับคำถามที่กำหนดมีสตริงคำตอบ

  • ขนาดการดาวน์โหลด : 2.48 GiB

  • ขนาดชุดข้อมูล : 196.84 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่ (ทดสอบ ตรวจสอบ) เฉพาะเมื่อ shuffle_files=False (รถไฟ)

  • แยก :

แยก ตัวอย่าง
'test' 17,210
'train' 138,384
'validation' 18,669

trivia_qa/ไม่กรอง

  • คำอธิบายการกำหนดค่า : คู่คำถามและคำตอบ 110k สำหรับ QA แบบโดเมนเปิด โดยที่เอกสารทั้งหมดสำหรับคำถามหนึ่งๆ ไม่ได้มีสตริงคำตอบ ทำให้ชุดข้อมูลที่ไม่มีการกรองเหมาะสมมากขึ้นสำหรับ QA แบบ IR รวมบริบทจากวิกิพีเดียและผลการค้นหา

  • ขนาดการดาวน์โหลด : 3.07 GiB

  • ขนาดชุดข้อมูล : 27.27 GiB

  • แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่

  • แยก :

แยก ตัวอย่าง
'test' 10,832
'train' 87,622
'validation' 11,313

trivia_qa/unfiltered.nocontext

  • คำอธิบายการกำหนดค่า : คู่คำถามและคำตอบ 110k สำหรับ QA แบบโดเมนเปิด โดยที่เอกสารทั้งหมดสำหรับคำถามหนึ่งๆ ไม่ได้มีสตริงคำตอบ ทำให้ชุดข้อมูลที่ไม่มีการกรองเหมาะสมมากขึ้นสำหรับ QA แบบ IR

  • ขนาดการดาวน์โหลด : 603.25 MiB

  • ขนาดชุดข้อมูล : 119.78 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'test' 10,832
'train' 87,622
'validation' 11,313
,

  • คำอธิบาย :

TriviaqQA เป็นชุดข้อมูลความเข้าใจในการอ่านที่ประกอบด้วยคำถาม-คำตอบ-หลักฐานมากกว่า 650,000 ข้อ TriviaqQA ประกอบด้วยคู่คำถาม-คำตอบ 95,000 คู่ที่เขียนขึ้นโดยผู้ที่ชื่นชอบเรื่องไม่สำคัญและเอกสารหลักฐานที่รวบรวมโดยอิสระ หกคู่ต่อคำถามโดยเฉลี่ย ซึ่งให้การกำกับดูแลระยะไกลคุณภาพสูงสำหรับการตอบคำถาม

FeaturesDict({
    'answer': FeaturesDict({
        'aliases': Sequence(Text(shape=(), dtype=string)),
        'matched_wiki_entity_name': Text(shape=(), dtype=string),
        'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
        'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
        'normalized_value': Text(shape=(), dtype=string),
        'type': Text(shape=(), dtype=string),
        'value': Text(shape=(), dtype=string),
    }),
    'entity_pages': Sequence({
        'doc_source': Text(shape=(), dtype=string),
        'filename': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'wiki_context': Text(shape=(), dtype=string),
    }),
    'question': Text(shape=(), dtype=string),
    'question_id': Text(shape=(), dtype=string),
    'question_source': Text(shape=(), dtype=string),
    'search_results': Sequence({
        'description': Text(shape=(), dtype=string),
        'filename': Text(shape=(), dtype=string),
        'rank': int32,
        'search_context': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'url': Text(shape=(), dtype=string),
    }),
})
  • เอกสารคุณสมบัติ :
คุณสมบัติ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
คำตอบ คุณสมบัติDict
คำตอบ/นามแฝง ลำดับ (ข้อความ) (ไม่มี,) สตริง
คำตอบ/matched_wiki_entity_name ข้อความ สตริง
คำตอบ / normalized_aliases ลำดับ (ข้อความ) (ไม่มี,) สตริง
คำตอบ/normalized_matched_wiki_entity_name ข้อความ สตริง
คำตอบ/ค่าปกติ ข้อความ สตริง
ตอบ/พิมพ์ ข้อความ สตริง
คำตอบ/ค่า ข้อความ สตริง
เอนทิตี_เพจ ลำดับ
entity_pages/doc_source ข้อความ สตริง
entity_pages/ชื่อไฟล์ ข้อความ สตริง
entity_pages/ชื่อเรื่อง ข้อความ สตริง
entity_pages/wiki_context ข้อความ สตริง
คำถาม ข้อความ สตริง
คำถาม_id ข้อความ สตริง
คำถาม_แหล่งที่มา ข้อความ สตริง
ผลการค้นหา ลำดับ
search_results/description ข้อความ สตริง
search_results/ชื่อไฟล์ ข้อความ สตริง
search_results/อันดับ เทนเซอร์ int32
search_results/search_context ข้อความ สตริง
search_results/title ข้อความ สตริง
search_results/url ข้อความ สตริง
  • คีย์ภายใต้การดูแล (ดู as_supervised doc ): None

  • รูปภาพ ( tfds.show_examples ): ไม่รองรับ

  • การอ้างอิง :

@article{2017arXivtriviaqa,
       author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
                 Daniel and {Zettlemoyer}, Luke},
        title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
      journal = {arXiv e-prints},
         year = 2017,
          eid = {arXiv:1705.03551},
        pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
       eprint = {1705.03551},
}

trivia_qa/rc (การกำหนดค่าเริ่มต้น)

  • คำอธิบายการกำหนดค่า : คู่คำถาม-คำตอบ โดยที่เอกสารทั้งหมดสำหรับคำถามที่กำหนดมีสตริงคำตอบ รวมบริบทจากวิกิพีเดียและผลการค้นหา

  • ขนาดการดาวน์โหลด : 2.48 GiB

  • ขนาดชุดข้อมูล : 14.99 GiB

  • แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่

  • แยก :

แยก ตัวอย่าง
'test' 17,210
'train' 138,384
'validation' 18,669

trivia_qa/rc.nocontext

  • คำอธิบายการกำหนดค่า : คู่คำถาม-คำตอบ โดยที่เอกสารทั้งหมดสำหรับคำถามที่กำหนดมีสตริงคำตอบ

  • ขนาดการดาวน์โหลด : 2.48 GiB

  • ขนาดชุดข้อมูล : 196.84 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่ (ทดสอบ ตรวจสอบ) เฉพาะเมื่อ shuffle_files=False (รถไฟ)

  • แยก :

แยก ตัวอย่าง
'test' 17,210
'train' 138,384
'validation' 18,669

trivia_qa/ไม่กรอง

  • คำอธิบายการกำหนดค่า : คู่คำถามและคำตอบ 110k สำหรับ QA แบบโดเมนเปิด โดยที่เอกสารทั้งหมดสำหรับคำถามหนึ่งๆ ไม่ได้มีสตริงคำตอบ ทำให้ชุดข้อมูลที่ไม่มีการกรองเหมาะสมมากขึ้นสำหรับ QA แบบ IR รวมบริบทจากวิกิพีเดียและผลการค้นหา

  • ขนาดการดาวน์โหลด : 3.07 GiB

  • ขนาดชุดข้อมูล : 27.27 GiB

  • แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่

  • แยก :

แยก ตัวอย่าง
'test' 10,832
'train' 87,622
'validation' 11,313

trivia_qa/unfiltered.nocontext

  • คำอธิบายการกำหนดค่า : คู่คำถามและคำตอบ 110k สำหรับ QA แบบโดเมนเปิด โดยที่เอกสารทั้งหมดสำหรับคำถามหนึ่งๆ ไม่ได้มีสตริงคำตอบ ทำให้ชุดข้อมูลที่ไม่มีการกรองเหมาะสมมากขึ้นสำหรับ QA แบบ IR

  • ขนาดการดาวน์โหลด : 603.25 MiB

  • ขนาดชุดข้อมูล : 119.78 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'test' 10,832
'train' 87,622
'validation' 11,313