мрка

  • Описание :

Общая задача MRQA 2019 фокусируется на обобщении ответов на вопросы. Эффективная система ответов на вопросы должна делать больше, чем просто интерполировать обучающий набор для ответов на тестовые примеры, взятые из того же дистрибутива: она также должна уметь экстраполировать на примеры вне дистрибутива — это значительно более сложная задача.

MRQA адаптирует и объединяет несколько отдельных наборов данных для ответов на вопросы (тщательно отобранные подмножества существующих наборов данных) в один и тот же формат (формат SQuAD). Среди них шесть наборов данных были доступны для обучения и шесть наборов данных были доступны для тестирования. Небольшие части обучающих наборов данных были сохранены как данные в предметной области, которые можно использовать для разработки. Наборы данных тестирования содержат только данные вне домена. Этот тест выпущен как часть общей задачи MRQA 2019.

Дополнительную информацию можно найти по адресу: <a href="https://mrqa.github.io/2019/shared.html">https://mrqa.github.io/2019/shared.html</a> .

FeaturesDict({
    'answers': Sequence(string),
    'context': string,
    'context_tokens': Sequence({
        'offsets': int32,
        'tokens': string,
    }),
    'detected_answers': Sequence({
        'char_spans': Sequence({
            'end': int32,
            'start': int32,
        }),
        'text': string,
        'token_spans': Sequence({
            'end': int32,
            'start': int32,
        }),
    }),
    'qid': string,
    'question': string,
    'question_tokens': Sequence({
        'offsets': int32,
        'tokens': string,
    }),
    'subset': string,
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
ответы Последовательность (тензор) (Никто,) нить
контекст Тензор нить
context_tokens Последовательность
context_tokens/смещения Тензор int32
context_tokens/токены Тензор нить
обнаруженные_ответы Последовательность
обнаруженные_ответы/char_spans Последовательность
обнаруженные_ответы/char_spans/конец Тензор int32
обнаруженные_ответы/char_spans/начало Тензор int32
обнаруженные_ответы/текст Тензор нить
обнаруженные_ответы/токен_промежутки Последовательность
обнаруженные_ответы/token_spans/конец Тензор int32
обнаруженные_ответы/token_spans/начало Тензор int32
четыре раза в день Тензор нить
вопрос Тензор нить
question_tokens Последовательность
question_tokens/смещения Тензор int32
question_tokens/токены Тензор нить
подмножество Тензор нить

mrqa/squad (конфигурация по умолчанию)

  • Описание конфигурации : набор данных SQuAD (Стэнфордский набор данных для ответов на вопросы) используется в качестве основы для общего формата задачи. Краудворкерам показывают абзацы из Википедии и просят написать вопросы с отрывочными ответами.

  • Размер загрузки : 29.66 MiB

  • Размер набора данных : 271.43 MiB .

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'train' 86 588
'validation' 10 507
  • Цитата :
@inproceedings{rajpurkar-etal-2016-squad,
    title = "{SQ}u{AD}: 100,000+ Questions for Machine Comprehension of Text",
    author = "Rajpurkar, Pranav  and
      Zhang, Jian  and
      Lopyrev, Konstantin  and
      Liang, Percy",
    booktitle = "Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing",
    month = nov,
    year = "2016",
    address = "Austin, Texas",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D16-1264",
    doi = "10.18653/v1/D16-1264",
    pages = "2383--2392",
}

@inproceedings{fisch-etal-2019-mrqa,
    title = "{MRQA} 2019 Shared Task: Evaluating Generalization in Reading Comprehension",
    author = "Fisch, Adam  and
      Talmor, Alon  and
      Jia, Robin  and
      Seo, Minjoon  and
      Choi, Eunsol  and
      Chen, Danqi",
    booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-5801",
    doi = "10.18653/v1/D19-5801",
    pages = "1--13",
}

Note that each MRQA dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."

мрка/news_qa

  • Описание конфигурации : две группы краудворкеров задают вопросы и отвечают на них на основе новостных статей CNN. «Вопросители» видят только заголовок статьи и краткое изложение, а «ответчики» видят всю статью. Вопросы, на которые нет ответа или которые помечены в наборе данных как несогласованные с аннотатором, отбрасываются.

  • Размер загрузки : 56.83 MiB

  • Размер набора данных : 654.25 MiB .

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'train' 74 160
'validation' 4212
  • Цитата :
@inproceedings{trischler-etal-2017-newsqa,
        title = "{N}ews{QA}: A Machine Comprehension Dataset",
        author = "Trischler, Adam  and
          Wang, Tong  and
          Yuan, Xingdi  and
          Harris, Justin  and
          Sordoni, Alessandro  and
          Bachman, Philip  and
          Suleman, Kaheer",
        booktitle = "Proceedings of the 2nd Workshop on Representation Learning for {NLP}",
        month = aug,
        year = "2017",
        address = "Vancouver, Canada",
        publisher = "Association for Computational Linguistics",
        url = "https://aclanthology.org/W17-2623",
        doi = "10.18653/v1/W17-2623",
        pages = "191--200",
    }
#
@inproceedings{fisch-etal-2019-mrqa,
    title = "{MRQA} 2019 Shared Task: Evaluating Generalization in Reading Comprehension",
    author = "Fisch, Adam  and
      Talmor, Alon  and
      Jia, Robin  and
      Seo, Minjoon  and
      Choi, Eunsol  and
      Chen, Danqi",
    booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-5801",
    doi = "10.18653/v1/D19-5801",
    pages = "1--13",
}

Note that each MRQA dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."

mrqa/trivia_qa

  • Описание конфигурации : Пары вопросов и ответов взяты с веб-сайтов викторин и викторин. Используется веб-версия TriviaQA, в которой контексты извлекаются из результатов поискового запроса Bing.

  • Размер загрузки : 383.14 MiB

  • Размер набора данных : 772.75 MiB .

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'train' 61 688
'validation' 7785
  • Цитата :
@inproceedings{joshi-etal-2017-triviaqa,
    title = "{T}rivia{QA}: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension",
    author = "Joshi, Mandar  and
      Choi, Eunsol  and
      Weld, Daniel  and
      Zettlemoyer, Luke",
    booktitle = "Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)",
    month = jul,
    year = "2017",
    address = "Vancouver, Canada",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/P17-1147",
    doi = "10.18653/v1/P17-1147",
    pages = "1601--1611",
}

@inproceedings{fisch-etal-2019-mrqa,
    title = "{MRQA} 2019 Shared Task: Evaluating Generalization in Reading Comprehension",
    author = "Fisch, Adam  and
      Talmor, Alon  and
      Jia, Robin  and
      Seo, Minjoon  and
      Choi, Eunsol  and
      Chen, Danqi",
    booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-5801",
    doi = "10.18653/v1/D19-5801",
    pages = "1--13",
}

Note that each MRQA dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."

mrqa/search_qa

  • Описание конфигурации : Пары вопросов и ответов взяты из Jeopardy! ТВ шоу. Контексты состоят из извлеченных фрагментов из поискового запроса Google.

  • Размер загрузки : 699.86 MiB

  • Размер набора данных : 1.38 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'train' 117 384
'validation' 16 980
  • Цитата :
@article{dunn2017searchqa,
    title={Searchqa: A new q\&a dataset augmented with context from a search engine},
    author={Dunn, Matthew and Sagun, Levent and Higgins, Mike and Guney, V Ugur and Cirik, Volkan and Cho, Kyunghyun},
    journal={arXiv preprint arXiv:1704.05179},
    year={2017}
}

@inproceedings{fisch-etal-2019-mrqa,
    title = "{MRQA} 2019 Shared Task: Evaluating Generalization in Reading Comprehension",
    author = "Fisch, Adam  and
      Talmor, Alon  and
      Jia, Robin  and
      Seo, Minjoon  and
      Choi, Eunsol  and
      Chen, Danqi",
    booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-5801",
    doi = "10.18653/v1/D19-5801",
    pages = "1--13",
}

Note that each MRQA dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."

мрка/hotpot_qa

  • Описание конфигурации : краудворкерам показываются два абзаца из Википедии, связанные с сущностями, и их просят написать и ответить на вопросы, для решения которых требуется рассуждения с несколькими переходами. В исходной настройке эти абзацы смешиваются с дополнительными отвлекающими абзацами, чтобы сделать вывод сложнее. Здесь отвлекающие абзацы не включены.

  • Размер загрузки : 111.98 MiB

  • Размер набора данных : 272.87 MiB .

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'train' 72 928
'validation' 5901
  • Цитата :
@inproceedings{yang-etal-2018-hotpotqa,
    title = "{H}otpot{QA}: A Dataset for Diverse, Explainable Multi-hop Question Answering",
    author = "Yang, Zhilin  and
      Qi, Peng  and
      Zhang, Saizheng  and
      Bengio, Yoshua  and
      Cohen, William  and
      Salakhutdinov, Ruslan  and
      Manning, Christopher D.",
    booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing",
    month = oct # "-" # nov,
    year = "2018",
    address = "Brussels, Belgium",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D18-1259",
    doi = "10.18653/v1/D18-1259",
    pages = "2369--2380",
}

@inproceedings{fisch-etal-2019-mrqa,
    title = "{MRQA} 2019 Shared Task: Evaluating Generalization in Reading Comprehension",
    author = "Fisch, Adam  and
      Talmor, Alon  and
      Jia, Robin  and
      Seo, Minjoon  and
      Choi, Eunsol  and
      Chen, Danqi",
    booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-5801",
    doi = "10.18653/v1/D19-5801",
    pages = "1--13",
}

Note that each MRQA dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."

мрка/natural_questions

  • Описание конфига : Вопросы собираются из информационных запросов к поисковой системе Google реальными пользователями в естественных условиях. Ответы на вопросы аннотированы краудворкерами на найденной странице Википедии. Собираются два типа аннотаций: 1) ограничительная рамка HTML, содержащая достаточно информации, чтобы полностью вывести ответ на вопрос (длинный ответ), и 2) поддиапазон или поддиапазоны в ограничительной рамке, которые содержат фактический ответ (краткий ответ). ). Используются только примеры с короткими ответами, а длинный ответ используется в качестве контекста.

  • Размер загрузки : 121.15 MiB

  • Размер набора данных : 339.03 MiB .

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'train' 104 071
'validation' 12 836
  • Цитата :
@article{kwiatkowski-etal-2019-natural,
    title = "Natural Questions: A Benchmark for Question Answering Research",
    author = "Kwiatkowski, Tom  and
      Palomaki, Jennimaria  and
      Redfield, Olivia  and
      Collins, Michael  and
      Parikh, Ankur  and
      Alberti, Chris  and
      Epstein, Danielle  and
      Polosukhin, Illia  and
      Devlin, Jacob  and
      Lee, Kenton  and
      Toutanova, Kristina  and
      Jones, Llion  and
      Kelcey, Matthew  and
      Chang, Ming-Wei  and
      Dai, Andrew M.  and
      Uszkoreit, Jakob  and
      Le, Quoc  and
      Petrov, Slav",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "7",
    year = "2019",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q19-1026",
    doi = "10.1162/tacl_a_00276",
    pages = "452--466",
}

@inproceedings{fisch-etal-2019-mrqa,
    title = "{MRQA} 2019 Shared Task: Evaluating Generalization in Reading Comprehension",
    author = "Fisch, Adam  and
      Talmor, Alon  and
      Jia, Robin  and
      Seo, Minjoon  and
      Choi, Eunsol  and
      Chen, Danqi",
    booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-5801",
    doi = "10.18653/v1/D19-5801",
    pages = "1--13",
}

Note that each MRQA dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."

mrqa/bio_asq

  • Описание конфигурации : BioASQ, задача по крупномасштабному биомедицинскому семантическому индексированию и ответам на вопросы, содержит пары вопросов и ответов, созданные экспертами в предметной области. Затем они вручную связываются с несколькими соответствующими научными статьями (PubMed). Полный реферат каждой из связанных статей загружается и используется в качестве отдельных контекстов (например, один вопрос может быть связан с несколькими независимыми статьями для создания нескольких пар QA-контекст). Тезисы, не содержащие точно ответа, отбрасываются.

  • Размер загрузки : 2.54 MiB

  • Размер набора данных : 6.70 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'test' 1504
  • Цитата :
@article{tsatsaronis2015overview,
    title={An overview of the BIOASQ large-scale biomedical semantic indexing and question answering competition},
    author={Tsatsaronis, George and Balikas, Georgios and Malakasiotis, Prodromos and Partalas, Ioannis and Zschunke, Matthias and Alvers, Michael R and Weissenborn, Dirk and Krithara, Anastasia and Petridis, Sergios and Polychronopoulos, Dimitris and others},
    journal={BMC bioinformatics},
    volume={16},
    number={1},
    pages={1--28},
    year={2015},
    publisher={Springer}
}

@inproceedings{fisch-etal-2019-mrqa,
    title = "{MRQA} 2019 Shared Task: Evaluating Generalization in Reading Comprehension",
    author = "Fisch, Adam  and
      Talmor, Alon  and
      Jia, Robin  and
      Seo, Minjoon  and
      Choi, Eunsol  and
      Chen, Danqi",
    booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-5801",
    doi = "10.18653/v1/D19-5801",
    pages = "1--13",
}

Note that each MRQA dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."

мрка/дроп

  • Описание конфига: Примеры DROP (Discrete Reasoning Over the content of Paragraphs) собраны аналогично SQuAD, где краудворкеров просят создать пары вопрос-ответ из абзацев Википедии. Вопросы сосредоточены на количественных рассуждениях, а исходный набор данных содержит неизвлекающие числовые ответы, а также извлекающие текстовые ответы. Используется набор вопросов, которые являются экстрактивными.

  • Размер загрузки : 578.25 KiB

  • Размер набора данных : 5.41 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'test' 1503
  • Цитата :
@inproceedings{dua-etal-2019-drop,
    title = "{DROP}: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs",
    author = "Dua, Dheeru  and
      Wang, Yizhong  and
      Dasigi, Pradeep  and
      Stanovsky, Gabriel  and
      Singh, Sameer  and
      Gardner, Matt",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1246",
    doi = "10.18653/v1/N19-1246",
    pages = "2368--2378",
}

@inproceedings{fisch-etal-2019-mrqa,
    title = "{MRQA} 2019 Shared Task: Evaluating Generalization in Reading Comprehension",
    author = "Fisch, Adam  and
      Talmor, Alon  and
      Jia, Robin  and
      Seo, Minjoon  and
      Choi, Eunsol  and
      Chen, Danqi",
    booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-5801",
    doi = "10.18653/v1/D19-5801",
    pages = "1--13",
}

Note that each MRQA dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."

мрка/duo_rc

  • Описание конфигурации : используется разделение ParaphraseRC набора данных DuoRC. В этом сеттинге собраны два разных сюжета одного и того же фильма — один из Википедии, а другой — из IMDb. Две разные группы краудворкеров задают и отвечают на вопросы о сюжете фильма, где «вопрошающим» показывается только страница Википедии, а «ответчикам» — только страница IMDb. Вопросы, отмеченные как неотвеченные, отбрасываются.

  • Размер загрузки : 1.14 MiB

  • Размер набора данных : 15.04 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'test' 1501
  • Цитата :
@inproceedings{saha-etal-2018-duorc,
    title = "{D}uo{RC}: Towards Complex Language Understanding with Paraphrased Reading Comprehension",
    author = "Saha, Amrita  and
      Aralikatte, Rahul  and
      Khapra, Mitesh M.  and
      Sankaranarayanan, Karthik",
    booktitle = "Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)",
    month = jul,
    year = "2018",
    address = "Melbourne, Australia",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/P18-1156",
    doi = "10.18653/v1/P18-1156",
    pages = "1683--1693",
}

@inproceedings{fisch-etal-2019-mrqa,
    title = "{MRQA} 2019 Shared Task: Evaluating Generalization in Reading Comprehension",
    author = "Fisch, Adam  and
      Talmor, Alon  and
      Jia, Robin  and
      Seo, Minjoon  and
      Choi, Eunsol  and
      Chen, Danqi",
    booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-5801",
    doi = "10.18653/v1/D19-5801",
    pages = "1--13",
}

Note that each MRQA dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."

мрка/раса

  • Описание конфигурации : Набор данных для понимания прочитанного из экзаменов (RACE) собирается из экзаменов на понимание прочитанного на английском языке для китайских учащихся средних и старших классов. Используется разделение средней школы (более сложное), а также отфильтровываются неявные вопросы в стиле «заполните пропуск» (которые неестественны для этой задачи).

  • Размер загрузки : 1.49 MiB

  • Размер набора данных : 3.53 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'test' 674
  • Цитата :
@inproceedings{lai-etal-2017-race,
    title = "{RACE}: Large-scale {R}e{A}ding Comprehension Dataset From Examinations",
    author = "Lai, Guokun  and
      Xie, Qizhe  and
      Liu, Hanxiao  and
      Yang, Yiming  and
      Hovy, Eduard",
    booktitle = "Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing",
    month = sep,
    year = "2017",
    address = "Copenhagen, Denmark",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D17-1082",
    doi = "10.18653/v1/D17-1082",
    pages = "785--794",
}

@inproceedings{fisch-etal-2019-mrqa,
    title = "{MRQA} 2019 Shared Task: Evaluating Generalization in Reading Comprehension",
    author = "Fisch, Adam  and
      Talmor, Alon  and
      Jia, Robin  and
      Seo, Minjoon  and
      Choi, Eunsol  and
      Chen, Danqi",
    booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-5801",
    doi = "10.18653/v1/D19-5801",
    pages = "1--13",
}

Note that each MRQA dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."

mrqa/relation_extraction

  • Описание конфигурации : при наличии набора данных, заполняющего слоты, отношения между сущностями систематически преобразуются в пары вопрос-ответ с использованием шаблонов. Например, связь educated_at(x, y) между двумя сущностями x и y, появляющимися в предложении, может быть выражена как «Где x получил образование?» с ответом у. Собирается несколько шаблонов для каждого типа отношений. Используется нулевой контрольный набор набора данных (обобщение до невидимых отношений), и сохраняются только положительные примеры.

  • Размер загрузки : 830.88 KiB

  • Размер набора данных : 3.71 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'test' 2948
  • Цитата :
@inproceedings{levy-etal-2017-zero,
    title = "Zero-Shot Relation Extraction via Reading Comprehension",
    author = "Levy, Omer  and
      Seo, Minjoon  and
      Choi, Eunsol  and
      Zettlemoyer, Luke",
    booktitle = "Proceedings of the 21st Conference on Computational Natural Language Learning ({C}o{NLL} 2017)",
    month = aug,
    year = "2017",
    address = "Vancouver, Canada",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/K17-1034",
    doi = "10.18653/v1/K17-1034",
    pages = "333--342",
}

@inproceedings{fisch-etal-2019-mrqa,
    title = "{MRQA} 2019 Shared Task: Evaluating Generalization in Reading Comprehension",
    author = "Fisch, Adam  and
      Talmor, Alon  and
      Jia, Robin  and
      Seo, Minjoon  and
      Choi, Eunsol  and
      Chen, Danqi",
    booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-5801",
    doi = "10.18653/v1/D19-5801",
    pages = "1--13",
}

Note that each MRQA dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."

mrqa/textbook_qa

  • Описание конфигурации : TextbookQA собран из уроков из учебников по естественным наукам, наукам о Земле и физическим наукам средней школы. Вопросы, сопровождаемые диаграммой или вопросы типа «Верно или неверно», не включены.

  • Размер загрузки : 1.79 MiB

  • Размер набора данных : 14.04 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'test' 1503
  • Цитата :
@inproceedings{kembhavi2017you,
    title={Are you smarter than a sixth grader? textbook question answering for multimodal machine comprehension},
    author={Kembhavi, Aniruddha and Seo, Minjoon and Schwenk, Dustin and Choi, Jonghyun and Farhadi, Ali and Hajishirzi, Hannaneh},
    booktitle={Proceedings of the IEEE Conference on Computer Vision and Pattern recognition},
    pages={4999--5007},
    year={2017}
}

@inproceedings{fisch-etal-2019-mrqa,
    title = "{MRQA} 2019 Shared Task: Evaluating Generalization in Reading Comprehension",
    author = "Fisch, Adam  and
      Talmor, Alon  and
      Jia, Robin  and
      Seo, Minjoon  and
      Choi, Eunsol  and
      Chen, Danqi",
    booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-5801",
    doi = "10.18653/v1/D19-5801",
    pages = "1--13",
}

Note that each MRQA dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."