- Описание:
Таблицы Википедии, содержащие как минимум 3 строки и 2 столбца, по 3 случайные строки для каждой таблицы были выбраны для дальнейшего аннотирования. Каждая строка была аннотирована другим человеком, поэтому набор данных состоит из пар (одна таблица строк, текстовое описание). Аннотации включают не менее 2 ячеек в строке, но не обязательно включать их все. Набор данных соответствует стандартизированному формату таблицы.
Домашняя страница: https://github.com/msra-nlc/Table2Text
Исходный код:
tfds.structured.wiki_table_text.WikiTableText
Версии:
-
1.0.0
( по умолчанию): Первый выпуск.
-
Скачать Размер:
3.70 MiB
Dataset Размер:
4.64 MiB
Авто-кэшируются ( документация ): Да
расколы:
Расколоть | Примеры |
---|---|
'test' | 2 000 |
'train' | 10 000 |
'validation' | 1,318 |
- Особенности:
FeaturesDict({
'input_text': FeaturesDict({
'table': Sequence({
'column_header': tf.string,
'content': tf.string,
'row_number': tf.int16,
}),
}),
'target_text': tf.string,
})
Контролируемые ключи (см
as_supervised
документ ):('input_text', 'target_text')
Рис ( tfds.show_examples ): Не поддерживается.
Примеры ( tfds.as_dataframe ):
- Образец цитирования:
@inproceedings{bao2018table,
title={Table-to-Text: Describing Table Region with Natural Language},
author={Junwei Bao and Duyu Tang and Nan Duan and Zhao Yan and Yuanhua Lv and Ming Zhou and Tiejun Zhao},
booktitle={AAAI},
url={https://www.aaai.org/ocs/index.php/AAAI/AAAI18/paper/download/16138/16782},
year={2018}
}