Google I/O — это обертка! Наверстать упущенное в сеансах TensorFlow Просмотреть сеансы

дротик

  • Описание :

DART (генерация записи данных в текст) содержит отношения объектов RDF, аннотированные описаниями предложений, которые охватывают все факты в тройном наборе. DART был создан с использованием существующих наборов данных, таких как: WikiTableQuestions, WikiSQL, WebNLG и Cleaned E2E. Таблицы из WikiTableQuestions и WikiSQL были преобразованы в тройки субъект-предикат-объект, а их текстовые аннотации в основном были взяты из MTurk. Осмысленные представления в E2E также были преобразованы в тройки и использованы их описания, некоторые из них, которые не могли быть преобразованы, были отброшены.

Разделения наборов данных E2E и WebNLG сохраняются, а для вопросов WikiTableQuestions и WikiSQL используется подобие Jaccard для сохранения похожих таблиц в одном наборе (train/dev/tes).

Этот набор данных построен в соответствии со стандартизированным форматом таблицы.

  • Домашняя страница : https://github.com/Yale-LILY/dart

  • Исходный код : tfds.structured.dart.Dart

  • Версии :

    • 0.1.0 (по умолчанию): нет примечаний к выпуску.
  • Размер загрузки : 249.71 MiB

  • Размер набора данных : 38.83 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'test' 12 552
'train' 62 659
'validation' 6980
  • Структура функции :
FeaturesDict({
    'input_text': FeaturesDict({
        'table': Sequence({
            'column_header': tf.string,
            'content': tf.string,
            'row_number': tf.int16,
        }),
    }),
    'target_text': tf.string,
})
  • Документация по функциям :
Характерная черта Сорт Форма Dтип Описание
ОсобенностиDict
input_text ОсобенностиDict
input_text/таблица Последовательность
input_text/таблица/column_header Тензор tf.string
input_text/таблица/содержание Тензор tf.string
input_text/таблица/номер_строки Тензор tf.int16
целевой_текст Тензор tf.string
  • Цитата :
@article{radev2020dart,
  title={DART: Open-Domain Structured Data Record to Text Generation},
  author={Dragomir Radev and Rui Zhang and Amrit Rau and Abhinand Sivaprasad and Chiachun Hsieh and Nazneen Fatema Rajani and Xiangru Tang and Aadit Vyas and Neha Verma and Pranav Krishna and Yangxiaokang Liu and Nadia Irwanto and Jessica Pan and Faiaz Rahman and Ahmad Zaidi and Murori Mutuma and Yasin Tarabar and Ankit Gupta and Tao Yu and Yi Chern Tan and Xi Victoria Lin and Caiming Xiong and Richard Socher},
  journal={arXiv preprint arXiv:2007.02871},
  year={2020}