Google I/O — это обертка! Наверстать упущенное в сеансах TensorFlow Просмотреть сеансы

wiki_auto

  • Описание:

WikiAuto предоставляет набор выровненных предложений из английской Википедии и Simple English Wikipedia в качестве ресурса для обучения системам упрощения предложений. Авторы первой толпы источников набор ручного выравнивания между предложениями в подмножестве простой английской Википедии и их соответствующих версий в английской Википедии (это соответствует manual конфигурации), то обучил нервную систему CRF , чтобы предсказать эти выравнивания. Подготовленная модель была применена для других статей в простом английской Википедии с английским коллегой , чтобы создать больший корпус выровненных предложений (соответствующих auto , auto_acl , auto_full_no_split и auto_full_with_split конфиги здесь).

@inproceedings{acl/JiangMLZX20,
  author    = {Chao Jiang and
               Mounica Maddela and
               Wuwei Lan and
               Yang Zhong and
               Wei Xu},
  editor    = {Dan Jurafsky and
               Joyce Chai and
               Natalie Schluter and
               Joel R. Tetreault},
  title     = {Neural {CRF} Model for Sentence Alignment in Text Simplification},
  booktitle = {Proceedings of the 58th Annual Meeting of the Association for Computational
               Linguistics, {ACL} 2020, Online, July 5-10, 2020},
  pages     = {7943--7960},
  publisher = {Association for Computational Linguistics},
  year      = {2020},
  url       = {https://www.aclweb.org/anthology/2020.acl-main.709/}
}

wiki_auto / manual (конфигурация по умолчанию)

  • Описание Config: Набор 10K Википедия пары предложений выровненных работников толпы.

  • Скачать Размер: 53.47 MiB

  • Dataset Размер: 76.87 MiB

  • Авто-кэшируются ( документация ): Да

  • расколы:

Расколоть Примеры
'dev' 73 249
'test' 118 074
  • Особенности:
FeaturesDict({
    'GLEU-score': tf.float64,
    'alignment_label': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    'normal_sentence': Text(shape=(), dtype=tf.string),
    'normal_sentence_id': Text(shape=(), dtype=tf.string),
    'simple_sentence': Text(shape=(), dtype=tf.string),
    'simple_sentence_id': Text(shape=(), dtype=tf.string),
})

wiki_auto / auto_acl

  • Config Описание: пары Речевые выровнены обучить систему ACL2020.

  • Скачать Размер: 112.60 MiB

  • Dataset Размер: 138.83 MiB

  • Авто-кэшируются ( документация ): Только при shuffle_files=False (полный)

  • расколы:

Расколоть Примеры
'full' 488 332
  • Особенности:
FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=tf.string),
    'simple_sentence': Text(shape=(), dtype=tf.string),
})

wiki_auto / auto_full_no_split

  • Описание Config: Все автоматически выровненные пары предложений без предложения расщепления.

  • Скачать Размер: 135.02 MiB

  • Dataset Размер: 166.78 MiB

  • Авто-кэшируются ( документация ): Только при shuffle_files=False (полный)

  • расколы:

Расколоть Примеры
'full' 591 994
  • Особенности:
FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=tf.string),
    'simple_sentence': Text(shape=(), dtype=tf.string),
})

wiki_auto / auto_full_with_split

  • Описание Config: Все автоматически выровненные пары предложения с предложением расщеплением.

  • Скачать Размер: 115.09 MiB

  • Dataset Размер: 141.20 MiB

  • Авто-кэшируются ( документация ): Только при shuffle_files=False (полный)

  • расколы:

Расколоть Примеры
'full' 483 801
  • Особенности:
FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=tf.string),
    'simple_sentence': Text(shape=(), dtype=tf.string),
})

wiki_auto / auto

  • Описание конфигурации: Большой набор автоматически выравниваются пары предложений.

  • Скачать Размер: 2.01 GiB

  • Dataset Размер: 1.76 GiB

  • Авто-кэшируются ( документация ): Нет

  • расколы:

Расколоть Примеры
'part_1' 125 059
'part_2' 13 036
  • Особенности:
FeaturesDict({
    'example_id': Text(shape=(), dtype=tf.string),
    'normal': FeaturesDict({
        'normal_article_content': Sequence({
            'normal_sentence': Text(shape=(), dtype=tf.string),
            'normal_sentence_id': Text(shape=(), dtype=tf.string),
        }),
        'normal_article_id': tf.int32,
        'normal_article_title': Text(shape=(), dtype=tf.string),
        'normal_article_url': Text(shape=(), dtype=tf.string),
    }),
    'paragraph_alignment': Sequence({
        'normal_paragraph_id': Text(shape=(), dtype=tf.string),
        'simple_paragraph_id': Text(shape=(), dtype=tf.string),
    }),
    'sentence_alignment': Sequence({
        'normal_sentence_id': Text(shape=(), dtype=tf.string),
        'simple_sentence_id': Text(shape=(), dtype=tf.string),
    }),
    'simple': FeaturesDict({
        'simple_article_content': Sequence({
            'simple_sentence': Text(shape=(), dtype=tf.string),
            'simple_sentence_id': Text(shape=(), dtype=tf.string),
        }),
        'simple_article_id': tf.int32,
        'simple_article_title': Text(shape=(), dtype=tf.string),
        'simple_article_url': Text(shape=(), dtype=tf.string),
    }),
})