TFDS теперь поддерживает формат Croissant 🥐 ! Прочтите документацию , чтобы узнать больше.

Эта страница переведена с помощью Cloud Translation API.

wiki_auto

Описание :

WikiAuto предоставляет набор выровненных предложений из английской Википедии и простой английской Википедии в качестве ресурса для обучения систем упрощения предложений. Сначала авторы собрали набор ручных выравниваний между предложениями в подмножестве Simple English Wikipedia и их соответствующими версиями в английской Википедии (это соответствует manual конфигурации), а затем обучили нейронную CRF-систему прогнозировать эти выравнивания. Затем обученная модель была применена к другим статьям в Википедии на простом английском языке с английским аналогом для создания большего корпуса выровненных предложений (соответствующих конфигурациям auto , auto_acl , auto_full_no_split и auto_full_with_split здесь).

Домашняя страница : https://github.com/chaojiang06/wiki-auto
Исходный код : tfds.text_simplification.wiki_auto.WikiAuto
Версии :
- 1.0.0 (по умолчанию): Первоначальный выпуск.
Ключи под наблюдением (см . документ as_supervised ): None
Рисунок ( tfds.show_examples ): не поддерживается.
Цитата :

@inproceedings{acl/JiangMLZX20,
  author    = {Chao Jiang and
               Mounica Maddela and
               Wuwei Lan and
               Yang Zhong and
               Wei Xu},
  editor    = {Dan Jurafsky and
               Joyce Chai and
               Natalie Schluter and
               Joel R. Tetreault},
  title     = {Neural {CRF} Model for Sentence Alignment in Text Simplification},
  booktitle = {Proceedings of the 58th Annual Meeting of the Association for Computational
               Linguistics, {ACL} 2020, Online, July 5-10, 2020},
  pages     = {7943--7960},
  publisher = {Association for Computational Linguistics},
  year      = {2020},
  url       = {https://www.aclweb.org/anthology/2020.acl-main.709/}
}

wiki_auto/manual (конфигурация по умолчанию)

Описание конфигурации : набор из 10 тысяч пар предложений из Википедии, выровненных краудворкерами.
Размер загрузки : 53.47 MiB
Размер набора данных : 76.87 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'dev'`	73 249
`'test'`	118 074

Структура функции :

FeaturesDict({
    'GLEU-score': float64,
    'alignment_label': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'normal_sentence': Text(shape=(), dtype=string),
    'normal_sentence_id': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
    'simple_sentence_id': Text(shape=(), dtype=string),
})

Документация по функциям :

Особенность	Учебный класс	Dтип
	ОсобенностиDict
GLEU-оценка	Тензор	поплавок64
выравнивание_метка	Метка класса	int64
normal_sentence	Текст	нить
normal_sentence_id	Текст	нить
простое предложение	Текст	нить
simple_sentence_id	Текст	нить

Примеры ( tfds.as_dataframe ):

wiki_auto/auto_acl

Описание конфигурации : пары предложений, выровненные для обучения системы ACL2020.
Размер загрузки : 112.60 MiB
Размер набора данных : 138.83 MiB .
Автокэширование ( документация ): только когда shuffle_files=False (полный)
Сплиты :

Расколоть	Примеры
`'full'`	488 332

Структура функции :

FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})

Документация по функциям :

Особенность	Учебный класс	Dтип
	ОсобенностиDict
normal_sentence	Текст	нить
простое предложение	Текст	нить

Примеры ( tfds.as_dataframe ):

wiki_auto/auto_full_no_split

Описание конфигурации : все автоматически выровненные пары предложений без разделения предложений.
Размер загрузки : 135.02 MiB
Размер набора данных : 166.78 MiB .
Автокэширование ( документация ): только когда shuffle_files=False (полный)
Сплиты :

Расколоть	Примеры
`'full'`	591 994

Структура функции :

FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})

Документация по функциям :

Особенность	Учебный класс	Dтип
	ОсобенностиDict
normal_sentence	Текст	нить
простое предложение	Текст	нить

Примеры ( tfds.as_dataframe ):

wiki_auto/auto_full_with_split

Описание конфигурации : все автоматически выровненные пары предложений с разделением предложений.
Размер загрузки : 115.09 MiB
Размер набора данных : 141.20 MiB .
Автокэширование ( документация ): только когда shuffle_files=False (полный)
Сплиты :

Расколоть	Примеры
`'full'`	483 801

Структура функции :

FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})

Документация по функциям :

Особенность	Учебный класс	Dтип
	ОсобенностиDict
normal_sentence	Текст	нить
простое предложение	Текст	нить

Примеры ( tfds.as_dataframe ):

wiki_auto/авто

Описание конфига : большой набор автоматически выровненных пар предложений.
Размер загрузки : 2.01 GiB
Размер набора данных : 1.76 GiB
Автоматическое кэширование ( документация ): Нет
Сплиты :

Расколоть	Примеры
`'part_1'`	125 059
`'part_2'`	13 036

Структура функции :

FeaturesDict({
    'example_id': Text(shape=(), dtype=string),
    'normal': FeaturesDict({
        'normal_article_content': Sequence({
            'normal_sentence': Text(shape=(), dtype=string),
            'normal_sentence_id': Text(shape=(), dtype=string),
        }),
        'normal_article_id': int32,
        'normal_article_title': Text(shape=(), dtype=string),
        'normal_article_url': Text(shape=(), dtype=string),
    }),
    'paragraph_alignment': Sequence({
        'normal_paragraph_id': Text(shape=(), dtype=string),
        'simple_paragraph_id': Text(shape=(), dtype=string),
    }),
    'sentence_alignment': Sequence({
        'normal_sentence_id': Text(shape=(), dtype=string),
        'simple_sentence_id': Text(shape=(), dtype=string),
    }),
    'simple': FeaturesDict({
        'simple_article_content': Sequence({
            'simple_sentence': Text(shape=(), dtype=string),
            'simple_sentence_id': Text(shape=(), dtype=string),
        }),
        'simple_article_id': int32,
        'simple_article_title': Text(shape=(), dtype=string),
        'simple_article_url': Text(shape=(), dtype=string),
    }),
})

Документация по функциям :

Особенность	Учебный класс	Dтип
	ОсобенностиDict
example_id	Текст	нить
обычный	ОсобенностиDict
обычный/нормальный_содержимое_статьи	Последовательность
обычный/нормальный_содержимое_статьи/нормальный_предложение	Текст	нить
нормальный/нормальный_содержимое_статьи/нормальный_идентификатор_предложения	Текст	нить
обычный/нормальный_идентификатор_статьи	Тензор	int32
обычный/нормальный_статья_название	Текст	нить
обычный/нормальный_адрес_статьи	Текст	нить
параграф_выравнивание	Последовательность
paragraph_alignment/normal_paragraph_id	Текст	нить
paragraph_alignment/simple_paragraph_id	Текст	нить
предложение_выравнивание	Последовательность
предложение_выравнивание/нормальное_предложение_идентификатор	Текст	нить
предложение_выравнивание/simple_sentence_id	Текст	нить
просто	ОсобенностиDict
простой/простой_article_content	Последовательность
простое/простое_содержимое_статьи/простое_предложение	Текст	нить
простой/simple_article_content/simple_sentence_id	Текст	нить
простой/simple_article_id	Тензор	int32
простой/простой_статья_название	Текст	нить
простой/простой_article_url	Текст	нить

Примеры ( tfds.as_dataframe ):

wiki_auto Оптимизируйте свои подборки Сохраняйте и классифицируйте контент в соответствии со своими настройками.