- Açıklama:
WikiAuto, cümle sadeleştirme sistemlerini eğitmek için bir kaynak olarak İngilizce Wikipedia ve Simple English Wikipedia'dan bir dizi hizalanmış cümle sağlar. Yazarlar ilk Basit İngilizce Wikipedia ve İngilizce Wikipedia bunlara karşılık gelen sürümlerine (bu karşılık bir alt kümesinde cümleler arasında manuel hizalamalarını kümesi kitle kaynaklı manual
yapılandırma), daha sonra bu hizalamalarını tahmin etmek bir sinir CRF sistemi eğitimli. Eğitimli model daha sonra (tekabül hizalanmış cümle daha büyük bir külliyat oluşturmak için bir İngiliz meslektaşı ile Basit İngilizce Wikipedia diğer makalelere uygulanmıştır auto
, auto_acl
, auto_full_no_split
ve auto_full_with_split
burada yapılandırmaları).
Anasayfa: https://github.com/chaojiang06/wiki-auto
Kaynak kodu:
tfds.text_simplification.wiki_auto.WikiAuto
sürümleri:
-
1.0.0
(varsayılan): Başlangıç salım.
-
Denetimli tuşları (Bkz
as_supervised
doc ):None
Şekil ( tfds.show_examples ): desteklenmez.
Citation:
@inproceedings{acl/JiangMLZX20,
author = {Chao Jiang and
Mounica Maddela and
Wuwei Lan and
Yang Zhong and
Wei Xu},
editor = {Dan Jurafsky and
Joyce Chai and
Natalie Schluter and
Joel R. Tetreault},
title = {Neural {CRF} Model for Sentence Alignment in Text Simplification},
booktitle = {Proceedings of the 58th Annual Meeting of the Association for Computational
Linguistics, {ACL} 2020, Online, July 5-10, 2020},
pages = {7943--7960},
publisher = {Association for Computational Linguistics},
year = {2020},
url = {https://www.aclweb.org/anthology/2020.acl-main.709/}
}
wiki_auto/manuel (varsayılan yapılandırma)
Yapılandırma tanımı: kalabalık işçiler tarafından hizalanmış 10K Vikipedi cümle çiftleri kümesi.
İndirme boyutu:
53.47 MiB
Veri kümesi boyutu:
76.87 MiB
Otomatik önbelleğe ( dokümantasyon ): Evet
Splits:
Bölmek | Örnekler |
---|---|
'dev' | 73.249 |
'test' | 118.074 |
- Özellikler:
FeaturesDict({
'GLEU-score': tf.float64,
'alignment_label': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
'normal_sentence': Text(shape=(), dtype=tf.string),
'normal_sentence_id': Text(shape=(), dtype=tf.string),
'simple_sentence': Text(shape=(), dtype=tf.string),
'simple_sentence_id': Text(shape=(), dtype=tf.string),
})
- Örnekler ( tfds.as_dataframe ):
wiki_auto/auto_acl
Yapılandırma açıklaması: Cümle çiftleri ACL2020 sistemi tren hizalanır.
İndirme boyutu:
112.60 MiB
Veri kümesi boyutu:
138.83 MiB
Otomatik önbelleğe ( dokümantasyon ): Yalnızca
shuffle_files=False
(tam)Splits:
Bölmek | Örnekler |
---|---|
'full' | 488.332 |
- Özellikler:
FeaturesDict({
'normal_sentence': Text(shape=(), dtype=tf.string),
'simple_sentence': Text(shape=(), dtype=tf.string),
})
- Örnekler ( tfds.as_dataframe ):
wiki_auto/auto_full_no_split
Yapılandırma tanımı: cümle yarmadan tümü otomatik hizalanmış cümle çiftleri.
İndirme boyutu:
135.02 MiB
Veri kümesi boyutu:
166.78 MiB
Otomatik önbelleğe ( dokümantasyon ): Yalnızca
shuffle_files=False
(tam)Splits:
Bölmek | Örnekler |
---|---|
'full' | 591.994 |
- Özellikler:
FeaturesDict({
'normal_sentence': Text(shape=(), dtype=tf.string),
'simple_sentence': Text(shape=(), dtype=tf.string),
})
- Örnekler ( tfds.as_dataframe ):
wiki_auto/auto_full_with_split
Yapılandırma tanımı: cümle bölme ile tüm otomatik hizalanmış cümle çiftleri.
İndirme boyutu:
115.09 MiB
Veri kümesi boyutu:
141.20 MiB
Otomatik önbelleğe ( dokümantasyon ): Yalnızca
shuffle_files=False
(tam)Splits:
Bölmek | Örnekler |
---|---|
'full' | 483.801 |
- Özellikler:
FeaturesDict({
'normal_sentence': Text(shape=(), dtype=tf.string),
'simple_sentence': Text(shape=(), dtype=tf.string),
})
- Örnekler ( tfds.as_dataframe ):
wiki_auto/auto
Yapılandırma açıklaması: otomatik olarak hizalanır cümle çiftleri büyük bir set.
İndirme boyutu:
2.01 GiB
Veri kümesi boyutu:
1.76 GiB
Otomatik önbelleğe ( dokümantasyon ): Hayır
Splits:
Bölmek | Örnekler |
---|---|
'part_1' | 125.059 |
'part_2' | 13.036 |
- Özellikler:
FeaturesDict({
'example_id': Text(shape=(), dtype=tf.string),
'normal': FeaturesDict({
'normal_article_content': Sequence({
'normal_sentence': Text(shape=(), dtype=tf.string),
'normal_sentence_id': Text(shape=(), dtype=tf.string),
}),
'normal_article_id': tf.int32,
'normal_article_title': Text(shape=(), dtype=tf.string),
'normal_article_url': Text(shape=(), dtype=tf.string),
}),
'paragraph_alignment': Sequence({
'normal_paragraph_id': Text(shape=(), dtype=tf.string),
'simple_paragraph_id': Text(shape=(), dtype=tf.string),
}),
'sentence_alignment': Sequence({
'normal_sentence_id': Text(shape=(), dtype=tf.string),
'simple_sentence_id': Text(shape=(), dtype=tf.string),
}),
'simple': FeaturesDict({
'simple_article_content': Sequence({
'simple_sentence': Text(shape=(), dtype=tf.string),
'simple_sentence_id': Text(shape=(), dtype=tf.string),
}),
'simple_article_id': tf.int32,
'simple_article_title': Text(shape=(), dtype=tf.string),
'simple_article_url': Text(shape=(), dtype=tf.string),
}),
})
- Örnekler ( tfds.as_dataframe ):