TFDS artık Kruvasan 🥐 formatını destekliyor! Daha fazlasını öğrenmek için belgeleri okuyun.

Bu sayfa, Cloud Translation API ile çevrilmiştir.

wiki_auto

Açıklama :

WikiAuto, cümle basitleştirme sistemlerini eğitmek için bir kaynak olarak İngilizce Vikipedi ve Basit İngilizce Vikipedi'den bir dizi hizalanmış cümle sağlar. Yazarlar önce Basit İngilizce Vikipedi'nin bir alt kümesindeki cümleler ile İngilizce Vikipedi'deki karşılık gelen sürümleri arasındaki bir dizi manuel hizalamayı kitle kaynaklı olarak sağladı (bu, manual yapılandırmaya karşılık gelir), ardından bu hizalamaları tahmin etmesi için bir sinirsel CRF sistemi eğitti. Eğitilen model daha sonra Basit İngilizce Vikipedi'deki diğer makalelere İngilizce eşdeğeri ile uygulandı ve daha büyük bir hizalanmış cümleler külliyatı oluşturdu (buradaki auto , auto_acl , auto_full_no_split ve auto_full_with_split yapılandırmalarına karşılık gelir).

Ana sayfa : https://github.com/chaojiang06/wiki-auto
Kaynak kodu : tfds.text_simplification.wiki_auto.WikiAuto
sürümler :
- 1.0.0 (varsayılan): İlk sürüm.
Denetlenen anahtarlar (Bkz as_supervised doc ): None
Şekil ( tfds.show_examples ): Desteklenmiyor.
Alıntı :

@inproceedings{acl/JiangMLZX20,
  author    = {Chao Jiang and
               Mounica Maddela and
               Wuwei Lan and
               Yang Zhong and
               Wei Xu},
  editor    = {Dan Jurafsky and
               Joyce Chai and
               Natalie Schluter and
               Joel R. Tetreault},
  title     = {Neural {CRF} Model for Sentence Alignment in Text Simplification},
  booktitle = {Proceedings of the 58th Annual Meeting of the Association for Computational
               Linguistics, {ACL} 2020, Online, July 5-10, 2020},
  pages     = {7943--7960},
  publisher = {Association for Computational Linguistics},
  year      = {2020},
  url       = {https://www.aclweb.org/anthology/2020.acl-main.709/}
}

wiki_auto/manual (varsayılan yapılandırma)

Yapılandırma açıklaması : Kalabalık çalışanları tarafından hizalanmış 10.000 Wikipedia cümle çifti kümesi.
İndirme boyutu : 53.47 MiB
Veri kümesi boyutu : 76.87 MiB
Otomatik önbelleğe alınmış ( belgeleme ): Evet
bölmeler :

Bölmek	örnekler
`'dev'`	73.249
`'test'`	118.074

Özellik yapısı :

FeaturesDict({
    'GLEU-score': float64,
    'alignment_label': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'normal_sentence': Text(shape=(), dtype=string),
    'normal_sentence_id': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
    'simple_sentence_id': Text(shape=(), dtype=string),
})

Özellik belgeleri :

Özellik	Sınıf	Dtipi
	ÖzelliklerDict
GLEU puanı	tensör	şamandıra64
hizalama_etiketi	SınıfEtiketi	int64
normal_sentence	Metin	sicim
normal_sentence_id	Metin	sicim
basit_sentence	Metin	sicim
basit_sentence_id	Metin	sicim

Örnekler ( tfds.as_dataframe ):

wiki_auto/auto_acl

Yapılandırma açıklaması : ACL2020 sistemini eğitmek için hizalanmış cümle çiftleri.
İndirme boyutu : 112.60 MiB
Veri kümesi boyutu : 138.83 MiB
Otomatik önbelleğe alınmış ( belgeleme ): Yalnızca shuffle_files=False (dolu) olduğunda
bölmeler :

Bölmek	örnekler
`'full'`	488.332

Özellik yapısı :

FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})

Özellik belgeleri :

Özellik	Sınıf	Dtipi
	ÖzelliklerDict
normal_sentence	Metin	sicim
basit_sentence	Metin	sicim

Örnekler ( tfds.as_dataframe ):

wiki_auto/auto_full_no_split

Yapılandırma açıklaması : Cümle bölme olmadan tüm cümle çiftleri otomatik olarak hizalanır.
İndirme boyutu : 135.02 MiB
Veri kümesi boyutu : 166.78 MiB
Otomatik önbelleğe alınmış ( belgeleme ): Yalnızca shuffle_files=False (dolu) olduğunda
bölmeler :

Bölmek	örnekler
`'full'`	591.994

Özellik yapısı :

FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})

Özellik belgeleri :

Özellik	Sınıf	Dtipi
	ÖzelliklerDict
normal_sentence	Metin	sicim
basit_sentence	Metin	sicim

Örnekler ( tfds.as_dataframe ):

wiki_auto/auto_full_with_split

Yapılandırma açıklaması : Tümü otomatik olarak hizalanan cümle çiftleri, cümle bölme özelliğine sahiptir.
İndirme boyutu : 115.09 MiB
Veri kümesi boyutu : 141.20 MiB
Otomatik önbelleğe alınmış ( belgeleme ): Yalnızca shuffle_files=False (dolu) olduğunda
bölmeler :

Bölmek	örnekler
`'full'`	483.801

Özellik yapısı :

FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})

Özellik belgeleri :

Özellik	Sınıf	Dtipi
	ÖzelliklerDict
normal_sentence	Metin	sicim
basit_sentence	Metin	sicim

Örnekler ( tfds.as_dataframe ):

wiki_otomatik/otomatik

Yapılandırma açıklaması : Otomatik olarak hizalanan geniş bir cümle çiftleri kümesi.
İndirme boyutu : 2.01 GiB
Veri kümesi boyutu : 1.76 GiB
Otomatik önbelleğe alınmış ( belgeleme ): Hayır
bölmeler :

Bölmek	örnekler
`'part_1'`	125.059
`'part_2'`	13.036

Özellik yapısı :

FeaturesDict({
    'example_id': Text(shape=(), dtype=string),
    'normal': FeaturesDict({
        'normal_article_content': Sequence({
            'normal_sentence': Text(shape=(), dtype=string),
            'normal_sentence_id': Text(shape=(), dtype=string),
        }),
        'normal_article_id': int32,
        'normal_article_title': Text(shape=(), dtype=string),
        'normal_article_url': Text(shape=(), dtype=string),
    }),
    'paragraph_alignment': Sequence({
        'normal_paragraph_id': Text(shape=(), dtype=string),
        'simple_paragraph_id': Text(shape=(), dtype=string),
    }),
    'sentence_alignment': Sequence({
        'normal_sentence_id': Text(shape=(), dtype=string),
        'simple_sentence_id': Text(shape=(), dtype=string),
    }),
    'simple': FeaturesDict({
        'simple_article_content': Sequence({
            'simple_sentence': Text(shape=(), dtype=string),
            'simple_sentence_id': Text(shape=(), dtype=string),
        }),
        'simple_article_id': int32,
        'simple_article_title': Text(shape=(), dtype=string),
        'simple_article_url': Text(shape=(), dtype=string),
    }),
})

Özellik belgeleri :

Özellik	Sınıf	Dtipi
	ÖzelliklerDict
örnek_id	Metin	sicim
normal	ÖzelliklerDict
normal/normal_article_content	Sekans
normal/normal_article_content/normal_sentence	Metin	sicim
normal/normal_article_content/normal_sentence_id	Metin	sicim
normal/normal_article_id	tensör	int32
normal/normal_article_title	Metin	sicim
normal/normal_article_url	Metin	sicim
paragraf_hizalama	Sekans
paragraf_hizalama/normal_paragraph_id	Metin	sicim
paragraf_hizalama/simple_paragraph_id	Metin	sicim
cümle_hizalama	Sekans
cümle_align/normal_sentence_id	Metin	sicim
cümle_alignment/simple_sentence_id	Metin	sicim
basit	ÖzelliklerDict
basit/basit_article_content	Sekans
basit/simple_article_content/simple_sentence	Metin	sicim
basit/simple_article_content/simple_sentence_id	Metin	sicim
basit/basit_article_id	tensör	int32
basit/basit_article_title	Metin	sicim
basit/basit_article_url	Metin	sicim

Örnekler ( tfds.as_dataframe ):

wiki_auto Koleksiyonlar ile düzeninizi koruyun İçeriği tercihlerinize göre kaydedin ve kategorilere ayırın.