TFDS תומך כעת בפורמט קרואסון 🥐 ! קרא את התיעוד כדי לדעת יותר.

דף זה תורגם על ידי Cloud Translation API.

wiki_auto

תיאור :

WikiAuto מספקת קבוצה של משפטים מיושרים מויקיפדיה האנגלית ומוויקיפדיה האנגלית הפשוטה כמשאב לאימון מערכות פישוט משפטים. המחברים רכשו תחילה קבוצה של יישור ידני בין משפטים בתת-קבוצה של ויקיפדיה האנגלית הפשוטה והגרסאות המתאימות שלהם בוויקיפדיה האנגלית (זה מתאים לתצורה manual ), ולאחר מכן אימנו מערכת CRF עצבית לחזות יישורים אלה. המודל המאומן יושם לאחר מכן על המאמרים האחרים בוויקיפדיה האנגלית הפשוטה עם מקבילה באנגלית כדי ליצור קורפוס גדול יותר של משפטים מיושרים (המקביל לתצורות auto , auto_acl , auto_full_no_split ו- auto_full_with_split כאן).

דף הבית : https://github.com/chaojiang06/wiki-auto
קוד מקור : tfds.text_simplification.wiki_auto.WikiAuto
גרסאות :
- 1.0.0 (ברירת מחדל): שחרור ראשוני.
מפתחות בפיקוח (ראה as_supervised doc ): None
איור ( tfds.show_examples ): לא נתמך.
ציטוט :

@inproceedings{acl/JiangMLZX20,
  author    = {Chao Jiang and
               Mounica Maddela and
               Wuwei Lan and
               Yang Zhong and
               Wei Xu},
  editor    = {Dan Jurafsky and
               Joyce Chai and
               Natalie Schluter and
               Joel R. Tetreault},
  title     = {Neural {CRF} Model for Sentence Alignment in Text Simplification},
  booktitle = {Proceedings of the 58th Annual Meeting of the Association for Computational
               Linguistics, {ACL} 2020, Online, July 5-10, 2020},
  pages     = {7943--7960},
  publisher = {Association for Computational Linguistics},
  year      = {2020},
  url       = {https://www.aclweb.org/anthology/2020.acl-main.709/}
}

wiki_auto/manual (תצורת ברירת המחדל)

תיאור תצורה : קבוצה של 10K צמדי משפטים של ויקיפדיה מיושרים על ידי עובדי המונים.
גודל הורדה : 53.47 MiB
גודל ערכת נתונים : 76.87 MiB
שמור אוטומטי במטמון ( תיעוד ): כן
פיצולים :

לְפַצֵל	דוגמאות
`'dev'`	73,249
`'test'`	118,074

מבנה תכונה :

FeaturesDict({
    'GLEU-score': float64,
    'alignment_label': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'normal_sentence': Text(shape=(), dtype=string),
    'normal_sentence_id': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
    'simple_sentence_id': Text(shape=(), dtype=string),
})

תיעוד תכונה :

תכונה	מעמד	Dtype
	FeaturesDict
ציון GLEU	מוֹתֵחַ	לצוף64
alignment_label	ClassLabel	int64
משפט_רגיל	טֶקסט	חוּט
מזהה_משפט_רגיל	טֶקסט	חוּט
משפט פשוט	טֶקסט	חוּט
פשוט_משפט_מזהה	טֶקסט	חוּט

דוגמאות ( tfds.as_dataframe ):

wiki_auto/auto_acl

תיאור תצורה : צמדי משפטים מיושרים לאימון מערכת ACL2020.
גודל הורדה : 112.60 MiB
גודל ערכת נתונים: 138.83 MiB
שמור אוטומטי במטמון ( תיעוד ): רק כאשר shuffle_files=False (מלא)
פיצולים :

לְפַצֵל	דוגמאות
`'full'`	488,332

מבנה תכונה :

FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})

תיעוד תכונה :

תכונה	מעמד	Dtype
	FeaturesDict
משפט_רגיל	טֶקסט	חוּט
משפט פשוט	טֶקסט	חוּט

דוגמאות ( tfds.as_dataframe ):

wiki_auto/auto_full_no_split

תיאור תצורה : כל צמדי המשפטים המיושרים אוטומטית ללא פיצול משפטים.
גודל הורדה : 135.02 MiB
גודל מערך נתונים : 166.78 MiB
שמור אוטומטי במטמון ( תיעוד ): רק כאשר shuffle_files=False (מלא)
פיצולים :

לְפַצֵל	דוגמאות
`'full'`	591,994

מבנה תכונה :

FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})

תיעוד תכונה :

תכונה	מעמד	Dtype
	FeaturesDict
משפט_רגיל	טֶקסט	חוּט
משפט פשוט	טֶקסט	חוּט

דוגמאות ( tfds.as_dataframe ):

wiki_auto/auto_full_with_split

תיאור תצורה : כל צמדי המשפטים המיושרים אוטומטית עם פיצול משפטים.
גודל הורדה : 115.09 MiB
גודל ערכת נתונים: 141.20 MiB
שמור אוטומטי במטמון ( תיעוד ): רק כאשר shuffle_files=False (מלא)
פיצולים :

לְפַצֵל	דוגמאות
`'full'`	483,801

מבנה תכונה :

FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})

תיעוד תכונה :

תכונה	מעמד	Dtype
	FeaturesDict
משפט_רגיל	טֶקסט	חוּט
משפט פשוט	טֶקסט	חוּט

דוגמאות ( tfds.as_dataframe ):

wiki_auto/auto

תיאור תצורה : קבוצה גדולה של צמדי משפטים מיושרים אוטומטית.
גודל הורדה : 2.01 GiB
גודל מערך נתונים : 1.76 GiB
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :

לְפַצֵל	דוגמאות
`'part_1'`	125,059
`'part_2'`	13,036

מבנה תכונה :

FeaturesDict({
    'example_id': Text(shape=(), dtype=string),
    'normal': FeaturesDict({
        'normal_article_content': Sequence({
            'normal_sentence': Text(shape=(), dtype=string),
            'normal_sentence_id': Text(shape=(), dtype=string),
        }),
        'normal_article_id': int32,
        'normal_article_title': Text(shape=(), dtype=string),
        'normal_article_url': Text(shape=(), dtype=string),
    }),
    'paragraph_alignment': Sequence({
        'normal_paragraph_id': Text(shape=(), dtype=string),
        'simple_paragraph_id': Text(shape=(), dtype=string),
    }),
    'sentence_alignment': Sequence({
        'normal_sentence_id': Text(shape=(), dtype=string),
        'simple_sentence_id': Text(shape=(), dtype=string),
    }),
    'simple': FeaturesDict({
        'simple_article_content': Sequence({
            'simple_sentence': Text(shape=(), dtype=string),
            'simple_sentence_id': Text(shape=(), dtype=string),
        }),
        'simple_article_id': int32,
        'simple_article_title': Text(shape=(), dtype=string),
        'simple_article_url': Text(shape=(), dtype=string),
    }),
})

תיעוד תכונה :

תכונה	מעמד	Dtype
	FeaturesDict
example_id	טֶקסט	חוּט
נוֹרמָלִי	FeaturesDict
normal/normal_artikel_content	סדר פעולות
רגיל/רגיל_תוכן_מאמר/משפט_רגיל	טֶקסט	חוּט
normal/normal_article_content/normal_sentence_id	טֶקסט	חוּט
מזהה_מאמר_רגיל/רגיל	מוֹתֵחַ	int32
normal/normal_artikel_title	טֶקסט	חוּט
normal/normal_article_url	טֶקסט	חוּט
יישור_פסקה	סדר פעולות
paragraph_alignment/normal_paragraph_id	טֶקסט	חוּט
paragraph_alignment/simple_paragraph_id	טֶקסט	חוּט
יישור_משפט	סדר פעולות
משפט_יישור/מזהה_משפט רגיל	טֶקסט	חוּט
משפט_יישור/מזהה_משפט פשוט	טֶקסט	חוּט
פָּשׁוּט	FeaturesDict
תוכן_פשוט/פשוט_מאמר	סדר פעולות
פשוט/פשוט_תוכן_מאמר/משפט_פשוט	טֶקסט	חוּט
simple/simple_article_content/simple_sentence_id	טֶקסט	חוּט
פשוט/מזהה_מאמר_פשוט	מוֹתֵחַ	int32
פשוט/פשוט_כותרת_מאמר	טֶקסט	חוּט
פשוט/פשוט_מאמר_url	טֶקסט	חוּט

דוגמאות ( tfds.as_dataframe ):

wiki_auto קל לארגן דפים בעזרת אוספים אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.