FixedUnigramCandidateSampler

מחלקה סופית ציבורית FixedUnigramCandidateSampler

יוצר תוויות לדגימת מועמדים עם התפלגות אוניגרמה נלמדת.

מדגם יוניגרם יכול להשתמש בהפצת אוניגרמה קבועה הנקראת מקובץ או מועברת כמערך בזיכרון במקום לבנות את ההפצה מנתונים תוך כדי תנועה. ישנה גם אפשרות להטות את החלוקה על ידי הפעלת כוח עיוות על המשקולות.

קובץ אוצר המילים צריך להיות בפורמט דמוי CSV, כאשר השדה האחרון הוא המשקל המשויך למילה.

עבור כל אצווה, פעולה זו בוחרת קבוצה אחת של תוויות מועמדות שנדגמו.

היתרונות של דגימת מועמדים לכל אצווה הם הפשטות והאפשרות של כפל מטריקס צפוף יעיל. החיסרון הוא שיש לבחור את המועמדים הנדגמים ללא תלות בהקשר ובתוויות האמיתיות.

כיתות מקוננות

מעמד FixedUnigramCandidateSampler.Options תכונות אופציונליות עבור FixedUnigramCandidateSampler

קבועים

חוּט OP_NAME השם של המבצע הזה, כפי שידוע על ידי מנוע הליבה של TensorFlow

שיטות ציבוריות

סטטי FixedUnigramCandidateSampler
צור ( scope scope, Operand < TInt64 > trueClasses, Long numTrue, Long numSampled, Boolean unique, Long rangeMax, Options... options)
שיטת מפעל ליצירת מחלקה העוטפת פעולת FixedUnigramCandidateSampler חדשה.
סטטי FixedUnigramCandidateSampler.Options
עיוות (עיוות צף)
סטטי FixedUnigramCandidateSampler.Options
numReservedIds (Long numReservedIds)
סטטי FixedUnigramCandidateSampler.Options
numShards (Long numShards)
פלט < TInt64 >
sampledCandidates ()
וקטור באורך num_sampled, שבו כל אלמנט הוא המזהה של מועמד שנדגם.
פלט < TFloat32 >
sampledExpectedCount ()
וקטור באורך num_sampled, עבור כל מועמד שנדגם המייצג את מספר הפעמים שהמועמד צפוי להתרחש בקבוצה של מועמדים שנדגמו.
סטטי FixedUnigramCandidateSampler.Options
זרע (זרע ארוך)
סטטי FixedUnigramCandidateSampler.Options
seed2 (זרע ארוך2)
סטטי FixedUnigramCandidateSampler.Options
רסיס (רסיס ארוך)
פלט < TFloat32 >
trueExpectedCount ()
מטריצת batch_size * num_true, המייצגת את מספר הפעמים שכל מועמד צפוי להתרחש באצווה של מועמדים שנדגמו.
סטטי FixedUnigramCandidateSampler.Options
unigrams (רשימה<Float> unigrams)
סטטי FixedUnigramCandidateSampler.Options
vocabFile (מחרוזת vocabFile)

שיטות בירושה

קבועים

מחרוזת סופית סטטית ציבורית OP_NAME

השם של המבצע הזה, כפי שידוע על ידי מנוע הליבה של TensorFlow

ערך קבוע: "FixedUnigramCandidateSampler"

שיטות ציבוריות

public static FixedUnigramCandidateSampler create ( scope scope, Operand < TInt64 > trueClasses, Long numTrue, Long numSampled, Boolean unique, Long rangeMax, Options... options)

שיטת מפעל ליצירת מחלקה העוטפת פעולת FixedUnigramCandidateSampler חדשה.

פרמטרים
תְחוּם ההיקף הנוכחי
trueClasss מטריצת batch_size * num_true, שבה כל שורה מכילה את המזהים של num_true target_classes בתווית המקורית המתאימה.
numTrue מספר התוויות האמיתיות לכל הקשר.
numSampled מספר המועמדים לדגימה אקראית.
ייחודי אם ייחודי הוא נכון, אנו דוגמים עם דחייה, כך שכל המועמדים שנדגמו באצווה יהיו ייחודיים. זה דורש קירוב מסוים כדי להעריך את הסתברויות הדגימה שלאחר הדחייה.
טווח מקסימום המדגם ידגום מספרים שלמים מהמרווח [0, range_max).
אפשרויות נושא ערכי תכונות אופציונליות
החזרות
  • מופע חדש של FixedUnigramCandidateSampler

public static FixedUnigramCandidateSampler. עיוות אפשרויות (עיוות צף)

פרמטרים
עיוות העיוות משמש כדי להטות את התפלגות ההסתברות של אוניגרמה. כל משקל מועלה תחילה לעוצמת העיוות לפני הוספת התפלגות האוניגרמה הפנימית. כתוצאה מכך, עיוות = 1.0 נותן דגימת אוניגרמה רגילה (כפי שהוגדר בקובץ ה-vocab), ועיוות = 0.0 נותן התפלגות אחידה.

public static FixedUnigramCandidateSampler.Options numReservedIds (Long numReservedIds)

פרמטרים
numReservedIds לחלופין, ניתן להוסיף כמה מזהים שמורים בטווח [0, ..., num_reserved_ids) על ידי המשתמשים. מקרה שימוש אחד הוא שאסימון מיוחד של מילה לא ידוע משמש כמזהה 0. למזהים אלה תהיה הסתברות דגימה של 0.

public static FixedUnigramCandidateSampler.Options numShards (Long numShards)

פרמטרים
numShards ניתן להשתמש בדמפלר כדי לדגום מתת-קבוצה של הטווח המקורי על מנת לזרז את כל החישוב באמצעות מקביליות. פרמטר זה (יחד עם 'רסיס') מציין את מספר המחיצות שנמצאות בשימוש בחישוב הכולל.

פלט ציבורי < TInt64 > sampledCandidates ()

וקטור באורך num_sampled, שבו כל אלמנט הוא המזהה של מועמד שנדגם.

פלט ציבורי < TFloat32 > sampledExpectedCount ()

וקטור באורך num_sampled, עבור כל מועמד שנדגם המייצג את מספר הפעמים שהמועמד צפוי להתרחש בקבוצה של מועמדים שנדגמו. אם ייחודי=נכון, אז זו הסתברות.

public static FixedUnigramCandidateSampler.Seed אפשרויות (סיד ארוך)

פרמטרים
זֶרַע אם ה-seed או seed2 מוגדרים לא-אפס, מחולל המספרים האקראיים מוזרע על ידי ה-seed הנתון. אחרת, הוא נזרע על ידי זרע אקראי.

public static FixedUnigramCandidateSampler.Options seed2 (גרעין ארוך2)

פרמטרים
זרע 2 זרע שני כדי למנוע התנגשות זרע.

public static FixedUnigramCandidateSampler. קטע אפשרויות (רסיס ארוך)

פרמטרים
חֶרֶס ניתן להשתמש בדמפלר כדי לדגום מתת-קבוצה של הטווח המקורי על מנת לזרז את כל החישוב באמצעות מקביליות. פרמטר זה (יחד עם 'num_shards') מציין את מספר המחיצה המסוים של הפעלת דגימה, כאשר נעשה שימוש במחיצות.

פלט ציבורי < TFloat32 > trueExpectedCount ()

מטריצת batch_size * num_true, המייצגת את מספר הפעמים שכל מועמד צפוי להתרחש באצווה של מועמדים שנדגמו. אם ייחודי=נכון, אז זו הסתברות.

public static FixedUnigramCandidateSampler.Options unigrams (List<Float> unigrams)

פרמטרים
אוניגרמים רשימה של ספירות או הסתברויות אוניגרמות, אחת לכל מזהה בסדר עוקב. בדיוק אחד מ-vocab_file ו-unigrams צריך לעבור לאופ הזה.

public static FixedUnigramCandidateSampler.Options vocabFile (String vocabFile)

פרמטרים
vocabFile כל שורה חוקית בקובץ זה (שצריכה להיות בפורמט דמוי CSV) מתאימה לזיהוי מילה חוקי. המזהים נמצאים בסדר עוקב, החל מ-num_reserved_ids. הערך האחרון בכל שורה צפוי להיות ערך המתאים לספירה או להסתברות יחסית. בדיוק אחד מ-vocab_file ו-unigrams צריך לעבור לאופ הזה.