FixedUnigramCandidateSampler.Options

کلاس استاتیک عمومی FixedUnigramCandidateSampler.Options

ویژگی های اختیاری برای FixedUnigramCandidateSampler

روش های عمومی

FixedUnigramCandidateSampler.Options
اعوجاج (اعوجاج شناور)
FixedUnigramCandidateSampler.Options
numReservedIds (Long numReservedIds)
FixedUnigramCandidateSampler.Options
numShards (numShards طولانی)
FixedUnigramCandidateSampler.Options
دانه (دانه بلند)
FixedUnigramCandidateSampler.Options
دانه 2 (دانه بلند 2)
FixedUnigramCandidateSampler.Options
خرده (خرده بلند)
FixedUnigramCandidateSampler.Options
unigrams (List<Float> unigrams)
FixedUnigramCandidateSampler.Options
vocabFile (رشته vocabFile)

روش های ارثی

روش های عمومی

اعوجاج عمومی FixedUnigramCandidateSampler.Options (اعوجاج شناور)

مولفه های
اعوجاج اعوجاج برای انحراف توزیع احتمال یک گرم استفاده می شود. هر وزن ابتدا قبل از اضافه شدن به توزیع یونیگرم داخلی به قدرت اعوجاج افزایش می یابد. در نتیجه، اعوجاج = 1.0 نمونه گیری unigram منظم (همانطور که توسط فایل vocab تعریف شده است) و اعوجاج = 0.0 توزیع یکنواختی را ارائه می دهد.

عمومی FixedUnigramCandidateSampler.Options numReservedIds (Long numReservedIds)

مولفه های
numReservedIds به صورت اختیاری، برخی از شناسه های رزرو شده را می توان در محدوده [0، ...، num_reserved_ids) توسط کاربران اضافه کرد. یک مورد استفاده این است که یک رمز کلمه ناشناخته خاص به عنوان ID 0 استفاده می شود. این شناسه ها احتمال نمونه برداری 0 خواهند داشت.

عمومی FixedUnigramCandidateSampler.Options numShards (NumShards طولانی)

مولفه های
numShards نمونه‌بردار را می‌توان برای نمونه‌برداری از زیر مجموعه‌ای از محدوده اصلی به منظور سرعت بخشیدن به کل محاسبات از طریق موازی‌سازی استفاده کرد. این پارامتر (همراه با 'shard') تعداد پارتیشن هایی را نشان می دهد که در محاسبات کلی استفاده می شوند.

دانه عمومی FixedUnigramCandidateSampler.Options (Long seed)

مولفه های
دانه اگر seed یا seed2 غیر صفر باشد، مولد اعداد تصادفی توسط دانه داده شده بذر می شود. در غیر این صورت، توسط یک بذر تصادفی بذر می شود.

عمومی FixedUnigramCandidateSampler.Options seed2 (Long seed2)

مولفه های
دانه 2 دانه دوم برای جلوگیری از برخورد دانه.

خرده عمومی FixedUnigramCandidateSampler.Options (شارد بلند)

مولفه های
تکه شکسته نمونه‌بردار را می‌توان برای نمونه‌برداری از زیر مجموعه‌ای از محدوده اصلی به منظور سرعت بخشیدن به کل محاسبات از طریق موازی‌سازی استفاده کرد. این پارامتر (همراه با 'num_shards') شماره پارتیشن خاص یک نمونه کار را در هنگام استفاده از پارتیشن بندی نشان می دهد.

عمومی FixedUnigramCandidateSampler.Options unigrams (List<Float> unigrams)

مولفه های
یک گرم فهرستی از تعداد یا احتمالات یونیگرام، یکی در هر شناسه به ترتیب متوالی. دقیقاً یکی از vocab_file و unigram ها باید به این گزینه منتقل شود.

عمومی FixedUnigramCandidateSampler.Options vocabFile (String vocabFile)

مولفه های
vocabFile هر خط معتبر در این فایل (که باید قالبی شبیه CSV داشته باشد) با شناسه کلمه معتبر مطابقت دارد. شناسه ها به ترتیب ترتیب هستند و از num_reserved_ids شروع می شوند. انتظار می رود آخرین ورودی در هر خط مقداری باشد که با تعداد یا احتمال نسبی مطابقت دارد. دقیقاً یکی از vocab_file و unigram ها باید به این گزینه منتقل شود.