tensorflow :: ops :: FixedUnigramCandidateSampler
#include <candidate_sampling_ops.h>
برچسب هایی را برای نمونه گیری از نامزدها با توزیع یکپارچه آموخته شده تولید می کند.
خلاصه
یک نمونه گیر unigram می تواند به جای ایجاد توزیع از داده های موجود در پرواز ، از توزیع یکپارچه ثابت که از یک پرونده خوانده شده یا به عنوان آرایه ای در حافظه منتقل می شود ، استفاده کند. همچنین گزینه ای برای انحراف از توزیع با اعمال قدرت اعوجاج به وزن وجود دارد.
پرونده واژگان باید با فرمت CSV مانند باشد و آخرین قسمت مربوط به وزن مربوط به کلمه باشد.
برای هر دسته ، این گزینه یک مجموعه از برچسب های نامزد نمونه را انتخاب می کند.
مزایای نامزدهای نمونه برداری در هر دسته سادگی و امکان ضرب ماتریس متراکم کارآمد است. نقطه ضعف این است که نامزدهای نمونه باید مستقل از زمینه و برچسب های واقعی انتخاب شوند.
استدلال ها:
- دامنه: یک شی Sc Scope
- true_classes: یک ماتریس batch_size * num_true ، که در آن هر ردیف حاوی شناسه های کلاس_ num_true هدف در برچسب اصلی مربوطه است.
- num_true: تعداد برچسب های واقعی در هر زمینه.
- num_sampled: تعداد داوطلبانی که به طور تصادفی نمونه گیری می شوند.
- unique: اگر منحصر به فرد درست باشد ، ما با رد نمونه گیری می کنیم ، بنابراین همه نامزدهای نمونه در یک گروه منحصر به فرد هستند. برای برآورد احتمال نمونه برداری پس از رد این امر به تقریب احتیاج دارد.
- range_max: نمونه گیرنده از اعداد صحیح از فاصله [0، range_max) نمونه برداری خواهد کرد.
ویژگی های اختیاری (به Attrs
مراجعه کنید):
- vocab_file: هر خط معتبر در این پرونده (که باید قالبی مانند CSV داشته باشد) با شناسه کلمه معتبری مطابقت دارد. شناسه ها به ترتیب ترتیب می شوند ، از num_reservation_ids شروع می شوند. انتظار می رود آخرین ورودی در هر خط مقداری باشد که متناسب با شمارش یا احتمال نسبی باشد. دقیقاً یکی از vocab_file و unigrams باید به این بخش منتقل شود.
- اعوجاج: اعوجاج برای انحراف از توزیع احتمال واحد استفاده می شود. هر وزن ابتدا قبل از افزودن به توزیع داخلی واحد ، به قدرت اعوجاج افزایش می یابد. در نتیجه ، اعوجاج = 1.0 نمونه برداری منظم از یوگرام (همانطور که توسط فایل vocab تعریف شده است) و اعوجاج = 0.0 توزیع یکنواختی را به همراه دارد.
- num_reservation_ids: به دلخواه برخی از شناسه های رزرو شده می توانند در محدوده [0 ، ... ، num_reservation_ids) توسط کاربران اضافه شوند. یک مورد استفاده این است که یک رمز کلمه ناشناخته ویژه به عنوان ID 0 استفاده می شود. این شناسه ها احتمال نمونه برداری از 0 را دارند.
- num_shards: برای سرعت بخشیدن به کل محاسبه از طریق موازی سازی می توان از یک نمونه برای نمونه برداری از زیرمجموعه ای از محدوده اصلی استفاده کرد. این پارامتر (همراه با 'shard') نشانگر تعداد پارتیشن هایی است که در محاسبه کلی استفاده می شود.
- shard: برای تسریع در کل محاسبه از طریق موازی سازی می توان از یک نمونه برای نمونه برداری از زیرمجموعه ای از محدوده اصلی استفاده کرد. این پارامتر (همراه با "num_shards") تعداد پارتیشن خاص یک نمونه کار را هنگام استفاده از پارتیشن بندی نشان می دهد.
- unigrams: لیستی از تعداد یا احتمالات unigram ، یک عدد در هر شناسه به ترتیب. دقیقاً یکی از vocab_file و unigrams باید به این قسمت منتقل شود.
- seed: اگر بذر یا seed2 غیر صفر تنظیم شود ، مولد عدد تصادفی توسط بذر داده شده بذر می شود. در غیر این صورت ، توسط یک بذر تصادفی بذر می شود.
- seed2: دانه دوم برای جلوگیری از برخورد بذر.
بازده:
-
Output
sampled_candidates: بردار طول num_sampled ، که در آن هر عنصر شناسه یک نامزد نمونه است. -
Output
true_count_count: یک ماتریس batch_size * num_true ، نشان دهنده تعداد دفعاتی است که انتظار می رود هر نامزد در یک دسته از نامزدهای نمونه گرفته شود. اگر منحصر به فرد = درست است ، پس این یک احتمال است. -
Output
sampled_count_count: بردار طول num_sampled ، برای هر نامزد نمونه ای که نمایانگر تعداد دفعاتی است که نامزد در دسته ای از نامزدهای نمونه گرفته می شود. اگر منحصر به فرد = درست است ، پس این یک احتمال است.
سازندگان و ویرانگران | |
---|---|
FixedUnigramCandidateSampler (const :: tensorflow::Scope & scope, :: tensorflow::Input true_classes, int64 num_true, int64 num_sampled, bool unique, int64 range_max) | |
FixedUnigramCandidateSampler (const :: tensorflow::Scope & scope, :: tensorflow::Input true_classes, int64 num_true, int64 num_sampled, bool unique, int64 range_max, const FixedUnigramCandidateSampler::Attrs & attrs) |
صفات عمومی | |
---|---|
operation | |
sampled_candidates | |
sampled_expected_count | |
true_expected_count |
توابع استاتیک عمومی | |
---|---|
Distortion (float x) | |
NumReservedIds (int64 x) | |
NumShards (int64 x) | |
Seed (int64 x) | |
Seed2 (int64 x) | |
Shard (int64 x) | |
Unigrams (const gtl::ArraySlice< float > & x) | |
VocabFile (StringPiece x) |
سازه ها | |
---|---|
tensorflow :: ops :: FixedUnigramCandidateSampler :: Attrs | تنظیم کنندگان ویژگی اختیاری برای FixedUnigramCandidateSampler . |
صفات عمومی
عمل
Operation operation
نامزدهای نمونه
::tensorflow::Output sampled_candidates
نمونه_برشماری_منتظره
::tensorflow::Output sampled_expected_count
_حساب_حقیقت_صحیح
::tensorflow::Output true_expected_count
کارکردهای عمومی
FixedUnigramCandidateSampler
FixedUnigramCandidateSampler( const ::tensorflow::Scope & scope, ::tensorflow::Input true_classes, int64 num_true, int64 num_sampled, bool unique, int64 range_max )
FixedUnigramCandidateSampler
FixedUnigramCandidateSampler( const ::tensorflow::Scope & scope, ::tensorflow::Input true_classes, int64 num_true, int64 num_sampled, bool unique, int64 range_max, const FixedUnigramCandidateSampler::Attrs & attrs )
توابع استاتیک عمومی
اعوجاج
Attrs Distortion( float x )
NumReservationIds
Attrs NumReservedIds( int64 x )
NumShards
Attrs NumShards( int64 x )
بذر
Attrs Seed( int64 x )
دانه 2
Attrs Seed2( int64 x )
تکه شکسته
Attrs Shard( int64 x )
یونیگرام
Attrs Unigrams( const gtl::ArraySlice< float > & x )
VocabFile
Attrs VocabFile( StringPiece x )
جز در مواردی که غیر از این ذکر شده باشد،محتوای این صفحه تحت مجوز Creative Commons Attribution 4.0 License است. نمونه کدها نیز دارای مجوز Apache 2.0 License است. برای اطلاع از جزئیات، به خطمشیهای سایت Google Developers مراجعه کنید. جاوا علامت تجاری ثبتشده Oracle و/یا شرکتهای وابسته به آن است.
تاریخ آخرین بهروزرسانی 2020-04-20 بهوقت ساعت هماهنگ جهانی.