از اینکه با Google I/O تنظیم کردید متشکریم. مشاهده همه جلسات در صورت تقاضا تماشا کنید

tensorflow :: ops :: FixedUnigramCandidateSampler

#include <candidate_sampling_ops.h>

برچسب هایی را برای نمونه گیری از نامزدها با توزیع یکپارچه آموخته شده تولید می کند.

خلاصه

یک نمونه گیر unigram می تواند به جای ایجاد توزیع از داده های موجود در پرواز ، از توزیع یکپارچه ثابت که از یک پرونده خوانده شده یا به عنوان آرایه ای در حافظه منتقل می شود ، استفاده کند. همچنین گزینه ای برای انحراف از توزیع با اعمال قدرت اعوجاج به وزن وجود دارد.

پرونده واژگان باید با فرمت CSV مانند باشد و آخرین قسمت مربوط به وزن مربوط به کلمه باشد.

برای هر دسته ، این گزینه یک مجموعه از برچسب های نامزد نمونه را انتخاب می کند.

مزایای نامزدهای نمونه برداری در هر دسته سادگی و امکان ضرب ماتریس متراکم کارآمد است. نقطه ضعف این است که نامزدهای نمونه باید مستقل از زمینه و برچسب های واقعی انتخاب شوند.

استدلال ها:

  • دامنه: یک شی Sc Scope
  • true_classes: یک ماتریس batch_size * num_true ، که در آن هر ردیف حاوی شناسه های کلاس_ num_true هدف در برچسب اصلی مربوطه است.
  • num_true: تعداد برچسب های واقعی در هر زمینه.
  • num_sampled: تعداد داوطلبانی که به طور تصادفی نمونه گیری می شوند.
  • unique: اگر منحصر به فرد درست باشد ، ما با رد نمونه گیری می کنیم ، بنابراین همه نامزدهای نمونه در یک گروه منحصر به فرد هستند. برای برآورد احتمال نمونه برداری پس از رد این امر به تقریب احتیاج دارد.
  • range_max: نمونه گیرنده از اعداد صحیح از فاصله [0، range_max) نمونه برداری خواهد کرد.

ویژگی های اختیاری (به Attrs مراجعه کنید):

  • vocab_file: هر خط معتبر در این پرونده (که باید قالبی مانند CSV داشته باشد) با شناسه کلمه معتبری مطابقت دارد. شناسه ها به ترتیب ترتیب می شوند ، از num_reservation_ids شروع می شوند. انتظار می رود آخرین ورودی در هر خط مقداری باشد که متناسب با شمارش یا احتمال نسبی باشد. دقیقاً یکی از vocab_file و unigrams باید به این بخش منتقل شود.
  • اعوجاج: اعوجاج برای انحراف از توزیع احتمال واحد استفاده می شود. هر وزن ابتدا قبل از افزودن به توزیع داخلی واحد ، به قدرت اعوجاج افزایش می یابد. در نتیجه ، اعوجاج = 1.0 نمونه برداری منظم از یوگرام (همانطور که توسط فایل vocab تعریف شده است) و اعوجاج = 0.0 توزیع یکنواختی را به همراه دارد.
  • num_reservation_ids: به دلخواه برخی از شناسه های رزرو شده می توانند در محدوده [0 ، ... ، num_reservation_ids) توسط کاربران اضافه شوند. یک مورد استفاده این است که یک رمز کلمه ناشناخته ویژه به عنوان ID 0 استفاده می شود. این شناسه ها احتمال نمونه برداری از 0 را دارند.
  • num_shards: برای سرعت بخشیدن به کل محاسبه از طریق موازی سازی می توان از یک نمونه برای نمونه برداری از زیرمجموعه ای از محدوده اصلی استفاده کرد. این پارامتر (همراه با 'shard') نشانگر تعداد پارتیشن هایی است که در محاسبه کلی استفاده می شود.
  • shard: برای تسریع در کل محاسبه از طریق موازی سازی می توان از یک نمونه برای نمونه برداری از زیرمجموعه ای از محدوده اصلی استفاده کرد. این پارامتر (همراه با "num_shards") تعداد پارتیشن خاص یک نمونه کار را هنگام استفاده از پارتیشن بندی نشان می دهد.
  • unigrams: لیستی از تعداد یا احتمالات unigram ، یک عدد در هر شناسه به ترتیب. دقیقاً یکی از vocab_file و unigrams باید به این قسمت منتقل شود.
  • seed: اگر بذر یا seed2 غیر صفر تنظیم شود ، مولد عدد تصادفی توسط بذر داده شده بذر می شود. در غیر این صورت ، توسط یک بذر تصادفی بذر می شود.
  • seed2: دانه دوم برای جلوگیری از برخورد بذر.

بازده:

  • Output sampled_candidates: بردار طول num_sampled ، که در آن هر عنصر شناسه یک نامزد نمونه است.
  • Output true_count_count: یک ماتریس batch_size * num_true ، نشان دهنده تعداد دفعاتی است که انتظار می رود هر نامزد در یک دسته از نامزدهای نمونه گرفته شود. اگر منحصر به فرد = درست است ، پس این یک احتمال است.
  • Output sampled_count_count: بردار طول num_sampled ، برای هر نامزد نمونه ای که نمایانگر تعداد دفعاتی است که نامزد در دسته ای از نامزدهای نمونه گرفته می شود. اگر منحصر به فرد = درست است ، پس این یک احتمال است.

سازندگان و ویرانگران

FixedUnigramCandidateSampler (const :: tensorflow::Scope & scope, :: tensorflow::Input true_classes, int64 num_true, int64 num_sampled, bool unique, int64 range_max)
FixedUnigramCandidateSampler (const :: tensorflow::Scope & scope, :: tensorflow::Input true_classes, int64 num_true, int64 num_sampled, bool unique, int64 range_max, const FixedUnigramCandidateSampler::Attrs & attrs)

صفات عمومی

operation
sampled_candidates
sampled_expected_count
true_expected_count

توابع استاتیک عمومی

Distortion (float x)
NumReservedIds (int64 x)
NumShards (int64 x)
Seed (int64 x)
Seed2 (int64 x)
Shard (int64 x)
Unigrams (const gtl::ArraySlice< float > & x)
VocabFile (StringPiece x)

سازه ها

tensorflow :: ops :: FixedUnigramCandidateSampler :: Attrs

تنظیم کنندگان ویژگی اختیاری برای FixedUnigramCandidateSampler .

صفات عمومی

عمل

Operation operation

نامزدهای نمونه

::tensorflow::Output sampled_candidates

نمونه_برشماری_منتظره

::tensorflow::Output sampled_expected_count

_حساب_حقیقت_صحیح

::tensorflow::Output true_expected_count

کارکردهای عمومی

FixedUnigramCandidateSampler

 FixedUnigramCandidateSampler(
  const ::tensorflow::Scope & scope,
  ::tensorflow::Input true_classes,
  int64 num_true,
  int64 num_sampled,
  bool unique,
  int64 range_max
)

FixedUnigramCandidateSampler

 FixedUnigramCandidateSampler(
  const ::tensorflow::Scope & scope,
  ::tensorflow::Input true_classes,
  int64 num_true,
  int64 num_sampled,
  bool unique,
  int64 range_max,
  const FixedUnigramCandidateSampler::Attrs & attrs
)

توابع استاتیک عمومی

اعوجاج

Attrs Distortion(
  float x
)

NumReservationIds

Attrs NumReservedIds(
  int64 x
)

NumShards

Attrs NumShards(
  int64 x
)

بذر

Attrs Seed(
  int64 x
)

دانه 2

Attrs Seed2(
  int64 x
)

تکه شکسته

Attrs Shard(
  int64 x
)

یونیگرام

Attrs Unigrams(
  const gtl::ArraySlice< float > & x
)

VocabFile

Attrs VocabFile(
  StringPiece x
)