GenerateVocabRemapping

کلاس نهایی عمومی GenerateVocabRemapping

با دادن مسیری به فایل‌های واژگان جدید و قدیمی، یک Remapping Tensor از را برمی‌گرداند

طول «num_new_vocab»، جایی که «remapping[i]» حاوی شماره ردیف در واژگان قدیمی است که مربوط به ردیف «i» در واژگان جدید است (شروع از خط «new_vocab_offset» و تا «num_new_vocab» موجودیت‌ها)، یا «- 1` اگر ورودی «i» در واژگان جدید در واژگان قدیمی نباشد. واژگان قدیمی به اولین ورودی‌های «قدیمی_وکاب_اندازه» محدود می‌شود اگر «قدیمی_واکاب_اندازه» مقدار پیش‌فرض -1 نباشد.

«num_vocab_offset» استفاده در مورد متغیر پارتیشن‌شده را فعال می‌کند و معمولاً باید از طریق بررسی اطلاعات پارتیشن‌بندی تنظیم شود. فرمت فایل ها باید یک فایل متنی باشد و هر خط حاوی یک موجودیت واحد در واژگان باشد.

به عنوان مثال، با «new_vocab_file» یک فایل متنی حاوی هر یک از عناصر زیر در یک خط: «[f0, f1, f2, f3]», old_vocab_file = [f1, f0, f3], 'num_new_vocab = 3, new_vocab_offset = 1`، نگاشت مجدد بازگشتی «[0، -1، 2]» خواهد بود.

عملیات همچنین تعداد ورودی‌های واژگان جدید در واژگان قدیمی را برمی‌گرداند، که برای محاسبه تعداد مقادیر اولیه در نقشه‌برداری مجدد ماتریس وزن استفاده می‌شود.

از این قابلیت می توان برای ترسیم مجدد واژگان ردیف (معمولاً ویژگی ها) و واژگان ستونی (معمولاً کلاس ها) از نقاط بازرسی TensorFlow استفاده کرد. توجه داشته باشید که منطق پارتیشن بندی متکی به واژگان پیوسته مربوط به متغیرهای پارتیشن بندی شده است. علاوه بر این، نگاشت مجدد زیربنایی از یک IndexTable (برخلاف یک CuckooTable غیر دقیق) استفاده می کند، بنابراین کد مشتری باید از index_table_from_file() مربوطه استفاده کند، همانطور که چارچوب FeatureColumn این کار را انجام می دهد (برخلاف tf.feature_to_id()، که از CuckooTable استفاده می کند.

کلاس های تو در تو

کلاس GenerateVocabRemapping.Options ویژگی های اختیاری برای GenerateVocabRemapping

ثابت ها

رشته OP_NAME نام این عملیات، همانطور که توسط موتور هسته TensorFlow شناخته می شود

روش های عمومی

Static GenerateVocabRemapping
ایجاد ( دامنه ، عملوند < TString > newVocabFile، Operand < TString > oldVocabFile، Long newVocabOffset، Long numNewVocab، گزینه‌ها... )
روش Factory برای ایجاد کلاسی که یک عملیات GenerateVocabRemapping جدید را بسته بندی می کند.
خروجی < TINT32 >
numPresent ()
تعداد ورودی‌های واژگان جدید یافت شده در واژگان قدیمی.
استاتیک GenerateVocabRemapping.Options
oldVocabSize (Long oldVocabSize)
خروجی < TINT64 >
نقشه برداری مجدد ()
یک تانسور با طول num_new_vocab که در آن عنصر در نمایه i برابر با شناسه قدیمی است که به شناسه جدید i نگاشت می شود.

روش های ارثی

ثابت ها

رشته نهایی ثابت عمومی OP_NAME

نام این عملیات، همانطور که توسط موتور هسته TensorFlow شناخته می شود

مقدار ثابت: "GenerateVocabRemapping"

روش های عمومی

استاتیک عمومی GenerateVocabRemapping ایجاد ( دامنه دامنه ، Operand < TString > newVocabFile، Operand < TString > oldVocabFile، Long newVocabOffset، Long numNewVocab، گزینه‌ها... )

روش Factory برای ایجاد کلاسی که یک عملیات GenerateVocabRemapping جدید را بسته بندی می کند.

مولفه های
محدوده محدوده فعلی
newVocabFile مسیر فایل vocab جدید.
OldVocabFile مسیر فایل vocab قدیمی.
newVocabOffset چند ورودی به فایل vocab جدید برای شروع خواندن.
numNewVocab تعداد ورودی‌های فایل vocab جدید برای نقشه‌برداری مجدد.
گزینه ها مقادیر ویژگی های اختیاری را حمل می کند
برمی گرداند
  • یک نمونه جدید از GenerateVocabRemapping

خروجی عمومی < TINT32 > numPresent ()

تعداد ورودی‌های واژگان جدید یافت شده در واژگان قدیمی.

عمومی استاتیک GenerateVocabRemapping.Options oldVocabSize (Long oldVocabSize)

مولفه های
oldVocabSize تعداد ورودی‌های موجود در فایل vocab قدیمی که باید در نظر گرفته شود. اگر -1 باشد، از کل واژگان قدیمی استفاده کنید.

خروجی عمومی < TINT64 > نقشه برداری مجدد ()

یک تانسور با طول num_new_vocab که در آن عنصر در نمایه i برابر با شناسه قدیمی است که به شناسه جدید i نگاشت می شود. این عنصر برای هر شناسه جدیدی که در واژگان قدیمی یافت نمی شود -1 است.