GenerateVocabRemapping

الفئة النهائية العامة GenerateVocabRemapping

نظرًا لوجود مسار لملفات المفردات الجديدة والقديمة، يتم إرجاع Tensor لإعادة رسم خرائطه

الطول `num_new_vocab`، حيث يحتوي `remapping[i]` على رقم الصف في المفردات القديمة الذي يتوافق مع الصف `i` في المفردات الجديدة (بدءًا من السطر `new_vocab_offset` وحتى `num_new_vocab` الكيانات)، أو `- 1` إذا كان الإدخال "i" في المفردات الجديدة ليس في المفردات القديمة. تقتصر المفردات القديمة على إدخالات `old_vocab_size` الأولى إذا لم تكن `old_vocab_size` هي القيمة الافتراضية لـ -1.

يتيح `num_vocab_offset` الاستخدام في حالة المتغير المقسم، ويجب تعيينه بشكل عام من خلال فحص معلومات التقسيم. يجب أن يكون تنسيق الملفات ملفًا نصيًا، بحيث يحتوي كل سطر على كيان واحد ضمن المفردات.

على سبيل المثال، مع `new_vocab_file`، ملف نصي يحتوي على كل من العناصر التالية في سطر واحد: `[f0, f1, f2, f3]`, old_vocab_file = [f1, f0, f3], `num_new_vocab = 3, new_vocab_offset = 1`، فإن إعادة التعيين التي تم إرجاعها ستكون `[0, -1, 2]`.

تقوم العملية أيضًا بإرجاع عدد الإدخالات في المفردات الجديدة التي كانت موجودة في المفردات القديمة، والتي يتم استخدامها لحساب عدد القيم المراد تهيئتها في إعادة تعيين مصفوفة الوزن

يمكن استخدام هذه الوظيفة لإعادة تعيين مفردات الصف (عادةً الميزات) ومفردات الأعمدة (عادةً الفئات) من نقاط فحص TensorFlow. لاحظ أن منطق التقسيم يعتمد على مفردات متجاورة تتوافق مع المتغيرات المقسمة على div. علاوة على ذلك، فإن إعادة التعيين الأساسية تستخدم IndexTable (على عكس CuckooTable غير الدقيق)، لذا يجب أن يستخدم كود العميل Index_table_from_file() المطابق كما يفعل إطار عمل FeaturesColumn (على عكس tf.feature_to_id()، الذي يستخدم CuckooTable).

فئات متداخلة

فصل GenerateVocabRemapping.Options السمات الاختيارية لـ GenerateVocabRemapping

الثوابت

خيط OP_NAME اسم هذه العملية كما هو معروف بواسطة محرك TensorFlow الأساسي

الأساليب العامة

ثابت GenerateVocabRemapping
إنشاء (نطاق النطاق ، المعامل < TString > newVocabFile، المعامل < TString > oldVocabFile، Long newVocabOffset، Long numNewVocab، Options... options)
طريقة المصنع لإنشاء فئة تغلف عملية GenerateVocabRemapping جديدة.
الإخراج <TInt32>
رقم الحاضر ()
عدد إدخالات المفردات الجديدة الموجودة في المفردات القديمة.
ثابت GenerateVocabRemapping.Options
oldVocabSize (طويل قديمVocabSize)
الإخراج <TInt64>
إعادة رسم الخرائط ()
موتر بطول num_new_vocab حيث يكون العنصر الموجود في الفهرس i مساويًا للمعرف القديم الذي يتم تعيينه للمعرف الجديد i.

الطرق الموروثة

الثوابت

السلسلة النهائية الثابتة العامة OP_NAME

اسم هذه العملية كما هو معروف بواسطة محرك TensorFlow الأساسي

القيمة الثابتة: "GenerateVocabRemapping"

الأساليب العامة

إنشاء GenerateVocabRemapping ثابت عام ( نطاق النطاق ، المعامل < TString > newVocabFile، المعامل < TString > oldVocabFile، Long newVocabOffset، Long numNewVocab، Options... options)

طريقة المصنع لإنشاء فئة تغلف عملية GenerateVocabRemapping جديدة.

حدود
نِطَاق النطاق الحالي
newVocabFile المسار إلى ملف vocab الجديد.
oldVocabFile المسار إلى ملف vocab القديم.
newVocabOffset كم عدد الإدخالات في ملف vocab الجديد لبدء القراءة.
numNewVocab عدد الإدخالات في ملف vocab الجديد لإعادة التخطيط.
خيارات يحمل قيم السمات الاختيارية
عائدات
  • مثيل جديد لـ GenerateVocabRemapping

الإخراج العام <TInt32> numPresent ()

عدد إدخالات المفردات الجديدة الموجودة في المفردات القديمة.

GenerateVocabRemapping.Options ثابت عام ، oldVocabSize (oldVocabSize طويل)

حدود
oldVocabSize عدد الإدخالات في ملف vocab القديم الذي يجب مراعاته. إذا -1، استخدم المفردات القديمة بأكملها.

الإخراج العام <TInt64> إعادة رسم الخرائط ()

موتر بطول num_new_vocab حيث يكون العنصر الموجود في الفهرس i مساويًا للمعرف القديم الذي يتم تعيينه للمعرف الجديد i. هذا العنصر هو -1 لأي ​​معرف جديد غير موجود في المفردات القديمة.