SIG TFX-Addons কমিউনিটিতে যোগ দিন এবং TFX কে আরও ভাল করতে সাহায্য করুন! SIG TFX-Addons- এ যোগ দিন

ট্রান্সফর্ম টিএফএক্স পাইপলাইন উপাদান

ট্রান্সফর্ম টিএফএক্স পাইপলাইন উপাদান টিএফজে বৈশিষ্ট্য ইঞ্জিনিয়ারিং সম্পাদন করে Sche উদাহরণস্বরূপ উপাদান থেকে নির্গত উদাহরণগুলি , একটি স্কিমাজেন উপাদান দ্বারা নির্মিত ডেটা স্কিমা ব্যবহার করে এবং সেভডমডেল উভয়ই প্রেরণ করে এবং প্রাক-ট্রান্সফর্ম এবং পোস্ট-ট্রান্সফর্ম ডেটা উভয়ের পরিসংখ্যানকে নির্গত করে। যখন মৃত্যুদন্ড কার্যকর করা হবে, সেভডমোডেল একটি উদাহরণজেন উপাদান থেকে নির্গত tf. উদাহরণ গ্রহণ করবে এবং রূপান্তরিত বৈশিষ্ট্য ডেটা নির্গত করবে।

  • গ্রাহকরা: একটি উদাহরণজেন উপাদান থেকে টিএফ.এক উদাহরণ এবং স্কিমাজেন উপাদান থেকে ডেটা স্কিমা।
  • অনুকরণসমূহ: একটি প্রশিক্ষক উপাদান, পূর্ব-রূপান্তর এবং উত্তর-রূপান্তর পরিসংখ্যানগুলিতে একটি সেভডমডেল।

একটি রূপান্তর উপাদান কনফিগার করা

আপনার preprocessing_fn একবার লেখা হয়ে গেলে এটি একটি পাইথন মডিউলে সংজ্ঞায়িত করা দরকার যা ট্রান্সফর্ম উপাদানটিকে ইনপুট হিসাবে সরবরাহ করা হয়। এই মডিউলটি রূপান্তর দ্বারা লোড করা হবে এবং preprocessing_fn নামের ফাংশনটি প্রিপ্রসেসিং পাইপলাইনটি নির্মাণের জন্য ট্রান্সফর্মের মাধ্যমে পাওয়া যাবে এবং ব্যবহার করা হবে।

transform = Transform(
    examples=example_gen.outputs['examples'],
    schema=schema_gen.outputs['schema'],
    module_file=os.path.abspath(_taxi_transform_module_file))

অতিরিক্তভাবে, আপনি টিএফডিভি- ভিত্তিক প্রাক-রূপান্তর বা পোস্ট-ট্রান্সফর্ম পরিসংখ্যান গণনাতে বিকল্প সরবরাহ করতে ইচ্ছুক হতে পারেন। এটি করতে, একই মডিউলটির মধ্যে একটি stats_options_updater_fn সংজ্ঞায়িত করুন।

ট্রান্সফর্ম এবং টেনসরফ্লো ট্রান্সফর্ম

আপনার ডেটাসেটে ফিচার ইঞ্জিনিয়ারিংয়ের জন্য ট্রান্সফর্মটি টেনসরফ্লো ট্রান্সফর্মের বিস্তৃত ব্যবহার করে। টেনসরফ্লো ট্রান্সফর্মটি আপনার মডেলটিতে যাওয়ার আগে এবং প্রশিক্ষণ প্রক্রিয়ার অংশ হিসাবে বৈশিষ্ট্য ডেটা রূপান্তর করার জন্য একটি দুর্দান্ত সরঞ্জাম। সাধারণ বৈশিষ্ট্য রূপান্তরগুলির মধ্যে রয়েছে:

  • এম্বেডিং : উচ্চ মাত্রিক স্থান থেকে নিম্ন মাত্রিক স্থানে অর্থবোধক ম্যাপিং সন্ধান করে স্পার্স বৈশিষ্ট্যগুলি (কোনও শব্দভাণ্ডারের দ্বারা উত্পাদিত পূর্ণসংখ্যার IDগুলির মতো) ঘন বৈশিষ্ট্যে রূপান্তর করা। এম্বেডিংয়ের পরিচিতির জন্য মেশিন-লার্নিং ক্রাশ কোর্সে এম্বেডিংস ইউনিটটি দেখুন।
  • শব্দভান্ডার জেনারেশন : স্ট্রিং বা অন্যান্য অ-সংখ্যাগত বৈশিষ্ট্যগুলিকে পূর্ণসংখ্যায় রূপান্তর করে একটি শব্দভাণ্ডার তৈরি করে যা প্রতিটি আইডি সংখ্যায় প্রতিটি অনন্য মানকে মানচিত্র করে।
  • মানগুলিকে সাধারণকরণ করা হচ্ছে : সাংখ্যিক বৈশিষ্ট্যগুলিকে রূপান্তর করা যাতে সেগুলি সমস্ত একই ধরণের মধ্যে আসে।
  • বুকিটাইজেশন : বিচ্ছিন্ন বালতিতে মান নির্ধারণ করে ধারাবাহিক বৈশিষ্ট্যগুলিতে ধারাবাহিক-মূল্যবান বৈশিষ্ট্যগুলিকে রূপান্তর করা।
  • পাঠ্য বৈশিষ্ট্যগুলি সমৃদ্ধ করছে: বৈশিষ্ট্য সেটটি সমৃদ্ধ করতে টোকেন, এন-গ্রাম, সত্ত্বা, সংবেদন ইত্যাদি ইত্যাদির মতো কাঁচা ডেটা থেকে বৈশিষ্ট্য তৈরি করা।

টেনসরফ্লো ট্রান্সফর্ম এই এবং অন্যান্য অনেক ধরণের রূপান্তরগুলির জন্য সহায়তা সরবরাহ করে:

  • আপনার সর্বশেষ ডেটা থেকে স্বয়ংক্রিয়ভাবে একটি শব্দভান্ডার তৈরি করুন।

  • এটি আপনার মডেলটিতে প্রেরণের আগে আপনার ডেটাতে স্বেচ্ছাসেবী রূপান্তরগুলি সম্পাদন করুন। টেনসরফ্লো ট্রান্সফর্ম আপনার মডেলটির জন্য টেনসরফ্লো গ্রাফে রূপান্তরগুলি তৈরি করে যাতে প্রশিক্ষণ এবং অনুমানের সময় একই রূপান্তরগুলি সম্পাদিত হয়। আপনি এমন ট্রান্সফর্মেশনগুলি সংজ্ঞায়িত করতে পারেন যা সমস্ত প্রশিক্ষণের দৃষ্টান্তে কোনও বৈশিষ্ট্যের সর্বাধিক মানের মতো ডেটার গ্লোবাল বৈশিষ্ট্যগুলিকে উল্লেখ করে।

আপনি টিএফএক্স চালানোর পূর্বে আপনার ডেটাটি রূপান্তর করতে পারেন। আপনি যদি এটি টেনসরফ্লো ট্রান্সফর্মের মধ্যে করেন তবে রূপান্তরগুলি টেনসরফ্লো গ্রাফের অংশ হয়ে যায়। এই পদ্ধতির প্রশিক্ষণ / স্কু পরিবেশন এড়াতে সহায়তা করে।

আপনার মডেলিং কোডের অভ্যন্তরে রূপান্তরগুলি ফিচার কলামগুলি ব্যবহার করে। বৈশিষ্ট্য কলামগুলি ব্যবহার করে আপনি বুকটিটিজেশন, পূর্বনির্ধারিত শব্দভাণ্ডার ব্যবহার করে এমন ইন্টিগ্রাইজেশন বা ডেটা না দেখে সংজ্ঞায়িত করা যেতে পারে এমন কোনও অন্য রূপান্তরগুলি সংজ্ঞায়িত করতে পারেন।

বিপরীতে, টেনসরফ্লো ট্রান্সফর্মটি এমন রূপান্তরগুলির জন্য ডিজাইন করা হয়েছে যেগুলি আগে থেকে অজানা মানগুলি গণনা করার জন্য ডেটা থেকে পুরো পাসের প্রয়োজন হয়। উদাহরণস্বরূপ, শব্দভান্ডার জেনারেশনের জন্য ডেটা দিয়ে পুরো পাসের প্রয়োজন।

অ্যাপাচি রশ্মি ব্যবহার করে কম্পিউটিংয়ের মানগুলি ছাড়াও, টেনসরফ্লো ট্রান্সফর্ম ব্যবহারকারীদের এই মানগুলি একটি টেনসরফ্লো গ্রাফের মধ্যে এম্বেড করার অনুমতি দেয় যা পরে প্রশিক্ষণ গ্রাফের মধ্যে লোড করা যায়। উদাহরণস্বরূপ বৈশিষ্ট্যগুলিকে সাধারণকরণ করার সময়, tft.scale_to_z_score ফাংশনটি কোনও বৈশিষ্ট্যের গড় এবং মানক বিচ্যুতি গণনা করবে এবং একটি টেনসরফ্লো গ্রাফের মধ্যে একটি প্রতিনিধিত্ব করবে যা গড় বিয়োগ করে এবং মানক বিচ্যুতি দ্বারা বিভাজন করে। টেনসরফ্লো গ্রাফ নির্গত করে কেবল পরিসংখ্যানই নয়, টেনসরফ্লো ট্রান্সফর্ম আপনার প্রিপ্রসেসিং পাইপলাইনের অনুমোদনের প্রক্রিয়াটিকে সহজতর করে।

যেহেতু প্রাক-প্রসেসিংটি গ্রাফ হিসাবে প্রকাশ করা হয়, তাই এটি সার্ভারে ঘটতে পারে এবং প্রশিক্ষণ ও পরিবেশনের মধ্যে এটি সুসংগত হওয়ার নিশ্চয়তা দেয় ed এই ধারাবাহিকতা প্রশিক্ষণের একটি উত্স / পরিবেশন স্কু অপসারণ করে।

টেনসরফ্লো ট্রান্সফর্ম ব্যবহারকারীদের টেনসরফ্লো কোড ব্যবহার করে তাদের প্রিপ্রসেসিং পাইপলাইন নির্দিষ্ট করার অনুমতি দেয়। এর অর্থ হ'ল একটি পাইপলাইনটি টেনসরফ্লো গ্রাফের মতো একইভাবে নির্মিত। যদি এই গ্রাফটিতে কেবল টেনসরফ্লো অপ্স ব্যবহার করা হত তবে পাইপলাইনটি খাঁটি মানচিত্র হবে যা ইনপুটগুলির ব্যাচগুলি গ্রহণ করে এবং আউটপুটগুলির ব্যাচগুলি প্রদান করে। এই জাতীয় পাইপলাইন tf.Estimator API ব্যবহার করার সময় আপনার input_fn ভিতরে এই গ্রাফটি রাখার সমতুল্য। কম্পিউটিং কোয়ান্টাইলের মতো পূর্ণ-পাস ক্রিয়াকলাপ নির্দিষ্ট করার জন্য, টেনসরফ্লো ট্রান্সফর্ম analyzers নামক একটি বিশেষ ফাংশন সরবরাহ করে যা টেনসরফ্লো অপ্সের মতো প্রদর্শিত হয়, তবে প্রকৃতপক্ষে একটি ডিফার্ড গণনা নির্দিষ্ট করে যা অ্যাপাচি বিম দ্বারা সম্পাদিত হবে এবং গ্রাফের মধ্যে আউটপুটটিকে গ্রাফের মধ্যে প্রবেশ করানো হবে ধ্রুবক। যখন একটি সাধারণ টেনসরফ্লো অপশনটি একটি ইনফুট হিসাবে একটি ব্যাচ গ্রহণ করবে, ঠিক সেই ব্যাচে কিছু গণনা সম্পাদন করবে এবং একটি ব্যাচ নির্গত করবে, একজন analyzer সমস্ত ব্যাচের উপর একটি বৈশ্বিক হ্রাস (অ্যাপাচি বিমে প্রয়োগ করা) সম্পাদন করবে এবং ফলাফলটি ফিরিয়ে দেবে।

সাধারণ টেনসরফ্লো অপ্স এবং টেনসরফ্লো ট্রান্সফর্ম বিশ্লেষকদের একত্রিত করে ব্যবহারকারীরা তাদের ডেটা প্রি-প্রসেস করার জন্য জটিল পাইপলাইন তৈরি করতে পারবেন। উদাহরণস্বরূপ tft.scale_to_z_score ফাংশনটি একটি ইনপুট টেনসর নেয় এবং tft.scale_to_z_score 0 এবং ভেরিয়েন্স 1 tft.scale_to_z_score মানে স্বাভাবিক হয়। এটি হুডের নীচে mean এবং var অ্যানালাইজারদের কল করে এটি করে, যা গ্রাফের মধ্যে ইনপুট টেনসরের গড় এবং তারতম্যের সমানভাবে স্থায়ীভাবে উত্পাদন করতে পারে। এরপরে এটি টেনসরফ্লো অপ্সকে ব্যবহার করতে হবে গড়কে বিয়োগ করতে এবং মানক বিচ্যুতির দ্বারা ভাগ করে।

টেনসরফ্লো ট্রান্সফর্ম preprocessing_fn

টিএফএক্স ট্রান্সফর্ম উপাদানটি পড়া এবং লেখার সাথে সম্পর্কিত এপিআই কলগুলি পরিচালনা করে এবং ডিস্কে সেভডমোডেল আউটপুট লিখে ট্রান্সফর্মের ব্যবহারকে সহজ করে। একটি TFX ব্যবহারকারী হিসাবে, আপনি শুধুমাত্র নামক একটি একক ফাংশন সংজ্ঞায়িত করতে হবে preprocessing_fnpreprocessing_fn আপনি কয়েকটি ক্রিয়াকলাপ সংজ্ঞায়িত করেন যা টেনেসরের আউটপুট ডিক উত্পাদন করতে টেনারদের ইনপুট ডিককে ম্যানিপুলেট করে। আপনি স্কেল_ টু_০_1 এবং কম্পিউট_অ্যান্ড_্যাপ্লি_ভোকেবুলারি টেনসরফ্লো ট্রান্সফর্ম এপিআই এর মতো সহায়ক ফাংশনগুলি সন্ধান করতে পারেন বা নীচের মতন নিয়মিত টেনসরফ্লো ফাংশন ব্যবহার করতে পারেন।

def preprocessing_fn(inputs):
  """tf.transform's callback function for preprocessing inputs.

  Args:
    inputs: map from feature keys to raw not-yet-transformed features.

  Returns:
    Map from string feature key to transformed feature operations.
  """
  outputs = {}
  for key in _DENSE_FLOAT_FEATURE_KEYS:
    # Preserve this feature as a dense float, setting nan's to the mean.
    outputs[_transformed_name(key)] = transform.scale_to_z_score(
        _fill_in_missing(inputs[key]))

  for key in _VOCAB_FEATURE_KEYS:
    # Build a vocabulary for this feature.
    outputs[_transformed_name(
        key)] = transform.compute_and_apply_vocabulary(
            _fill_in_missing(inputs[key]),
            top_k=_VOCAB_SIZE,
            num_oov_buckets=_OOV_SIZE)

  for key in _BUCKET_FEATURE_KEYS:
    outputs[_transformed_name(key)] = transform.bucketize(
        _fill_in_missing(inputs[key]), _FEATURE_BUCKET_COUNT)

  for key in _CATEGORICAL_FEATURE_KEYS:
    outputs[_transformed_name(key)] = _fill_in_missing(inputs[key])

  # Was this passenger a big tipper?
  taxi_fare = _fill_in_missing(inputs[_FARE_KEY])
  tips = _fill_in_missing(inputs[_LABEL_KEY])
  outputs[_transformed_name(_LABEL_KEY)] = tf.where(
      tf.is_nan(taxi_fare),
      tf.cast(tf.zeros_like(taxi_fare), tf.int64),
      # Test if the tip was > 20% of the fare.
      tf.cast(
          tf.greater(tips, tf.multiply(taxi_fare, tf.constant(0.2))), tf.int64))

  return outputs

প্রাকপ্রসেসিং_ফএন এর ইনপুটগুলি বোঝা

preprocessing_fn tensors উপর অপারেশন একটি সিরিজ বর্ণনা (যে Tensor s অথবা SparseTensor গুলি) এবং তাই লিখতে preprocessing_fn সঠিকভাবে তা বুঝতে আপনার ডেটা কিভাবে tensors হিসাবে প্রতিনিধিত্ব করা হয় প্রয়োজনীয়। preprocessing_fn এ ইনপুটটি স্কিমা দ্বারা নির্ধারিত হয়। একটি Schema প্রোটোতে Feature একটি তালিকা থাকে এবং রূপান্তরগুলি এগুলিকে একটি "বৈশিষ্ট্য বিশিষ্ট" রূপান্তর করে (কখনও কখনও "পার্সিং স্পেক" বলা হয়) যা এমন একটি ডিক যাঁর কীগুলি বৈশিষ্ট্যগুলির নাম এবং যার মানগুলি FixedLenFeature বা VarLenFeature (বা অন্যান্য) টেনসরফ্লো ট্রান্সফর্ম ব্যবহার করে না এমন বিকল্পগুলি)।

Schema থেকে কোনও বৈশিষ্ট্য অনুমান করার নিয়মগুলি হ'ল

  • shape সেট সহ প্রতিটি feature আকার এবং tf.FixedLenFeature default_value=None tf.FixedLenFeature হবে tf.FixedLenFeature presence.min_fraction tf.FixedLenFeature অবশ্যই অন্যথায় 1 হওয়া উচিত এবং ত্রুটির ফলাফল ঘটবে, যেহেতু যখন কোনও ডিফল্ট মান থাকে না, একটি tf.FixedLenFeature বৈশিষ্ট্যটি সর্বদা উপস্থিত থাকার প্রয়োজন।
  • shape না করে থাকা প্রতিটি feature ফলস্বরূপ একটি VarLenFeature
  • প্রতিটি sparse_feature একটি পরিণাম ডেকে আনবে tf.SparseFeature যার size এবং is_sorted দ্বারা নির্ধারিত হয় fixed_shape এবং is_sorted ক্ষেত্র SparseFeature বার্তা।
  • একটি sparse_feature index_feature বা value_feature হিসাবে ব্যবহৃত বৈশিষ্ট্যগুলির বৈশিষ্ট্য value_feature তাদের নিজস্ব এন্ট্রি তৈরি হবে না।
  • feature type ক্ষেত্রের (বা একটি sparse_feature মান বৈশিষ্ট্য) এবং বৈশিষ্ট্য বৈশিষ্ট্যের dtype এর মধ্যে dtype নিম্নলিখিত সারণিতে দেওয়া হয়েছে:
type dtype
schema_pb2.INT tf.int64
schema_pb2.FLOAT tf.float32
schema_pb2.BYTES tf.string

স্ট্রিং লেবেলগুলি পরিচালনা করতে টেনসরফ্লো ট্রান্সফর্ম ব্যবহার করা

সাধারণত কেউ টেন্সরফ্লো ট্রান্সফর্ম উভয়কেই একটি শব্দভান্ডার তৈরি করতে চায় এবং স্ট্রিংগুলিকে পূর্ণসংখ্যায় রূপান্তর করতে সেই শব্দভান্ডারটি প্রয়োগ করতে চায়। এই কর্মপ্রবাহটি অনুসরণ করার সময়, input_fn নির্মিত ইনপুট_ফএনটি পূর্ণসংখ্যার স্ট্রিংটিকে আউটপুট দেবে। তবে লেবেলগুলি একটি ব্যতিক্রম, কারণ মডেলটির আউটপুট (পূর্ণসংখ্যা) লেবেলগুলি স্ট্রিংগুলিতে মানচিত্র করতে সক্ষম হওয়ার জন্য, লেবেলের সম্ভাব্য মানগুলির তালিকা সহ input_fn একটি স্ট্রিং লেবেল আউটপুট করতে input_fn প্রয়োজন। উদাহরণস্বরূপ, যদি লেবেলগুলি cat এবং dog তবে input_fn এর আউটপুট এই কাঁচা স্ট্রিং হওয়া উচিত এবং কীগুলি ["cat", "dog"] একটি প্যারামিটার হিসাবে অনুমানকারীগুলিতে প্রেরণ করা প্রয়োজন (নীচে বিশদটি দেখুন)।

পূর্ণসংখ্যাগুলিতে স্ট্রিং লেবেলের মানচিত্রটি পরিচালনা করার জন্য, আপনার একটি শব্দভাণ্ডার তৈরি করতে টেনসরফ্লো ট্রান্সফর্ম ব্যবহার করা উচিত। আমরা এটি নীচে কোড স্নিপেটে প্রদর্শন করি:

def _preprocessing_fn(inputs):
  """Preprocess input features into transformed features."""

  ...


  education = inputs[features.RAW_LABEL_KEY]
  _ = tft.vocabulary(education, vocab_filename=features.RAW_LABEL_KEY)

  ...

উপরের প্রিপ্রোসেসিং ফাংশনটি কাঁচা ইনপুট বৈশিষ্ট্যটি (যা tft.vocabulary ফাংশনের আউটপুট অংশ হিসাবে ফিরে আসবে) নেয় এবং এতে tft.vocabulary কল করে। মডেলটিতে অ্যাক্সেস করা যায় এমন education জন্য একটি শব্দভান্ডার তৈরি হওয়ার ফলস্বরূপ।

উদাহরণটিতে কীভাবে কোনও লেবেলকে রূপান্তর করা যায় এবং তারপরে রূপান্তরিত লেবেলের জন্য একটি শব্দভাণ্ডার তৈরি করা যায় তাও দেখায়। বিশেষত এটি কাঁচা লেবেল education গ্রহণ করে এবং UNKNOWN পূর্ণসংখ্যায় রূপান্তর না করে শীর্ষ 5 লেবেল (ফ্রিকোয়েন্সি অনুসারে) UNKNOWN রূপান্তর করে।

মডেল কোডে, শ্রেণিবদ্ধকারীকে অবশ্যই label_vocabulary আর্গুমেন্ট হিসাবে tft.vocabulary দ্বারা tft.vocabulary label_vocabulary । এটি প্রথমে কোনও সহায়ক সহায়তার সাথে তালিকার তালিকা হিসাবে এই শব্দভাণ্ডারটি পড়ে reading এটি নীচে স্নিপেটে দেখানো হয়েছে। নোট করুন উদাহরণ কোডটি উপরে বর্ণিত রূপান্তরিত লেবেল ব্যবহার করে তবে এখানে আমরা কাঁচা লেবেল ব্যবহারের জন্য কোড দেখাই।

def create_estimator(pipeline_inputs, hparams):

  ...

  tf_transform_output = trainer_util.TFTransformOutput(
      pipeline_inputs.transform_dir)

  # vocabulary_by_name() returns a Python list.
  label_vocabulary = tf_transform_output.vocabulary_by_name(
      features.RAW_LABEL_KEY)

  return tf.contrib.learn.DNNLinearCombinedClassifier(
      ...
      n_classes=len(label_vocab),
      label_vocabulary=label_vocab,
      ...)

প্রাক-রূপান্তর এবং পোস্ট-ট্রান্সফর্ম পরিসংখ্যান কনফিগার করা

উপরে উল্লিখিত হিসাবে, ট্রান্সফর্ম উপাদানটি TFDV কে প্রাক-রূপান্তর এবং উত্তর-রূপান্তর পরিসংখ্যান উভয়ই গণনা করতে অনুরোধ করে। TFDV একটি input চ্ছিক StatsOptions অবজেক্ট হিসাবে ইনপুট হিসাবে নেয়। ব্যবহারকারীরা নির্দিষ্ট কিছু অ্যাডিটোনাল পরিসংখ্যান (যেমন এনএলপি পরিসংখ্যান) সক্ষম করতে বা বৈধতাযুক্ত (যেমন: মিনিট / সর্বোচ্চ টোকেন ফ্রিকোয়েন্সি) সেট করার জন্য এই বস্তুটি কনফিগার করতে চাইতে পারেন। এটি করার জন্য, মডিউল ফাইলটিতে একটি stats_options_updater_fn সংজ্ঞায়িত করুন।

def stats_options_updater_fn(stats_type, stats_options):
  ...
  if stats_type == stats_options_util.StatsType.PRE_TRANSFORM:
    # Update stats_options to modify pre-transform statistics computation.
    # Most constraints are specified in the schema which can be accessed
    # via stats_options.schema.
  if stats_type == stats_options_util.StatsType.POST_TRANSFORM
    # Update stats_options to modify post-transform statistics computation.
    # Most constraints are specified in the schema which can be accessed
    # via stats_options.schema.
  return stats_options

রূপান্তর-পরবর্তী পরিসংখ্যানগুলি প্রায়শই কোনও বৈশিষ্ট্যকে প্রাক-প্রসেস করার জন্য ব্যবহৃত শব্দভাণ্ডারের জ্ঞান থেকে উপকৃত হয়। পাথ ম্যাপিংয়ের ভোকাবুলারি নামটি প্রতিটি টিএফটি-উত্পাদিত শব্দভাণ্ডারের জন্য স্ট্যাটাসঅ্যাপশনগুলিকে সরবরাহ করা হয় (এবং তাই টিএফডিভি)। অতিরিক্তভাবে, বাহ্যিকভাবে তৈরি শব্দভাণ্ডারগুলির ম্যাপিংগুলি (i) সরাসরি vocab_paths মধ্যে ভোকাব_পথ vocab_paths সংশোধন করে বা (ii) tft.annotate_asset ব্যবহার করে যুক্ত করা tft.annotate_asset