GenerateVocabRemapping

classe finale publique GenerateVocabRemapping

Étant donné un chemin vers les nouveaux et anciens fichiers de vocabulaire, renvoie un tenseur de remappage de

longueur `num_new_vocab`, où `remapping[i]` contient le numéro de ligne de l'ancien vocabulaire qui correspond à la ligne `i` dans le nouveau vocabulaire (en commençant à la ligne `new_vocab_offset` et jusqu'à `num_new_vocab` entités), ou `- 1` si l'entrée `i` dans le nouveau vocabulaire n'est pas dans l'ancien vocabulaire. L'ancien vocabulaire est limité aux premières entrées `old_vocab_size` si `old_vocab_size` n'est pas la valeur par défaut de -1.

`num_vocab_offset` permet l'utilisation dans le cas des variables partitionnées et doit généralement être défini en examinant les informations de partitionnement. Le format des fichiers doit être un fichier texte, chaque ligne contenant une seule entité du vocabulaire.

Par exemple, avec `new_vocab_file` un fichier texte contenant chacun des éléments suivants sur une seule ligne : `[f0, f1, f2, f3]`, old_vocab_file = [f1, f0, f3], `num_new_vocab = 3, new_vocab_offset = 1`, le remappage renvoyé serait `[0, -1, 2]`.

L'opération renvoie également le nombre d'entrées du nouveau vocabulaire présentes dans l'ancien vocabulaire, qui est utilisé pour calculer le nombre de valeurs à initialiser dans un remappage de matrice de poids.

Cette fonctionnalité peut être utilisée pour remapper à la fois les vocabulaires de lignes (généralement, les fonctionnalités) et les vocabulaires de colonnes (généralement, les classes) à partir des points de contrôle TensorFlow. Notez que la logique de partitionnement repose sur des vocabulaires contigus correspondant à des variables partitionnées en div. De plus, le remappage sous-jacent utilise un IndexTable (par opposition à un CuckooTable inexact), donc le code client doit utiliser le index_table_from_file() correspondant comme le fait le framework FeatureColumn (par opposition à tf.feature_to_id(), qui utilise un CuckooTable).

Classes imbriquées

classe GénérerVocabRemapping.Options Attributs facultatifs pour GenerateVocabRemapping

Constantes

Chaîne OP_NAME Le nom de cette opération, tel que connu par le moteur principal TensorFlow

Méthodes publiques

static GenerateVocabRemapping
créer ( Scope scope, Operand < TString > newVocabFile, Operand < TString > oldVocabFile, Long newVocabOffset, Long numNewVocab, Options... options)
Méthode d'usine pour créer une classe encapsulant une nouvelle opération GenerateVocabRemapping.
Sortie < TInt32 >
numPrésent ()
Nombre de nouvelles entrées de vocabulaire trouvées dans l'ancien vocabulaire.
statique GenerateVocabRemapping.Options
oldVocabSize (Longue vieilleVocabSize)
Sortie < TInt64 >
remappage ()
Un Tensor de longueur num_new_vocab où l'élément à l'index i est égal à l'ancien ID qui correspond au nouvel ID i.

Méthodes héritées

Constantes

chaîne finale statique publique OP_NAME

Le nom de cette opération, tel que connu par le moteur principal TensorFlow

Valeur constante : "GenerateVocabRemapping"

Méthodes publiques

public static GenerateVocabRemapping create ( Scope scope, Operand < TString > newVocabFile, Operand < TString > oldVocabFile, Long newVocabOffset, Long numNewVocab, Options... options)

Méthode d'usine pour créer une classe encapsulant une nouvelle opération GenerateVocabRemapping.

Paramètres
portée portée actuelle
nouveauVocabFile Chemin d'accès au nouveau fichier de vocabulaire.
vieuxVocabFichier Chemin d'accès à l'ancien fichier de vocabulaire.
nouveauVocabOffset Combien d'entrées dans le nouveau fichier de vocabulaire pour commencer la lecture.
numNouveauVocab Nombre d'entrées dans le nouveau fichier de vocabulaire à remapper.
choix porte des valeurs d'attributs facultatifs
Retour
  • une nouvelle instance de GenerateVocabRemapping

Sortie publique < TInt32 > numPresent ()

Nombre de nouvelles entrées de vocabulaire trouvées dans l'ancien vocabulaire.

public static GenerateVocabRemapping.Options oldVocabSize (Long oldVocabSize)

Paramètres
oldVocabSize Nombre d'entrées dans l'ancien fichier de vocabulaire à prendre en compte. Si -1, utilisez tout l'ancien vocabulaire.

sortie publique < TInt64 > remappage ()

Un Tensor de longueur num_new_vocab où l'élément à l'index i est égal à l'ancien ID qui correspond au nouvel ID i. Cet élément vaut -1 pour tout nouvel identifiant introuvable dans l'ancien vocabulaire.