Cette page a été traduite par l'API Cloud Translation.
Switch to English

tensorflow :: ops :: UnicodeTranscode

#include <string_ops.h>

Transcoder le texte d'entrée d'une source codant pour un codage de destination.

Résumé

L'entrée est un tenseur de chaîne de forme quelconque. La sortie est un tenseur de chaîne de la même forme contenant les chaînes transcodés. Sortie des chaînes sont toujours valides unicode. Si l'entrée contient des positions invalides de codage, les errors d' attribut définit la politique de la façon de traiter avec eux. Si la politique de gestion des erreurs par défaut est utilisé, le formatage non valide sera remplacée dans la sortie par le replacement_char . Si la politique d'erreurs est de ignore , les positions de codage non valides dans l'entrée sont ignorés et non inclus dans la sortie. Si elle réglée sur strict alors tout formatage invalide entraînera une erreur de InvalidArgument.

Cette opération peut être utilisé avec output_encoding = input_encoding pour appliquer la mise en forme correcte pour les entrées même si elles sont déjà dans le codage souhaité.

Si l'entrée est préfixé par un Byte Order Mark nécessaire pour déterminer codage (par exemple si l'encodage est UTF-16 et la nomenclature indique big-endian), alors que la nomenclature sera consommée et non émis dans la sortie. Si le codage d'entrée est marquée par une boutisme explicite (par exemple UTF-16-BE), la nomenclature est interprété comme un insécables espace et est conservée dans la sortie (y compris pour toujours UTF-8).

Le résultat final est que si l'entrée est marquée comme boutisme explicite le transcoder est fidèle à tous les points de code dans la source. Si elle n'est pas marqué avec une boutisme explicite, la nomenclature ne fait pas partie de la chaîne elle-même, mais sous forme de métadonnées, et ainsi n'est pas conservée dans la sortie.

Exemples:

tf.strings.unicode_transcode ([ "Bonjour", "tensorflow", "2.x"], "UTF-8", "UTF-16-BE") tf.strings.unicode_transcode ([ "A", "B", "C"], "ASCII US", "UTF-8"). numpy matrice () ([B'A 'B'B', b » C '], DTYPE = object)

Arguments:

  • portée: A Portée objet
  • entrée: Le texte à traiter. Peut avoir une forme quelconque.
  • input_encoding: encodage de texte des chaînes d'entrée. Ceci est l'un des codages pris en charge par des convertisseurs algorithmiques de soins intensifs. Exemples: "UTF-16", "US ASCII", "UTF-8" .
  • output_encoding: le codage Unicode à utiliser dans la sortie. Doit être l' un des "UTF-8", "UTF-16-BE", "UTF-32-BE" . encodages multi-octets sera grand-boutiste.

Les attributs facultatifs (voir Attrs ):

  • erreurs: politique de traitement des erreurs quand il y a un formatage incorrect dans l'entrée. La valeur de « stricte » entraînera l'opération pour produire une erreur de InvalidArgument sur toute entrée non valide le formatage. Une valeur de « remplacer » (par défaut) provoque l'opération à la place de toute mise en forme non valide dans l'entrée avec la replacement_char codet. Une valeur de « ignorer » provoquera l'opération pour sauter toute mise en forme non valide dans l'entrée et ne produisent pas de caractère de sortie correspondant.
  • replacement_char: Le caractère de remplacement codepoint à utiliser à la place de tout formatage non valide dans l'entrée lorsque des errors='replace' . Toute codepoint unicode valide peut être utilisé. La valeur par défaut est le caractère de remplacement par défaut unicode est 0xFFFD ou U + 65533.)

Notez que pour UTF-8, en passant un caractère de remplacement exprimable dans 1 octet, comme « », permettra de préserver l'alignement de chaîne à la source depuis octets invalides seront remplacés par un remplacement de 1 octet. Pour UTF-16-BE et UTF-16-LE, tout 1 ou 2 octet de caractère de remplacement permettra de préserver l'alignement des octets de la source.

  • replace_control_characters: Que ce soit pour remplacer les caractères de contrôle (C0) 00-1F avec le replacement_char . Par défaut est faux.

Retour:

  • Output : un tenseur de chaîne contenant du texte codé en utilisant unicode output_encoding .

Constructeurs et Destructeurs

UnicodeTranscode (const :: tensorflow::Scope & scope, :: tensorflow::Input input, StringPiece input_encoding, StringPiece output_encoding)
UnicodeTranscode (const :: tensorflow::Scope & scope, :: tensorflow::Input input, StringPiece input_encoding, StringPiece output_encoding, const UnicodeTranscode::Attrs & attrs)

attributs publics

operation
output

Les fonctions publiques

node () const
::tensorflow::Node *
operator::tensorflow::Input () const
operator::tensorflow::Output () const

fonctions statiques publiques

Errors (StringPiece x)
ReplaceControlCharacters (bool x)
ReplacementChar (int64 x)

struct

tensorflow :: :: ops UnicodeTranscode :: ATTRS

Setters d'attributs en option pour UnicodeTranscode .

attributs publics

opération

 Operation operation

production

:: tensorflow::Output output

Les fonctions publiques

UnicodeTranscode

 UnicodeTranscode(
  const :: tensorflow::Scope & scope,
  :: tensorflow::Input input,
  StringPiece input_encoding,
  StringPiece output_encoding
)

UnicodeTranscode

 UnicodeTranscode(
  const :: tensorflow::Scope & scope,
  :: tensorflow::Input input,
  StringPiece input_encoding,
  StringPiece output_encoding,
  const UnicodeTranscode::Attrs & attrs
)

nœud

::tensorflow::Node * node() const 

opérateur :: tensorflow :: entrée

 operator::tensorflow::Input() const 

opérateur :: tensorflow :: sortie

 operator::tensorflow::Output() const 

fonctions statiques publiques

les erreurs

 Attrs Errors(
  StringPiece x
)

ReplaceControlCharacters

 Attrs ReplaceControlCharacters(
  bool x
)

ReplacementChar

 Attrs ReplacementChar(
  int64 x
)