Aide à protéger la Grande barrière de corail avec tensorflow sur Kaggle Rejoignez Défi

tensorflow :: opérations :: UnicodeTranscode

#include <string_ops.h>

Transcodez le texte d'entrée d'un encodage source vers un encodage de destination.

Résumé

L'entrée est un tenseur de chaîne de n'importe quelle forme. La sortie est un tenseur de chaîne de même forme contenant les chaînes transcodées. Les chaînes de sortie sont toujours unicode valide. Si l'entrée contient des positions de codage non valides, l'attribut d' errors définit la politique sur la façon de les traiter. Si la stratégie de gestion des erreurs par défaut est utilisée, un formatage non valide sera remplacé dans la sortie par replacement_char . Si la politique d'erreurs est d' ignore , toutes les positions de codage non valides dans l'entrée sont ignorées et ne sont pas incluses dans la sortie. S'il est défini sur strict tout formatage non valide entraînera une erreur InvalidArgument.

Cette opération peut être utilisée avec output_encoding = input_encoding pour appliquer un formatage correct pour les entrées même si elles sont déjà dans le codage souhaité.

Si l'entrée est précédée d'une marque d'ordre d'octet nécessaire pour déterminer le codage (par exemple si le codage est UTF-16 et que la nomenclature indique big-endian), alors cette nomenclature sera consommée et non émise dans la sortie. Si le codage d'entrée est marqué d'une endianité explicite (par exemple UTF-16-BE), alors la nomenclature est interprétée comme un espace insécable et est conservée dans la sortie (y compris toujours pour UTF-8).

Le résultat final est que si l'entrée est marquée comme une endianité explicite, le transcodage est fidèle à tous les points de code de la source. Si elle n'est pas marquée d'une endianité explicite, la nomenclature n'est pas considérée comme faisant partie de la chaîne elle-même mais comme des métadonnées et n'est donc pas conservée dans la sortie.

Arguments:

  • scope: un objet Scope
  • input: Le texte à traiter. Peut avoir n'importe quelle forme.
  • input_encoding: encodage de texte des chaînes d'entrée. Il s'agit de l'un des encodages pris en charge par les convertisseurs algorithmiques ICU ucnv. Exemples: "UTF-16", "US ASCII", "UTF-8" .
  • output_encoding: l'encodage unicode à utiliser dans la sortie. Doit être l'un des "UTF-8", "UTF-16-BE", "UTF-32-BE" . Les encodages multi-octets seront big-endian.

Attributs facultatifs (voir Attrs ):

  • erreurs: stratégie de gestion des erreurs lorsqu'un formatage non valide est détecté dans l'entrée. La valeur de 'strict' entraînera l'opération pour produire une erreur InvalidArgument sur tout formatage d'entrée non valide. Une valeur de «replace» (la valeur par défaut) entraînera l'opération pour remplacer tout formatage non valide dans l'entrée par le codet replacement_char . Une valeur de «ignorer» fera sauter l'opération tout formatage non valide dans l'entrée et ne produira aucun caractère de sortie correspondant.
  • replacement_char: Le point de code du caractère de remplacement à utiliser à la place de tout formatage non valide dans l'entrée lorsque errors='replace' . Tout point de code Unicode valide peut être utilisé. La valeur par défaut est le caractère de remplacement Unicode par défaut est 0xFFFD ou U + 65533.)

Notez que pour UTF-8, passer un caractère de remplacement exprimable en 1 octet, tel que «», conservera l'alignement de la chaîne sur la source puisque les octets non valides seront remplacés par un remplacement de 1 octet. Pour UTF-16-BE et UTF-16-LE, tout caractère de remplacement de 1 ou 2 octets conservera l'alignement des octets sur la source.

  • replace_control_characters: s'il faut remplacer les caractères de contrôle C0 (00-1F) par le replacement_char . La valeur par défaut est false.

Retour:

  • Output : un tenseur de chaîne contenant du texte unicode encodé à l'aide de output_encoding .

Constructeurs et destructeurs

UnicodeTranscode (const :: tensorflow::Scope & scope, :: tensorflow::Input input, StringPiece input_encoding, StringPiece output_encoding)
UnicodeTranscode (const :: tensorflow::Scope & scope, :: tensorflow::Input input, StringPiece input_encoding, StringPiece output_encoding, const UnicodeTranscode::Attrs & attrs)

Attributs publics

operation
output

Fonctions publiques

node () const
::tensorflow::Node *
operator::tensorflow::Input () const
operator::tensorflow::Output () const

Fonctions statiques publiques

Errors (StringPiece x)
ReplaceControlCharacters (bool x)
ReplacementChar (int64 x)

Structs

tensorflow :: ops :: UnicodeTranscode :: Attrs

Définisseurs d' attributs facultatifs pour UnicodeTranscode .

Attributs publics

opération

Operation operation

production

::tensorflow::Output output

Fonctions publiques

UnicodeTranscode

 UnicodeTranscode(
  const ::tensorflow::Scope & scope,
  ::tensorflow::Input input,
  StringPiece input_encoding,
  StringPiece output_encoding
)

UnicodeTranscode

 UnicodeTranscode(
  const ::tensorflow::Scope & scope,
  ::tensorflow::Input input,
  StringPiece input_encoding,
  StringPiece output_encoding,
  const UnicodeTranscode::Attrs & attrs
)

nœud

::tensorflow::Node * node() const 

operator :: tensorflow :: Input

 operator::tensorflow::Input() const 

operator :: tensorflow :: Output

 operator::tensorflow::Output() const 

Fonctions statiques publiques

les erreurs

Attrs Errors(
  StringPiece x
)

RemplacerContrôleCaractères

Attrs ReplaceControlCharacters(
  bool x
)

RemplacementChar

Attrs ReplacementChar(
  int64 x
)