Diese Seite wurde von der Cloud Translation API übersetzt.
Switch to English

Tensorflow :: ops :: UnicodeTranscode

#include <string_ops.h>

Transcodieren Sie den Eingabetext von einer Quellcodierung in eine Zielcodierung.

Zusammenfassung

Die Eingabe ist ein Stringtensor beliebiger Form. Die Ausgabe ist ein Stringtensor derselben Form, der die transkodierten Strings enthält. Ausgabezeichenfolgen sind immer gültige Unicodes. Wenn die Eingabe ungültige Codierungspositionen enthält, legt das Attribut errors die Richtlinie für den Umgang mit diesen fest. Wenn die Standardrichtlinie zur Fehlerbehandlung verwendet wird, wird die ungültige Formatierung in der Ausgabe durch das replacement_char . Wenn die Fehlerrichtlinie ignore , werden ungültige Codierungspositionen in der Eingabe übersprungen und nicht in die Ausgabe aufgenommen. Wenn es auf strict ist, führt jede ungültige Formatierung zu einem InvalidArgument-Fehler.

Diese Operation kann mit output_encoding = input_encoding , um eine korrekte Formatierung für Eingaben zu erzwingen, selbst wenn diese bereits in der gewünschten Codierung output_encoding = input_encoding .

Wenn der Eingabe ein Byte Order Mark vorangestellt ist, das zur Bestimmung der Codierung erforderlich ist (z. B. wenn die Codierung UTF-16 ist und die Stückliste Big-Endian anzeigt), wird diese Stückliste verbraucht und nicht in die Ausgabe ausgegeben. Wenn die Eingabecodierung mit einer expliziten Endianness markiert ist (z. B. UTF-16-BE), wird die Stückliste als nicht unterbrechender Raum interpretiert und in der Ausgabe beibehalten (auch immer für UTF-8).

Das Endergebnis ist, dass, wenn die Eingabe als explizite Endianness markiert ist, die Transcodierung allen Codepunkten in der Quelle treu bleibt. Wenn es nicht mit einer expliziten Endianness markiert ist, wird die Stückliste nicht als Teil der Zeichenfolge selbst betrachtet, sondern als Metadaten, und wird daher in der Ausgabe nicht beibehalten.

Argumente:

  • scope: Ein Scope- Objekt
  • Eingabe: Der zu verarbeitende Text. Kann jede Form haben.
  • input_encoding: Textcodierung der Eingabezeichenfolgen. Dies ist eine der Codierungen, die von ICU-UCNV-Algorithmuskonvertern unterstützt werden. Beispiele: "UTF-16", "US ASCII", "UTF-8" .
  • output_encoding: Die in der Ausgabe zu verwendende Unicode-Codierung. Muss einer von "UTF-8", "UTF-16-BE", "UTF-32-BE" . Multi-Byte-Codierungen sind Big-Endian-Codierungen.

Optionale Attribute (siehe Attrs ):

  • Fehler: Fehlerbehandlungsrichtlinie, wenn in der Eingabe eine ungültige Formatierung gefunden wurde. Der Wert 'strict' führt dazu, dass die Operation bei ungültiger Eingabeformatierung einen InvalidArgument-Fehler erzeugt. Ein Wert von ‚ersetzen‘ (Standardwert) bewirkt , dass der Betrieb jede ungültige Formatierung in der Eingabe mit dem ersetzen replacement_char Codepunkt. Der Wert 'ignorieren' bewirkt, dass die Operation ungültige Formatierungen in der Eingabe überspringt und kein entsprechendes Ausgabezeichen erzeugt.
  • replace_char: Der Codepunkt für das Ersatzzeichen, der anstelle einer ungültigen Formatierung in der Eingabe verwendet werden soll, wenn errors='replace' . Jeder gültige Unicode-Codepunkt kann verwendet werden. Der Standardwert ist das Standard-Unicode-Ersetzungszeichen 0xFFFD oder U + 65533.)

Beachten Sie, dass bei UTF-8 durch Übergeben eines in 1 Byte ausdrückbaren Ersetzungszeichens, z. B. '', die Zeichenfolgenausrichtung zur Quelle erhalten bleibt, da ungültige Bytes durch eine 1-Byte-Ersetzung ersetzt werden. Bei UTF-16-BE und UTF-16-LE behält jedes 1- oder 2-Byte-Ersatzzeichen die Byte-Ausrichtung zur Quelle bei.

  • replace_control_characters: Gibt an, ob die C0-Steuerzeichen (00-1F) durch das replace_char replacement_char . Standard ist falsch.

Kehrt zurück:

  • Output : Ein String-Tensor, der Unicode-Text enthält, der mit output_encoding codiert wurde.

Konstruktoren und Destruktoren

UnicodeTranscode (const :: tensorflow::Scope & scope, :: tensorflow::Input input, StringPiece input_encoding, StringPiece output_encoding)
UnicodeTranscode (const :: tensorflow::Scope & scope, :: tensorflow::Input input, StringPiece input_encoding, StringPiece output_encoding, const UnicodeTranscode::Attrs & attrs)

Öffentliche Attribute

operation
output

Öffentliche Funktionen

node () const
::tensorflow::Node *
operator::tensorflow::Input () const
operator::tensorflow::Output () const

Öffentliche statische Funktionen

Errors (StringPiece x)
ReplaceControlCharacters (bool x)
ReplacementChar (int64 x)

Strukturen

tensorflow :: ops :: UnicodeTranscode :: Attrs

Optionale Attributsetzer für UnicodeTranscode .

Öffentliche Attribute

Operation

Operation operation

Ausgabe

::tensorflow::Output output

Öffentliche Funktionen

UnicodeTranscode

 UnicodeTranscode(
  const ::tensorflow::Scope & scope,
  ::tensorflow::Input input,
  StringPiece input_encoding,
  StringPiece output_encoding
)

UnicodeTranscode

 UnicodeTranscode(
  const ::tensorflow::Scope & scope,
  ::tensorflow::Input input,
  StringPiece input_encoding,
  StringPiece output_encoding,
  const UnicodeTranscode::Attrs & attrs
)

Knoten

::tensorflow::Node * node() const 

operator :: tensorflow :: Input

 operator::tensorflow::Input() const 

operator :: tensorflow :: Output

 operator::tensorflow::Output() const 

Öffentliche statische Funktionen

Fehler

Attrs Errors(
  StringPiece x
)

ReplaceControlCharacters

Attrs ReplaceControlCharacters(
  bool x
)

ReplacementChar

Attrs ReplacementChar(
  int64 x
)