UnicodeTranscode

genel son sınıf UnicodeTranscode

Giriş metnini kaynak kodlamasından hedef kodlamaya dönüştürün.

Giriş herhangi bir şekle sahip bir dize tensörüdür. Çıktı, kodu dönüştürülmüş dizeleri içeren aynı şekle sahip bir dize tensörüdür. Çıkış dizeleri her zaman geçerli unicode'dur. Giriş geçersiz kodlama konumları içeriyorsa "hatalar" özelliği, bunlarla nasıl başa çıkılacağına ilişkin politikayı belirler. Varsayılan hata işleme politikası kullanılırsa, çıktıda geçersiz biçimlendirmenin yerine `replacement_char` kullanılır. Hata politikası "yok sayılacak"sa, girişteki tüm geçersiz kodlama konumları atlanır ve çıkışa dahil edilmez. Eğer "katı" olarak ayarlanırsa geçersiz biçimlendirme InvalidArgument hatasıyla sonuçlanacaktır.

Bu işlem, girişler zaten istenen kodlamada olsalar bile, girişler için doğru formatlamayı uygulamak amacıyla "output_encoding = input_encoding" ile birlikte kullanılabilir.

Girişin önüne kodlamayı belirlemek için gereken bir Bayt Sırası İşareti eklenirse (örneğin, kodlama UTF-16 ise ve BOM big-endian'ı gösteriyorsa), o zaman bu Malzeme Listesi tüketilecek ve çıkışa aktarılmayacaktır. Giriş kodlaması açık bir endianness ile işaretlenmişse (örn. UTF-16-BE), malzeme listesi bölünemez bir boşluk olarak yorumlanır ve çıktıda korunur (her zaman UTF-8 için dahil).

Sonuçta, eğer girdi açık bir endianness olarak işaretlenmişse, kod dönüştürmenin kaynaktaki tüm kod noktalarına sadık kalması sağlanır. Açık bir endianness ile işaretlenmemişse, Malzeme Listesi dizenin kendisinin bir parçası olarak değil, meta veri olarak kabul edilir ve bu nedenle çıktıda korunmaz.

Örnekler:

>>> tf.strings.unicode_transcode(["Merhaba", "TensorFlow", "2.x"], "UTF-8", "UTF-16-BE") >>> tf.strings.unicode_transcode(["A", "B", "C"], "US ASCII", "UTF-8").numpy() array([b'A', b'B' , b'C'], dtype=nesne)

İç İçe Sınıflar

sınıf UnicodeTranscode.Options UnicodeTranscode için isteğe bağlı özellikler

Sabitler

Sicim OP_NAME Bu operasyonun TensorFlow çekirdek motoru tarafından bilinen adı

Genel Yöntemler

Çıkış < TString >
Çıkış olarak ()
Tensörün sembolik tutamacını döndürür.
statik UnicodeTranscode
create ( Kapsam kapsamı, İşlenen < TString > giriş, Dize girişiEncoding, String çıkışıEncoding, Seçenekler... seçenekler)
Yeni bir UnicodeTranscode işlemini saran bir sınıf oluşturmaya yönelik fabrika yöntemi.
statik UnicodeTranscode.Options
hatalar (Dize hataları)
Çıkış < TString >
çıktı ()
'output_encoding' kullanılarak kodlanmış unicode metni içeren bir dize tensörü.
statik UnicodeTranscode.Options
changeControlCharacters (Boolean changeControlCharacters)
statik UnicodeTranscode.Options
replacementChar (Uzun değiştirmeChar)

Kalıtsal Yöntemler

Sabitler

genel statik son Dize OP_NAME

Bu operasyonun TensorFlow çekirdek motoru tarafından bilinen adı

Sabit Değer: "UnicodeTranscode"

Genel Yöntemler

genel Çıkış < TString > asOutput ()

Tensörün sembolik tutamacını döndürür.

TensorFlow işlemlerinin girdileri, başka bir TensorFlow işleminin çıktılarıdır. Bu yöntem, girişin hesaplanmasını temsil eden sembolik bir tanıtıcı elde etmek için kullanılır.

public static UnicodeTranscode create ( Kapsam kapsamı, İşlenen < TString > giriş, Dize girişiEncoding, String çıkışıEncoding, Seçenekler... seçenekler)

Yeni bir UnicodeTranscode işlemini saran bir sınıf oluşturmaya yönelik fabrika yöntemi.

Parametreler
kapsam mevcut kapsam
giriş İşlenecek metin. Herhangi bir şekle sahip olabilir.
giriş kodlaması Giriş dizelerinin metin kodlaması. Bu, ICU ucnv algoritmik dönüştürücüleri tarafından desteklenen kodlamalardan herhangi biridir. Örnekler: "UTF-16", "US ASCII", "UTF-8"`.
çıktıKodlama Çıktıda kullanılacak unicode kodlama. "UTF-8", "UTF-16-BE", "UTF-32-BE"`den biri olmalıdır. Çok baytlı kodlamalar büyük endian olacaktır.
seçenekler isteğe bağlı nitelik değerlerini taşır
İadeler
  • UnicodeTranscode'un yeni bir örneği

genel statik UnicodeTranscode.Options hataları (Dize hataları)

Parametreler
hatalar Girişte geçersiz biçimlendirme bulunduğunda hata işleme politikası. 'Strict' değeri, işlemin herhangi bir geçersiz giriş biçimlendirmesinde InvalidArgument hatası üretmesine neden olur. 'Değiştir' değeri (varsayılan), işlemin girişteki geçersiz biçimlendirmeyi 'replacement_char' kod noktasıyla değiştirmesine neden olur. 'Yoksay' değeri, işlemin girdideki herhangi bir geçersiz biçimlendirmeyi atlamasına ve buna karşılık gelen bir çıktı karakteri üretmemesine neden olur.

genel Çıkış < TString > çıkış ()

'output_encoding' kullanılarak kodlanmış unicode metni içeren bir dize tensörü.

public static UnicodeTranscode.Options replacementControlCharacters (Boolean changeControlCharacters)

Parametreler
ControlCharacters'ı değiştirin C0 kontrol karakterlerinin (00-1F) 'replacement_char' ile değiştirilip değiştirilmeyeceği. Varsayılan yanlıştır.

public static UnicodeTranscode.Options replacementChar (Uzun replacementChar)

Parametreler
yedek karakter `errors='replace'` durumunda girişteki geçersiz biçimlendirmenin yerine kullanılacak yedek karakter kod noktası. Geçerli herhangi bir unicode kod noktası kullanılabilir. Varsayılan değer, varsayılan unicode değiştirme karakterinin 0xFFFD veya U+65533 olmasıdır.)

UTF-8 için, ' ' gibi 1 bayt olarak ifade edilebilen bir değiştirme karakterinin iletilmesinin, geçersiz baytlar 1 baytlık bir değiştirmeyle değiştirileceği için kaynağa yönelik dize hizalamasını koruyacağını unutmayın. UTF-16-BE ve UTF-16-LE için, herhangi bir 1 veya 2 baytlık değiştirme karakteri, baytın kaynağa hizalamasını koruyacaktır.