UnicodeDecode

genel son sınıf UnicodeDecode

'Giriş'teki her dizenin kodunu bir Unicode kod noktaları dizisi halinde çözer.

Tüm dizelere ilişkin karakter kod noktaları, dizelerin ana satır sırasına göre karakterlere genişletildiği tek bir "karakter_değerleri" vektörü kullanılarak döndürülür.

'row_splits' tensörü, her giriş dizesi için kod noktalarının 'char_values' tensörü içinde nerede başladığını ve bittiğini gösterir. Özellikle, 'i'inci dizenin değerleri (ana satır sırasına göre) '[row_splits[i]:row_splits[i+1]]' diliminde saklanır. Böylece:

  • "char_values[row_splits[i]+j]", "i" dizesindeki (ana satır sırasına göre) "j" karakterinin Unicode kod noktasıdır.
  • 'satır_splits[i+1] - satır_splits[i]', 'i'inci dizedeki karakter sayısıdır (ana satır sırasına göre).

İç İçe Sınıflar

sınıf UnicodeDecode.Seçenekler UnicodeDecode için isteğe bağlı özellikler

Genel Yöntemler

Çıkış <Tamsayı>
karakterDeğerleri ()
Kodu çözülmüş kod noktalarını içeren bir 1D int32 Tensörü.
statik <T Sayıyı genişletir> UnicodeDecode <T>
oluştur ( Kapsam kapsamı, İşlenen <Dize> girişi, Dize girişi Kodlaması, Sınıf<T> Tsplits, Seçenekler... seçenekler)
Yeni bir UnicodeDecode işlemini saran bir sınıf oluşturmaya yönelik fabrika yöntemi.
statik UnicodeDecode <Uzun>
create ( Kapsam kapsamı, İşlenen <Dize> girişi, Dize girişi Kodlama, Seçenekler... seçenekler)
Varsayılan çıktı türlerini kullanarak yeni bir UnicodeDecode işlemini saran bir sınıf oluşturmaya yönelik fabrika yöntemi.
statik UnicodeDecode.Options
hatalar (Dize hataları)
statik UnicodeDecode.Options
changeControlCharacters (Boolean changeControlCharacters)
statik UnicodeDecode.Options
replacementChar (Uzun değiştirmeChar)
Çıkış <T>
satırbölmeleri ()
Satır bölmelerini içeren bir 1D int32 tensörü.

Kalıtsal Yöntemler

Genel Yöntemler

genel Çıkış <Tamsayı> charValues ​​()

Kodu çözülmüş kod noktalarını içeren bir 1D int32 Tensörü.

public static UnicodeDecode <T> create ( Kapsam kapsamı, İşlenen <Dize> girişi, Dize girişi Kodlama, Sınıf<T> Tsplit'ler, Seçenekler... seçenekler)

Yeni bir UnicodeDecode işlemini saran bir sınıf oluşturmaya yönelik fabrika yöntemi.

Parametreler
kapsam mevcut kapsam
giriş Kodu çözülecek metin. Herhangi bir şekle sahip olabilir. Çıktının char değerlerinin bir vektörüne düzleştirildiğine dikkat edin.
giriş kodlaması Giriş dizelerinin metin kodlaması. Bu, ICU ucnv algoritmik dönüştürücüleri tarafından desteklenen kodlamalardan herhangi biridir. Örnekler: "UTF-16", "US ASCII", "UTF-8"`.
seçenekler isteğe bağlı nitelik değerlerini taşır
İadeler
  • UnicodeDecode'un yeni bir örneği

public static UnicodeDecode <Uzun> create ( Kapsam kapsamı, İşlenen <Dize> girişi, Dize girişi Kodlama, Seçenekler... seçenekler)

Varsayılan çıktı türlerini kullanarak yeni bir UnicodeDecode işlemini saran bir sınıf oluşturmaya yönelik fabrika yöntemi.

Parametreler
kapsam mevcut kapsam
giriş Kodu çözülecek metin. Herhangi bir şekle sahip olabilir. Çıktının char değerlerinin bir vektörüne düzleştirildiğine dikkat edin.
giriş kodlaması Giriş dizelerinin metin kodlaması. Bu, ICU ucnv algoritmik dönüştürücüleri tarafından desteklenen kodlamalardan herhangi biridir. Örnekler: "UTF-16", "US ASCII", "UTF-8"`.
seçenekler isteğe bağlı nitelik değerlerini taşır
İadeler
  • UnicodeDecode'un yeni bir örneği

genel statik UnicodeDecode.Options hataları (Dize hataları)

Parametreler
hatalar Girişte geçersiz biçimlendirme bulunduğunda hata işleme politikası. 'Strict' değeri, işlemin herhangi bir geçersiz giriş biçimlendirmesinde InvalidArgument hatası üretmesine neden olur. 'Değiştir' değeri (varsayılan), işlemin girişteki geçersiz biçimlendirmeyi 'replacement_char' kod noktasıyla değiştirmesine neden olur. 'Yoksay' değeri, işlemin girdideki herhangi bir geçersiz biçimlendirmeyi atlamasına ve buna karşılık gelen bir çıktı karakteri üretmemesine neden olur.

public static UnicodeDecode.Options replacementControlCharacters (Boolean changeControlCharacters)

Parametreler
ControlCharacters'ı değiştirin C0 kontrol karakterlerinin (00-1F) 'replacement_char' ile değiştirilip değiştirilmeyeceği. Varsayılan yanlıştır.

public static UnicodeDecode.Options replacementChar (Uzun replacementChar)

Parametreler
yedek karakter `errors='replace'` durumunda girişteki geçersiz biçimlendirmenin yerine kullanılacak yedek karakter kod noktası. Geçerli herhangi bir unicode kod noktası kullanılabilir. Varsayılan değer, varsayılan unicode değiştirme karakterinin 0xFFFD veya U+65533 olmasıdır.)

genel Çıkış <T> rowSplits ()

Satır bölmelerini içeren bir 1D int32 tensörü.