此页面由 Cloud Translation API 翻译。
Switch to English

tf.strings.unicode_split

TensorFlow 1版 GitHub上查看源代码

分割每个串input为Unicode代码点的序列。

用在笔记本电脑

使用的指南使用教程

result[i1...iN, j]是子串input[i1...iN]编码其j个字符,当使用解码input_encoding

input 一个N维潜在破烂string张量与形状[D1...DN] N必须静态已知的。
input_encoding 对于应该用于每个字符串解码unicode编码字符串名称。
errors 指定当输入字符串不能使用所指示的编码转换所述响应。之一:

  • 'strict' :提高对任何非法子异常。
  • 'replace' :替换为非法串replacement_char
  • 'ignore' :跳过非法串。
replacement_char 代替无效的子字符串的情况下使用替换码点在inputerrors='replace'
name 一种操作(可选)的名称。

N+1int32张量与形状[D1...DN, (num_chars)] 。返回的张量是一个tf.Tensor如果input是一个标量,或tf.RaggedTensor否则。

例:

input = [s.encode('utf8') for s in (u'G\xf6\xf6dnight', u'\U0001f60a')]
tf.strings.unicode_split(input, 'UTF-8').to_list()
[[b'G', b'\xc3\xb6', b'\xc3\xb6', b'd', b'n', b'i', b'g', b'h', b't'],
 [b'\xf0\x9f\x98\x8a']]