Biến đổi dòng chảy Tenor

Xem trên GitHub

TensorFlow Transform là thư viện để xử lý trước dữ liệu với TensorFlow. tf.Transform rất hữu ích cho dữ liệu yêu cầu vượt qua đầy đủ, chẳng hạn như:

  • Chuẩn hóa giá trị đầu vào bằng giá trị trung bình và độ lệch chuẩn.
  • Chuyển đổi chuỗi thành số nguyên bằng cách tạo từ vựng trên tất cả các giá trị đầu vào.
  • Chuyển đổi số float thành số nguyên bằng cách gán chúng cho các nhóm dựa trên phân phối dữ liệu được quan sát.

TensorFlow có hỗ trợ tích hợp cho các thao tác trên một ví dụ hoặc một loạt ví dụ. tf.Transform mở rộng các khả năng này để hỗ trợ truyền toàn bộ dữ liệu mẫu.

Đầu ra của tf.Transform được xuất dưới dạng biểu đồ TensorFlow để sử dụng cho việc đào tạo và phục vụ. Việc sử dụng cùng một biểu đồ cho cả quá trình huấn luyện và phân phát có thể tránh được hiện tượng lệch do các phép biến đổi giống nhau được áp dụng trong cả hai giai đoạn.

Để biết phần giới thiệu về tf.Transform , hãy xem phần tf.Transform trong buổi nói chuyện tại Hội nghị thượng đỉnh TFX Dev về TFX ( liên kết ).

Cài đặt

Gói PyPI tensorflow-transform là cách được khuyến nghị để cài đặt tf.Transform :

pip install tensorflow-transform

Xây dựng TFT từ nguồn

Để xây dựng từ nguồn, hãy làm theo các bước sau: Tạo môi trường ảo bằng cách chạy các lệnh

python3 -m venv <virtualenv_name>
source <virtualenv_name>/bin/activate
pip3 install setuptools wheel
git clone https://github.com/tensorflow/transform.git
cd transform
python3 setup.py bdist_wheel

Điều này sẽ xây dựng bánh xe TFT trong thư mục dist. Để cài đặt bánh xe từ thư mục dist, hãy chạy lệnh

cd dist
pip3 install tensorflow_transform-<version>-py3-none-any.whl

Gói hàng đêm

TFT cũng lưu trữ các gói hàng đêm tại https://pypi-nightly.tensorflow.org trên Google Cloud. Để cài đặt gói hàng đêm mới nhất, vui lòng sử dụng lệnh sau:

pip install --extra-index-url https://pypi-nightly.tensorflow.org/simple tensorflow-transform

Điều này sẽ cài đặt các gói hàng đêm cho các phần phụ thuộc chính của TFT như Siêu dữ liệu TensorFlow (TFMD), Thư viện chia sẻ cơ bản TFX (TFX-BSL).

Sự phụ thuộc đáng chú ý

TensorFlow là bắt buộc.

Cần có chùm tia Apache ; đó là cách hỗ trợ tính toán phân tán hiệu quả. Theo mặc định, Apache Beam chạy ở chế độ cục bộ nhưng cũng có thể chạy ở chế độ phân tán bằng cách sử dụng Google Cloud Dataflowcác trình chạy Apache Beam khác.

Mũi tên Apache cũng được yêu cầu. TFT sử dụng Mũi tên để biểu diễn dữ liệu nội bộ nhằm tận dụng các hàm gọn gàng được vector hóa.

Phiên bản tương thích

Bảng sau đây là các phiên bản gói tf.Transform tương thích với nhau. Điều này được xác định bởi khung thử nghiệm của chúng tôi, nhưng các kết hợp chưa được kiểm tra khác cũng có thể hoạt động.

biến đổi dòng chảy chùm tia Apache [gcp] pyarrow dòng chảy căng thẳng siêu dữ liệu tenorflow tfx-bsl
Bậc thầy GitHub 2.47.0 10.0.0 hàng đêm (2.x) 1.15.0 1.15.1
1.15.0 2.47.0 10.0.0 2,15 1.15.0 1.15.1
1.14.0 2.47.0 10.0.0 2.13 1.14.0 1.14.0
1.13.0 2.41.0 6.0.0 2.12 1.13.1 1.13.0
1.12.0 2.41.0 6.0.0 2.11 1.12.0 1.12.0
1.11.0 2.41.0 6.0.0 1.15.5 / 2.10 1.11.0 1.11.0
1.10.0 2.40.0 6.0.0 1.15.5 / 2.9 1.10.0 1.10.0
1.9.0 2.38.0 5.0.0 1.15.5 / 2.9 1.9.0 1.9.0
1.8.0 2.38.0 5.0.0 1.15.5 / 2.8 1.8.0 1.8.0
1.7.0 2.36.0 5.0.0 1.15.5 / 2.8 1.7.0 1.7.0
1.6.1 2.35.0 5.0.0 1.15.5 / 2.8 1.6.0 1.6.0
1.6.0 2.35.0 5.0.0 1.15.5 / 2.7 1.6.0 1.6.0
1.5.0 2.34.0 5.0.0 1.15.2 / 2.7 1.5.0 1.5.0
1.4.1 2.33.0 4.0.1 1.15.2 / 2.6 1.4.0 1.4.0
1.4.0 2.33.0 4.0.1 1.15.2 / 2.6 1.4.0 1.4.0
1.3.0 2.31.0 2.0.0 1.15.2 / 2.6 1.2.0 1.3.0
1.2.0 2.31.0 2.0.0 1.15.2 / 2.5 1.2.0 1.2.0
1.1.1 2.29.0 2.0.0 1.15.2 / 2.5 1.1.0 1.1.1
1.1.0 2.29.0 2.0.0 1.15.2 / 2.5 1.1.0 1.1.0
1.0.0 2.29.0 2.0.0 1,15 / 2,5 1.0.0 1.0.0
0,30,0 2.28.0 2.0.0 1,15 / 2,4 0,30,0 0,30,0
0,29,0 2.28.0 2.0.0 1,15 / 2,4 0,29,0 0,29,0
0,28,0 2.28.0 2.0.0 1,15 / 2,4 0,28,0 0,28,1
0,27,0 2.27.0 2.0.0 1,15 / 2,4 0,27,0 0,27,0
0,26,0 2.25.0 0.17.0 1,15 / 2,3 0,26,0 0,26,0
0,25,0 2.25.0 0.17.0 1,15 / 2,3 0,25,0 0,25,0
0,24,1 2.24.0 0.17.0 1,15 / 2,3 0,24,0 0,24,1
0,24,0 2.23.0 0.17.0 1,15 / 2,3 0,24,0 0,24,0
0,23,0 2.23.0 0.17.0 1,15 / 2,3 0,23,0 0,23,0
0,22,0 2.20.0 0.16.0 1,15 / 2,2 0,22,0 0,22,0
0,21,2 2.17.0 0,15,0 1,15 / 2,1 0,21,0 0,21,3
0,21,0 2.17.0 0,15,0 1,15 / 2,1 0,21,0 0,21,0
0,15,0 2.16.0 0.14.0 1,15 / 2,0 0,15,0 0,15,0
0.14.0 2.14.0 0.14.0 1.14 0.14.0 không có
0.13.0 2.11.0 không có 1.13 0.12.1 không có
0.12.0 2.10.0 không có 1.12 0.12.0 không có
0.11.0 2.8.0 không có 1.11 0.9.0 không có
0.9.0 2.6.0 không có 1.9 0.9.0 không có
0.8.0 2.5.0 không có 1.8 không có không có
0.6.0 2.4.0 không có 1.6 không có không có
0.5.0 2.3.0 không có 1,5 không có không có
0.4.0 2.2.0 không có 1.4 không có không có
0.3.1 2.1.1 không có 1.3 không có không có
0.3.0 2.1.1 không có 1.3 không có không có
0.1.10 2.0.0 không có 1.0 không có không có

Câu hỏi

Vui lòng gửi bất kỳ câu hỏi nào về cách làm việc với tf.Transform sang Stack Overflow bằng cách sử dụng thẻ tensorflow-transform .