Xác thực dữ liệu TensorFlow

Xem trên GitHub

Xác thực dữ liệu TensorFlow (TFDV) là một thư viện để khám phá và xác thực dữ liệu học máy. Nó được thiết kế để có khả năng mở rộng cao và hoạt động tốt với TensorFlow và TensorFlow Extended (TFX) .

Xác thực dữ liệu TF bao gồm:

  • Tính toán có thể mở rộng số liệu thống kê tóm tắt của dữ liệu đào tạo và kiểm tra.
  • Tích hợp với trình xem để phân phối và thống kê dữ liệu, cũng như so sánh các khía cạnh của các cặp tính năng ( Facets )
  • Tạo lược đồ dữ liệu tự động để mô tả những kỳ vọng về dữ liệu như các giá trị, phạm vi và từ vựng bắt buộc
  • Trình xem lược đồ để giúp bạn kiểm tra lược đồ.
  • Phát hiện bất thường để xác định các điểm bất thường, chẳng hạn như tính năng bị thiếu, giá trị ngoài phạm vi hoặc loại tính năng sai, v.v.
  • Trình xem các điểm bất thường để bạn có thể xem những tính năng nào có điểm bất thường và tìm hiểu thêm để sửa chúng.

Để biết hướng dẫn sử dụng TFDV, hãy xem hướng dẫn bắt đầu và dùng thử sổ ghi chép mẫu . Một số kỹ thuật được triển khai trong TFDV được mô tả trong tài liệu kỹ thuật được xuất bản trên SysML'19 .

Cài đặt từ PyPI

Cách cài đặt TFDV được khuyến nghị là sử dụng gói PyPI :

pip install tensorflow-data-validation

Gói hàng đêm

TFDV cũng lưu trữ các gói hàng đêm trên Google Cloud. Để cài đặt gói hàng đêm mới nhất, vui lòng sử dụng lệnh sau:

export TFX_DEPENDENCY_SELECTOR=NIGHTLY
pip install --extra-index-url https://pypi-nightly.tensorflow.org/simple tensorflow-data-validation

Điều này sẽ cài đặt các gói hàng đêm cho các phần phụ thuộc chính của TFDV như Siêu dữ liệu TensorFlow (TFMD) và Thư viện chia sẻ cơ bản TFX (TFX-BSL).

Đôi khi TFDV sử dụng những thay đổi gần đây nhất của các phần phụ thuộc đó chưa được phát hành. Vì điều này, sẽ an toàn hơn khi sử dụng các phiên bản hàng đêm của các thư viện phụ thuộc đó khi sử dụng TFDV hàng đêm. Xuất biến môi trường TFX_DEPENDENCY_SELECTOR để làm như vậy.

Xây dựng với Docker

Đây là cách được khuyến nghị để xây dựng TFDV trong Linux và liên tục được thử nghiệm tại Google.

1. Cài đặt Docker

Trước tiên hãy cài đặt dockerdocker-compose bằng cách làm theo hướng dẫn: docker ; docker-compose .

2. Sao chép kho lưu trữ TFDV

git clone https://github.com/tensorflow/data-validation
cd data-validation

Lưu ý rằng các hướng dẫn này sẽ cài đặt nhánh chính mới nhất của Xác thực dữ liệu TensorFlow. Nếu bạn muốn cài đặt một nhánh cụ thể (chẳng hạn như nhánh phát hành), hãy chuyển -b <branchname> vào lệnh git clone .

3. Xây dựng gói pip

Sau đó, chạy lệnh sau tại thư mục gốc của dự án:

sudo docker-compose build manylinux2010
sudo docker-compose run -e PYTHON_VERSION=${PYTHON_VERSION} manylinux2010

trong đó PYTHON_VERSION là một trong {39, 310, 311} .

Một bánh xe sẽ được sản xuất dưới dist/ .

4. Cài đặt gói pip

pip install dist/*.whl

Xây dựng từ nguồn

1. Điều kiện tiên quyết

Để biên dịch và sử dụng TFDV, bạn cần thiết lập một số điều kiện tiên quyết.

Cài đặt NumPy

Nếu NumPy chưa được cài đặt trên hệ thống của bạn, hãy cài đặt nó ngay bây giờ bằng cách làm theo các hướng dẫn sau .

Cài đặt Bazel

Nếu Bazel chưa được cài đặt trên hệ thống của bạn, hãy cài đặt nó ngay bây giờ bằng cách làm theo các hướng dẫn sau .

2. Sao chép kho lưu trữ TFDV

git clone https://github.com/tensorflow/data-validation
cd data-validation

Lưu ý rằng các hướng dẫn này sẽ cài đặt nhánh chính mới nhất của Xác thực dữ liệu TensorFlow. Nếu bạn muốn cài đặt một nhánh cụ thể (chẳng hạn như nhánh phát hành), hãy chuyển -b <branchname> vào lệnh git clone .

3. Xây dựng gói pip

Bánh xe TFDV phụ thuộc vào phiên bản Python - để xây dựng gói pip hoạt động cho một phiên bản Python cụ thể, hãy sử dụng tệp nhị phân Python đó để chạy:

python setup.py bdist_wheel

Bạn có thể tìm thấy tệp .whl được tạo trong thư mục dist .

4. Cài đặt gói pip

pip install dist/*.whl

Nền tảng được hỗ trợ

TFDV được thử nghiệm trên các hệ điều hành 64-bit sau:

  • macOS 12.5 (Monterey) trở lên.
  • Ubuntu 20.04 trở lên.

Sự phụ thuộc đáng chú ý

TensorFlow là bắt buộc.

Cần có chùm tia Apache ; đó là cách hỗ trợ tính toán phân tán hiệu quả. Theo mặc định, Apache Beam chạy ở chế độ cục bộ nhưng cũng có thể chạy ở chế độ phân tán bằng cách sử dụng Google Cloud Dataflowcác trình chạy Apache Beam khác.

Mũi tên Apache cũng được yêu cầu. TFDV sử dụng Mũi tên để biểu diễn dữ liệu nội bộ nhằm tận dụng các hàm gọn gàng được vector hóa.

Phiên bản tương thích

Bảng sau đây hiển thị các phiên bản gói tương thích với nhau. Điều này được xác định bởi khung thử nghiệm của chúng tôi, nhưng các kết hợp chưa được kiểm tra khác cũng có thể hoạt động.

xác thực dữ liệu tensorflow chùm tia Apache [gcp] pyarrow dòng chảy căng thẳng siêu dữ liệu tenorflow biến đổi dòng chảy tfx-bsl
Bậc thầy GitHub 2.47.0 10.0.0 hàng đêm (1.x/2.x) 1.15.0 không có 1.15.1
1.15.1 2.47.0 10.0.0 2,15 1.15.0 không có 1.15.1
1.15.0 2.47.0 10.0.0 2,15 1.15.0 không có 1.15.0
1.14.0 2.47.0 10.0.0 2.13 1.14.0 không có 1.14.0
1.13.0 2.40.0 6.0.0 2.12 1.13.1 không có 1.13.0
1.12.0 2.40.0 6.0.0 2.11 1.12.0 không có 1.12.0
1.11.0 2.40.0 6.0.0 1,15 / 2,10 1.11.0 không có 1.11.0
1.10.0 2.40.0 6.0.0 1,15 / 2,9 1.10.0 không có 1.10.1
1.9.0 2.38.0 5.0.0 1,15 / 2,9 1.9.0 không có 1.9.0
1.8.0 2.38.0 5.0.0 1,15 / 2,8 1.8.0 không có 1.8.0
1.7.0 2.36.0 5.0.0 1,15 / 2,8 1.7.0 không có 1.7.0
1.6.0 2.35.0 5.0.0 1,15 / 2,7 1.6.0 không có 1.6.0
1.5.0 2.34.0 2.0.0 1,15 / 2,7 1.5.0 không có 1.5.0
1.4.0 2.32.0 2.0.0 1,15 / 2,6 1.4.0 không có 1.4.0
1.3.0 2.32.0 2.0.0 1,15 / 2,6 1.2.0 không có 1.3.0
1.2.0 2.31.0 2.0.0 1,15 / 2,5 1.2.0 không có 1.2.0
1.1.1 2.29.0 2.0.0 1,15 / 2,5 1.1.0 không có 1.1.1
1.1.0 2.29.0 2.0.0 1,15 / 2,5 1.1.0 không có 1.1.0
1.0.0 2.29.0 2.0.0 1,15 / 2,5 1.0.0 không có 1.0.0
0,30,0 2.28.0 2.0.0 1,15 / 2,4 0,30,0 không có 0,30,0
0,29,0 2.28.0 2.0.0 1,15 / 2,4 0,29,0 không có 0,29,0
0,28,0 2.28.0 2.0.0 1,15 / 2,4 0,28,0 không có 0,28,1
0,27,0 2.27.0 2.0.0 1,15 / 2,4 0,27,0 không có 0,27,0
0,26,1 2.28.0 0.17.0 1,15 / 2,3 0,26,0 0,26,0 0,26,0
0,26,0 2.25.0 0.17.0 1,15 / 2,3 0,26,0 0,26,0 0,26,0
0,25,0 2.25.0 0.17.0 1,15 / 2,3 0,25,0 0,25,0 0,25,0
0,24,1 2.24.0 0.17.0 1,15 / 2,3 0,24,0 0,24,1 0,24,1
0,24,0 2.23.0 0.17.0 1,15 / 2,3 0,24,0 0,24,0 0,24,0
0,23,1 2.24.0 0.17.0 1,15 / 2,3 0,23,0 0,23,0 0,23,0
0,23,0 2.23.0 0.17.0 1,15 / 2,3 0,23,0 0,23,0 0,23,0
0,22,2 2.20.0 0.16.0 1,15 / 2,2 0,22,0 0,22,0 0,22,1
0,22,1 2.20.0 0.16.0 1,15 / 2,2 0,22,0 0,22,0 0,22,1
0,22,0 2.20.0 0.16.0 1,15 / 2,2 0,22,0 0,22,0 0,22,0
0,21,5 2.17.0 0,15,0 1,15 / 2,1 0,21,0 0,21,1 0,21,3
0,21,4 2.17.0 0,15,0 1,15 / 2,1 0,21,0 0,21,1 0,21,3
0,21,2 2.17.0 0,15,0 1,15 / 2,1 0,21,0 0,21,0 0,21,0
0,21,1 2.17.0 0,15,0 1,15 / 2,1 0,21,0 0,21,0 0,21,0
0,21,0 2.17.0 0,15,0 1,15 / 2,1 0,21,0 0,21,0 0,21,0
0,15,0 2.16.0 0.14.0 1,15 / 2,0 0,15,0 0,15,0 0,15,0
0.14.1 2.14.0 0.14.0 1.14 0.14.0 0.14.0 không có
0.14.0 2.14.0 0.14.0 1.14 0.14.0 0.14.0 không có
0.13.1 2.11.0 không có 1.13 0.12.1 0.13.0 không có
0.13.0 2.11.0 không có 1.13 0.12.1 0.13.0 không có
0.12.0 2.10.0 không có 1.12 0.12.1 0.12.0 không có
0.11.0 2.8.0 không có 1.11 0.9.0 0.11.0 không có
0.9.0 2.6.0 không có 1.9 không có không có không có

Câu hỏi

Vui lòng gửi bất kỳ câu hỏi nào về cách làm việc với Xác thực dữ liệu TF tới Tràn ngăn xếp bằng cách sử dụng thẻ xác thực dữ liệu tensorflow .