TensorFlow Transform

导语:
    本文是 tensorflow 手册翻译系列的第十五篇。
    本文档详细介绍了 Transform 组件的作用。

目录

  • 安装
    • 依赖库
  • 兼容版本
  • 问题

正文

TensorFlow Transform是一个用于使用TensorFlow预处理数据的库。 tf.Transform对于需要完全通过的数据很有用,例如:

通过平均值和标准偏差对输入值进行归一化。 通过在所有输入值上生成词汇表,将字符串转换为整数。 通过根据观察到的数据分布将浮点数分配给存储桶,将浮点数转换为整数。 TensorFlow内置了对单个示例或一批示例进行操作的支持。 tf.Transform扩展了这些功能,以支持对示例数据的全过程。

tf.Transform的输出被导出为TensorFlow图以用于训练和服务。在训练和服务过程中使用相同的图表可以防止偏斜,因为在两个阶段都应用了相同的转换。

有关tf.Transform的介绍,请参见TFX Dev Summit关于TFX(链接)的tf.Transform部分。

警告:tf.Transform在1.0版之前可能向后不兼容。 安装 tensorflow-transform PyPI软件包是推荐的安装tf.Transform的方法:

pip install tensorflow-transform

依存关系 tf.Transform需要TensorFlow但不依赖于tensorflow PyPI包。 有关说明,请参见TensorFlow安装指南。

运行分布式分析需要Apache Beam。 默认情况下,Apache Beam在本地模式下运行,但也可以使用Google Cloud Dataflow在分布式模式下运行。 tf.Transform设计为可扩展为其他Apache Beam运行器。

兼容版本 下表是彼此兼容的tf.Transform软件包版本。 这是由我们的测试框架确定的,但其他未经测试的组合也可能有效。

tensorflow-transform tensorflow apache-beam[gcp] GitHub master nightly (1.x/2.x) 2.16.0 0.15.0 1.15 / 2.0 2.16.0 0.14.0 1.14 2.14.0 0.13.0 1.13 2.11.0 0.12.0 1.12 2.10.0 0.11.0 1.11 2.8.0 0.9.0 1.9 2.6.0 0.8.0 1.8 2.5.0 0.6.0 1.6 2.4.0 0.5.0 1.5 2.3.0 0.4.0 1.4 2.2.0 0.3.1 1.3 2.1.1 0.3.0 1.3 2.1.1 0.1.10 1.0 2.0.0

问题 请使用tensorflow-transform标签指示有关使用tf.Transform到Stack Overflow的任何问题。

PREVIOUSThe Trainer TFX Pipeline Component
NEXTThe ExampleValidator TFX Pipeline Component