TensorFlow Transform
导语:
    本文是 tensorflow 手册翻译系列的第二十八篇。
    本文档介绍转换库的情况。
目录
  安装
  
    
      依赖库
    
  
  兼容版本
  问题
正文
TensorFlow Transform是一个用于使用TensorFlow预处理数据的库。 tf.Transform对于需要完全通过的数据很有用,例如:
通过平均值和标准偏差对输入值进行归一化。
通过在所有输入值上生成词汇表,将字符串转换为整数。
通过根据观察到的数据分布将浮点数分配给存储桶,将浮点数转换为整数。
TensorFlow内置了对单个示例或一批示例进行操作的支持。 tf.Transform扩展了这些功能,以支持对示例数据的全过程。
tf.Transform的...
Click to read more ...
Transform library for non-TFX users
导语:
    本文是 tensorflow 手册翻译系列的第二十七篇。
    本文档介绍转换库的情况。
转换也可以作为独立库使用。 大多数库文档与TFX用户无关,因为TFX用户仅构造preprocessing_fn,其余的Transform库调用则由Transform组件进行。
Click to read more ...
Get started with Tensorflow Data Validation
导语:
    本文是 tensorflow 手册翻译系列的第二十六篇。
    本文档详细介绍数据验证的实践过程。
目录
  计算描述性数据统计
  
    
      在 google 云上运行
    
  
  根据数据推断模式
  检查数据中的错误
  
    
      将数据集的统计信息与模式进行匹配
    
  
  
    
      根据示例检查错误
    
  
  模式环境
  检查数据的歪斜和趋势
  编写自定义数据连接器
正文
Tensorflow数据验证(TFDV)可以分析训练和提供数据以:
计算描述性统计数据,
推断一个模式,
检测数据异常。
核心API支持每一项功能,其便捷方法建立在顶部,并且可以在笔记本的上下文中调用...
Click to read more ...
TensorFlow Data Validation
导语:
    本文是 tensorflow 手册翻译系列的第二十五篇。
    本文档详细介绍探索和验证机器学习数据。
目录
  从 Pypi 进行安装
  从 Docker 进行构建
  
    
      安装 Docker
    
  
  
    
      克隆 TFDV 库
    
  
  
    
      构建 pip 包
    
  
  
    
      安装 pip 包
    
  
  从源进行构建
  
    
      先决条件
    
  
  
    
      克隆 TFDV 库
    
  
  
    
      构建 pip 包
    
  
  
    
      安装 pip 包
  ...
Click to read more ...
TensorFlow Data Validation: Checking and analyzing your data
导语:
    本文是 tensorflow 手册翻译系列的第二十四篇。
    本文档详细介绍如何分析和转换数据。
目录
  TensorFlow 数据验证
  
    
      总揽
    
  
  
    
      以例子验证为基础的模式
    
  
  
    
      训练服务的歪斜检测
    
  
  
    
      趋势检测
    
  
  使用可视化检查数据
  
    
      确定
    
  
正文
一旦数据进入TFX管道,就可以使用TFX组件进行分析和转换。您甚至可以在训练模型之前使用这些工具。
分析和转换数据的原因很多:
在数据中查找问题。常见问题包括:
缺少数据,例如具有空值的要素。
标签被视...
Click to read more ...
Orchestrating TFX Pipelines Kubeflow
导语:
    本文是 tensorflow 手册翻译系列的第二十三篇。
    本文档详细介绍协调 TFX Pipelines。
正文
Kubeflow是一个开源ML平台,致力于使机器学习(ML)工作流在Kubernetes上的部署变得简单,可移植和可扩展。 Kubeflow Pipelines是Kubeflow平台的一部分,该平台支持在Kubeflow上组合和执行可重复的工作流,并结合了实验和基于笔记本的体验。 Kubernetes上的Kubeflow Pipelines服务包括托管的元数据存储,基于容器的编排引擎,笔记本服务器和UI,可帮助用户大规模开发,运行和管理复杂的ML管道。 Kubeflow Pipelines SDK允许以编程方式创建和共享组件,组成和管线。
有关...
Click to read more ...
Orchestrating TFX Pipelines Beam
导语:
    本文是 tensorflow 手册翻译系列的第二十二篇。
    本文档详细介绍协调 TFX Pipelines。
正文
一些TFX组件依赖Beam进行分布式数据处理。 另外,TFX可以使用Apache Beam来协调和执行管道DAG。 Beam Orchestrator使用的BeamRunner与用于组件数据处理的BeamRunner不同。 使用默认的DirectRunner设置,Beam Orchestrator可以用于本地调试,而不会产生额外的Airflow或Kubeflow依赖关系,从而简化了系统配置。
有关详细信息,请参见Beam上的TFX示例。
Click to read more ...