输入示例，自动生成代码：TensorFlow官方工具TF-Coder已开源

如何使编程更加便捷？最近，谷歌 TensorFlow 开源了一个帮助开发者写 TensorFlow 代码的程序合成工具 TF-Coder。

创新互联成都网站建设定制网站开发，是成都网站维护公司,为成都生料搅拌车提供网站建设服务,有成熟的网站定制合作流程，提供网站定制设计服务：原型图制作、网站创意设计、前端HTML5制作、后台程序开发等。成都网站建设热线：13518219792

项目地址：https://github.com/google-research/tensorflow-coder
Google Colab 试用地址：https://colab.research.google.com/github/google-research/tensorflow-coder/blob/master/TF-Coder_Colab.ipynb
论文地址：https://arxiv.org/pdf/2003.09040.pdf

用过 TensorFlow 框架的应该都知道，在操纵张量时，需要跟踪多个维度、张量形状和数据类型兼容性，当然还需要考虑数学正确性。此外，TensorFlow 有数百种操作，找到要使用的正确操作也是一项挑战。

那么，除了直接对张量操纵进行编码以外，如果仅通过一个说明性示例进行演示，就能自动获取相应的代码呢？这个想法听起来很诱人，而 TensorFlow Coder（TF-Coder）使这成为可能！

TF-Coder 的原理是：给出期望张量变换的输入 - 输出示例，TF-Coder 运行组合搜索，找出能够执行此变换的 TensorFlow 表达式，并最终输出对应的 TensorFlow 代码。

给出输入 - 输出示例，TF-Coder 在 1.3 秒内找出解决方案。

TF-Coder 的合成算法如下所示：

下面的动图展示了使用 TF-Coder 解决张量操纵问题的过程：

那么，TF-Coder 工具可以在哪些场景中起到作用呢？

TF-Coder：通过示例进行 TensorFlow 编程

假如你想将包含 M 个元素的向量（下例中指‘rows’）和包含 N 个元素的向量（下例中指‘cols’）依次进行相加，生成一个包含所有成对和的 M x N 矩阵。

使用 TF-Coder，你只需提供一个输入 - 输出示例（M=3，N=4）即可完成该操作，无需逐行进行编程。

例如输入张量为：

 
 
 
 
  
  
  
  inputs = {   
  
  
     
  
  
  'rows': [10, 20, 30],   
  
  
     
  
  
  'cols': [1, 2, 3, 4],   
  
  
     
  
  
  }

对应的输出张量为：

 
 
 
 
  
  
  
  output = [[11, 12, 13, 14],   
  
  
     
  
  
  [21, 22, 23, 24],   
  
  
     
  
  
  [31, 32, 33, 34]]

基于以上输入 - 输出信息（默认情况下已经输入到 TF-Coder Colab 中），TF-Coder 工具将在一秒内自动找到合适的 TensorFlow 代码：

 
 
 
 
  
  
  
  tf.add(cols, tf.expand_dims(rows, 1))

这个简单的例子旨在说明 TF-Coder 利用示例进行编程的思想。而 TF-Coder 的功能不止于此，它还可用于更难的编程问题中。

TF-Coder 帮你找到正确的函数

假设你正在处理数值特征，如某个物品的价格。数据集中的价格范围很广，例如从低于 10 美元到超出 1000 美元不等。如果这些价格被直接用作特征，则模型可能出现过拟合，在模型评估阶段可能难以处理异常价格。

为了解决上述问题，你可能需要使用 bucketing，来将数字价格转换为类别特征。例如，使用 bucket 边界 [10, 50, 100, 1000] 意味着低于 10 美元的价格应归入 bucket 0，10 美元至 50 美元的价格应归入 bucket 1，依此类推。

在选择 bucket 边界之后，如何使用 TensorFlow 将数值价格映射到 bucket 索引呢？例如，给出以下 bucket 边界和物品价格：

 
 
 
 
  
  
  
  # Input tensors   
  
  
     
  
  
  boundaries = [10, 50, 100, 1000]   
  
  
     
  
  
  prices = [15, 3, 50, 90, 100, 1001]

计算每个项的 bucket 编号：

 
 
 
 
  
  
  
  # Output tensor   
  
  
     
  
  
  bucketed_prices = [1, 0, 2, 2, 3, 4]

尽管 TensorFlow 具备多种 bucketing 操作，但要弄清楚哪种操作适合执行这种 bucketing，也是比较棘手的事情。由于 TF-Coder 可以通过行为识别数百个 Tensor 操作，因此你可以通过提供输入 - 输出示例来查找正确的操作：

 
 
 
 
  
  
  
  # Input-output example   
  
  
     
  
  
  inputs = {   
  
  
     
  
  
  'boundaries': [10, 50, 100, 1000],   
  
  
     
  
  
  'prices': [15, 3, 50, 90, 100, 1001],   
  
  
     
  
  
  }   
  
  
     
  
  
  output = [1, 0, 2, 2, 3, 4]

只需几秒钟，TF-Coder 就能输出以下解决方案：

 
 
 
 
  
  
  
  tf.searchsorted(boundaries, prices, side='right')

TF-Coder：用聪明的方式结合函数

现在我们来看另一个问题：计算一个 0-1 张量，它可以找出输入张量每一行中的最大元素。

 
 
 
 
  
  
  
  # Input tensor   
  
  
     
  
  
  scores = [[0.7, 0.2, 0.1],   
  
  
     
  
  
  [0.4, 0.5, 0.1],   
  
  
     
  
  
  [0.4, 0.4, 0.2],   
  
  
     
  
  
  [0.3, 0.4, 0.3],   
  
  
     
  
  
  [0.0, 0.0, 1.0]]   
  
  
     
  
  
  # Output tensor   
  
  
     
  
  
  top_scores = [[1, 0, 0],   
  
  
     
  
  
  [0, 1, 0],   
  
  
     
  
  
  [1, 0, 0],   
  
  
     
  
  
  [0, 1, 0],   
  
  
     
  
  
  [0, 0, 1]]

注意，如果一行内相同的最大元素重复出现（如 scores 中的第三行），则标记第一次出现的最大元素，这样 top_scores 的每一行都只有一个 1。

与上一个问题不同，这里不存在可执行该计算的 TensorFlow 函数。在文档中搜索「max」，你可能找到 tf.reduce_max、tf.argmax 和 tf.maximum，但也不清楚到底该用哪一个？tf.reduce_max 输出 [0.7, 0.5, 0.4, 0.4, 1.0]，tf.argmax 输出 [0, 1, 0, 1, 2]，tf.maximum 不合适，因为它只能容纳两个参数。这些函数似乎都与该示例的期望输出关联不大。

而 TF-Coder 可以帮你解决这类棘手问题。你可以将这个问题写成输入 - 输出示例的形式：

 
 
 
 
  
  
  
  # Input-output example   
  
  
     
  
  
  inputs = {   
  
  
     
  
  
  'scores': [[0.7, 0.2, 0.1],   
  
  
     
  
  
  [0.4, 0.5, 0.1],   
  
  
     
  
  
  [0.4, 0.4, 0.2],   
  
  
     
  
  
  [0.3, 0.4, 0.3],   
  
  
     
  
  
  [0.0, 0.0, 1.0]],   
  
  
     
  
  
  }   
  
  
     
  
  
  output = [[1, 0, 0],   
  
  
     
  
  
  [0, 1, 0],   
  
  
     
  
  
  [1, 0, 0],   
  
  
     
  
  
  [0, 1, 0],   
  
  
     
  
  
  [0, 0, 1]]

TF-Coder 结合使用 tf.one_hot 和 tf.argmax，得到问题的解：

 
 
 
 
  
  
  
  tf.cast(tf.one_hot(tf.argmax(scores, axis=1), 3), tf.int32)

通过对 TensorFlow 操作组合进行详细搜索，TF-Coder 通常能够发现优雅的解决方案，从而简化步骤，加速 TensorFlow 程序。

TF-Coder：用更少的 debug，写出准确的代码

考虑通过将每一行除以该行之和，把整数出现次数列表归一化为概率分布。例如：

 
 
 
 
  
  
  
  # Input tensor   
  
  
     
  
  
  counts = [[0, 1, 0, 0],   
  
  
     
  
  
  [0, 1, 1, 0],   
  
  
     
  
  
  [1, 1, 1, 1]]   
  
  
     
  
  
  # Output tensor   
  
  
     
  
  
  normalized = [[0.0, 1.0, 0.0, 0.0],   
  
  
     
  
  
  [0.0, 0.5, 0.5, 0.0],   
  
  
     
  
  
  [0.25, 0.25, 0.25, 0.25]]

即使你知道可用的函数（tf.reduce_sum followed by tf.divide），写出正确的代码也并非易事。第一次尝试可能是这样的：

 
 
 
 
  
  
  
  # First attempt   
  
  
     
  
  
  normalized = tf.divide(counts, tf.reduce_sum(counts, axis=1))

但是以上代码是正确吗？我们需要考虑许多潜在的问题：

代码中 axis 的值正确吗？是否应改为 axis=0？
counts 和 tf.reduce_sum(counts, axis=1) 的形状与除法兼容吗？需要改变形状或执行转置操作吗？
counts 和 tf.reduce_sum(counts, axis=1) 都是 tf.int32 张量。tf.int32 张量可以被除吗？是否需要先将其转换为 float 数据类型？
两个参数的顺序对吗？是否需要调换位置？
输出的类型是 tf.int32、tf.float32，还是别的什么？
是否存在更简单或更好的方式？

而使用 TF-Coder，你只需要给出以下输入 - 输出示例：

 
 
 
 
  
  
  
  # Input-output example   
  
  
     
  
  
  inputs = {   
  
  
     
  
  
  'counts': [[0, 1, 0, 0],   
  
  
     
  
  
  [0, 1, 1, 0],   
  
  
     
  
  
  [1, 1, 1, 1]],   
  
  
     
  
  
  }   
  
  
     
  
  
  output = [[0.0, 1.0, 0.0, 0.0],   
  
  
     
  
  
  [0.0, 0.5, 0.5, 0.0],   
  
  
     
  
  
  [0.25, 0.25, 0.25, 0.25]]

TF-Coder 给出解决方案：

 
 
 
 
  
  
  
  tf.cast(tf.divide(counts, tf.expand_dims(tf.reduce_sum(counts, axis=1), axis=1)), tf.float32)

TF-Coder 生成以上解决方案时，可以确保代码在示例输入上运行时能够准确生成示例输出。TF-Coder 的解决方案避免了不必要的步骤。你可以快速找出以上潜在问题的答案：需要采用额外的 tf.expand_dims 步骤，使张量形状与除法兼容；tf.divide 的答案必须是 tf.float32 类型。

通过这种方式，TF-Coder 可以帮助开发者编写简单准确的代码，且无需痛苦的 debug 过程。

局限性

不过，TF-Coder 也有其局限性。目前它可以在一分钟内找到涉及 3 到 4 种运算的解决方案，但短时间内找到涉及 6 种及以上操作的解决方案，对它来说还是太过复杂。此外，TF-Coder 尚不支持复张量、字符串张量或 RaggedTensor。

TF-Coder 支持操作的完整列表，参见：https://colab.research.google.com/github/google-research/tensorflow-coder/blob/master/TF-Coder_Colab.ipynb#scrollTo=Q6uRr4x9WHRC

此外，TF-Coder 只能保证解决方案对给出的输入 - 输出示例有效。该工具会搜索一个与给定输入 - 输出示例相匹配的简单 TensorFlow 表达式，但有时候「过于简单」，不能按预期进行泛化。尽可能让示例无歧义会有所帮助，这一般可以通过向输入和输出张量添加更多数值来实现。

当前文章：输入示例，自动生成代码：TensorFlow官方工具TF-Coder已开源
网页链接：http://www.shufengxianlan.com/qtweb/news37/216037.html

网站建设、网络推广公司-创新互联，是专注品牌与效果的网站制作，网络营销seo公司；服务项目有等

声明：本网站发布的内容（图片、视频和文字）以用户投稿、用户转载内容为主，如果涉及侵权请尽快告知，我们将会在第一时间删除。文章观点不代表本网站立场，如需处理请联系客服。电话：028-86922220；邮箱：631063699@qq.com。内容未经允许不得转载，或转载时需注明来源：创新互联

猜你还喜欢下面的内容