tensorflow错误及解决办法

tf.graph

节点没有数据

bash 复制代码
tensorflow.python.framework.errors_impl.InvalidArgumentError: Retval[2] does not have value.

通过TensorFlow Retval0 does not have value启发,怀疑是通过tf.cond构建网络图的时候,一次只走一个分支,导致另一个分支图没有数据,把tf.cond替换后,果然没有错误了。

图过大

GraphDef不能大于2GB

这个错误很多人指向重复的定义tf.constant导致的,我遇到该错误,本质原因也是这个,我使用tf.data.Dataset.from_tensor_slices,该对象也会将数据存到图上,导致图的size过大。

维度不同

bash 复制代码
Invalid argument: Incompatible shapes: [2560] vs. [2540]

这个问题很烦人,引起问题的原因可能有很多,输入的维度不一致,后续处理不当导致的维度不一致,都有可能,可以结合batch size猜测下问题原因。

模型评估

自定义auc计算

bash 复制代码
TypeError: Values of eval_metric_ops must be (metric_value, update_op) tuples

这个问题来自我自定义了auc的计算函数,需要添加一个update_op,参考评估过程中实验者的张量流混淆矩阵修改即可。

数据输入

tf.decode_csv

bash 复制代码
Unquoted fields cannot have quotes/CRLFs inside

这个错误是tf在解析数据时node DecodeCSV字段中包含双引号导致的,可以设置decode_csv的参数use_quote_delim=False来解决。
tf.decode_csv() error: "Unquoted fields cannot have quotes/CRLFs inside"

tfserving

模型加载不全

报有些变量没有初始化,这里是因为模型传送没有完成,tfserving就读取,有部分权重没有读取到。这种情况在模型较大传输速度较慢时可能容易出现。

bash 复制代码
grpc._channel._InactiveRpcError: <_InactiveRpcError of RPC that terminated with:
	status = StatusCode.FAILED_PRECONDITION
	details = "Attempting to use uninitialized value dnn/dnn_layer_1/batch_normalization/beta/part_0
	 [[{{node dnn/dnn_layer_1/batch_normalization/beta/part_0/read}}]]"
	debug_error_string = "UNKNOWN:Error received from peer ipv4:10.133.13.16:8500 {grpc_message:"Attempting to use uninitialized value dnn/dnn_layer_1/batch_normalization/beta/part_0\n\t [[{{node dnn/dnn_layer_1/batch_normalization/beta/part_0/read}}]]", grpc_status:9, created_time:"2023-07-20T12:31:15.5256888+00:00"}"

模型签名对不上

模型保存时的签名key没有对应上,对应signature_def_map的key,可以采用默认的tf.saved_model.signature_constants.DEFAULT_SERVING_SIGNATURE_DEF_KEY="serving_default"

bash 复制代码
Serving signature key \"serving_default\" not found.

op不存在

这个问题有很多情况,我这里是使用阿里DeepRec保存的模型,SparseApplyAdam是DeepRec加速优化的算子,所以我重新用DeepRec提供的tfserving编译解决问题。

bash 复制代码
Not found: Op type not registered 'SparseApplyAdam' in binary running on
相关推荐
Deepoch9 小时前
Deepoc VLA开发板:无人机复杂环境自主感知与决策系统
人工智能·无人机·开发板·具身模型·deepoc
2401_876964139 小时前
【湖北专升本】2026湖北专升本真题PDF+备考资料汇总
数据结构·人工智能·经验分享·深度学习·算法·计算机视觉
冬奇Lab9 小时前
Agent系列(八):上下文工程——让每个 Token 都用在刀刃上
人工智能·agent
饼干哥哥9 小时前
罗福莉说的“伪多Agent”,我试了OmniWork后发现,真全干专家长这样
人工智能
jiayong239 小时前
02 创建虚拟环境
python
NiceCloud喜云9 小时前
Claude Code Routines 实战:三种触发器跑通云端自动化编码
android·运维·数据库·人工智能·自动化·json·飞书
旺仔来了9 小时前
不联网的Linux下部署python环境
linux·开发语言·python
小江的记录本9 小时前
【JVM虚拟机】垃圾回收GC:垃圾回收算法:标记-清除、标记-复制、标记-整理、分代收集(附《思维导图》+《面试高频考点清单》)
java·jvm·后端·python·算法·安全·面试
海兰10 小时前
【文字三国志:第三篇】天命重构,数据模型设计
人工智能·游戏
IP搭子来一个10 小时前
爬虫采集大量返回 403、429,到底卡在哪一环?
网络·爬虫·python