升级openai库导致的404错误排查记录

背景

OpenAI自从23年11月引入后就没有更新过,一直是0.27.0,近期由于项目需要想引入Agently框架,此框架依赖的OpenAI库较新,于是就需要升级OpenAI库。

新升级的OpenAI库版本为:

错误引出

升级完运行下,首先遇到了这个错误404 - {'error': {'code': '404', 'message': 'Resource not found'}},堆栈如下:

错误分析1

可以看出,在使用OpenAIEmbedding在进行向量嵌入时报的错,我们使用的是Azure部署的OpenAI服务,出现此错误一般是由于Azure Endpoint,Deployment,API Version,API Key,Model Version这几项信息中的某一项有问题。断点调试OpenAIEmbedding的URL如下:

复制代码
https://openaiquanshi.openai.azure.com//deployments/meeting-embedding/embeddings?api-version=2023-07-01-preview

直接用curl向这个URL发送请求,确实报了404:

复制代码
~ % curl -i -X POST -H 'Content-Length:100' 'https://openaiquanshi.openai.azure.com//deployments/meeting-embedding/embeddings?api-version=2023-07-01-preview'
HTTP/2 404 
content-length: 56
content-type: application/json
apim-request-id: 61063a5d-bb28-4299-a267-a8ddb8de870c
strict-transport-security: max-age=31536000; includeSubDomains; preload
x-content-type-options: nosniff
date: Wed, 17 Jul 2024 01:42:52 GMT

{"error":{"code":"404","message": "Resource not found"}}%     

**真实原因:**openai接口的URL Path存在版本兼容性,v1版本需要在域名后多加一个/openai用于区分azure和openai(如:https://xxx.openai.azure.com/openai),并且这个URL的修改openai库内部会自动完成。但是openai库内部有个逻辑:只有openai_api_base中没有/openai这个串时才会添加。代码如下所示:

python 复制代码
if is_openai_v1():
    # For backwards compatibility. Before openai v1, no distinction was made
    # between azure_endpoint and base_url (openai_api_base).
    openai_api_base = values["openai_api_base"]
    if openai_api_base and values["validate_base_url"]:
        if "/openai" not in openai_api_base:
            values["openai_api_base"] += "/openai"
            warnings.warn(
                "As of openai>=1.0.0, Azure endpoints should be specified via "
                f"the `azure_endpoint` param not `openai_api_base` "
                f"(or alias `base_url`). Updating `openai_api_base` from "
                f"{openai_api_base} to {values['openai_api_base']}."
            )

这里有个漏洞,由于azure的openai_api_base域名是由客户企业自己命名的,如果客户命名的域名以openai开头(如:https://openaixxx.openai.azure.com),openai库内部的URL拼接逻辑将不会执行到,最终v1+版本的openai库发出的请求却没有在域名后携带/openai, 导致404 Resource Not found

**解决办法:**模仿上面的方法,写一个函数is_openai_v1提前进行openai库的版本判断和URL修正。

python 复制代码
def is_openai_v1() -> bool:
    from importlib.metadata import version
    from packaging.version import Version, parse
    _version = parse(version("openai"))
    return _version >= Version("1.0.0")
   
api_base = os.environ["OPENAI_API_BASE"]
   
if is_openai_v1():
    api_base = os.path.join(api_base, "openai")

print(api_base)

输出的api_base如下:

python 复制代码
https://openaiquanshi.openai.azure.com/openai/deployments/meeting-embedding

错误分析2

api_base已经正确,但运行项目还是报404, 同时弹出了如下警告:

python 复制代码
=============================== warnings summary ===============================
/Users/a200007/work/ucgit/ucserver/summaryserver/venv/lib/python3.10/site-packages/langchain/embeddings/openai.py:319: UserWarning: If you have openai>=1.0.0 installed and are using Azure, please use the `AzureOpenAIEmbeddings` class.
    warnings.warn(

按照上面提示,对于azure,当openai库大于1.0.0时,我们需要使用AzureOpenAIEmbeddings代替OpenAIEmbeddings

python 复制代码
from langchain.embeddings.azure_openai import AzureOpenAIEmbeddings

api_base = os.environ["OPENAI_API_BASE"]

if is_openai_v1():
    api_base = os.path.join(api_base, "openai")

embedding_function = AzureOpenAIEmbeddings(
    deployment=embedding_deployment, 
    chunk_size=embedding_max_inputs,
    openai_api_base = api_base

使用此embedding_function做测试:

python 复制代码
tensor = embedding.embed_query("今天你去哪儿了?")
print(tensor)

> [0.0018476681179545632, -0.003048808135045326, 0.013323151742329006, -0.012344790841118551, -0.027643358824239652, 0.015491746640257776, -0.02547476299498829, -0.0032466613330973887, -0.03310223727411042, -0.017236592553203055, 0.012407106567011756, -0.005380982628351025, 0.00047866445067163386, ......(1535)]

错误分析3

继续运行,又报了404,这次是一个新的位置:

前面是embeddings的错误,这次是langchain中chat_models的错误,猜想应该都是URL兼容性的问题,于是在构造llm实例时,也加了openai版本的判断和url的处理:

python 复制代码
api_base = os.environ["OPENAI_API_BASE"]
if is_openai_v1():
	api_base = os.path.join(api_base, "openai")
llm = AzureChatOpenAI(
    temperature=0,
    max_tokens=4096,
    ......
    openai_api_base=api_base
)

这样修改后终于运行正常。

参考资料

相关推荐
じ☆冷颜〃2 小时前
分布式系统中网络技术的演进与异构融合架构(HFNA)
笔记·python·物联网·设计模式·架构·云计算
夜思红尘4 小时前
算法--双指针
python·算法·剪枝
人工智能训练4 小时前
OpenEnler等Linux系统中安装git工具的方法
linux·运维·服务器·git·vscode·python·ubuntu
嘟嘟MD5 小时前
程序员副业 | 2025年12月复盘
后端·创业
智航GIS5 小时前
8.2 面向对象
开发语言·python
蹦蹦跳跳真可爱5896 小时前
Python----大模型(GPT-2模型训练加速,训练策略)
人工智能·pytorch·python·gpt·embedding
xwill*6 小时前
π∗0.6: a VLA That Learns From Experience
人工智能·pytorch·python
还不秃顶的计科生6 小时前
LeetCode 热题 100第二题:字母易位词分组python版本
linux·python·leetcode
weixin_462446236 小时前
exo + tinygrad:Linux 节点设备能力自动探测(NVIDIA / AMD / CPU 安全兜底)
linux·运维·python·安全
不瘦80斤不改名6 小时前
Python 日志(logging)全解析
服务器·python·php