Browser Use + DeepSeek,我踩了哪些坑

Browser Use + DeepSeek,我踩了哪些坑

最近在折腾 Browser Use,想着 DeepSeek 便宜就接上试试,结果坑一个接一个。记录下来,希望你别再踩一遍。


坑一:程序卡住,一动不动

第一次跑,浏览器倒是打开了,但就这么干等着,没有任何输出,也没报错,就是不动。

等了五分钟,还是没反应。

查了一圈才搞明白:我用的是 deepseek-reasoner(R1),这个模型会先输出一大段 <think>...</think> 思考过程,Browser Use 拿到这个返回值之后解析 JSON 直接懵了,然后开始重试,然后又失败,然后又重试......死循环。

最简单的解法:换成 deepseek-chat(V3)。

python 复制代码
llm = ChatOpenAI(
    model="deepseek-chat",  # 别用 reasoner
    api_key="你的KEY",
    base_url="https://api.deepseek.com",
    temperature=0,
)

R1 的思维链对这种浏览器操作任务没什么用,反而添乱。V3 又快又稳。

如果非要用 R1,就得手动把思维链过滤掉:

python 复制代码
import re
from langchain_openai import ChatOpenAI

class DeepSeekR1Chat(ChatOpenAI):
    def _create_chat_result(self, response, generation_info=None):
        result = super()._create_chat_result(response, generation_info)
        for gen in result.generations:
            msg = gen.message
            if '<think>' in str(msg.content):
                msg.content = re.sub(
                    r'<think>.*?</think>', '',
                    str(msg.content), flags=re.DOTALL
                ).strip()
        return result

坑二:任务跑飞,token 一直在烧

有次让 Agent 帮我登录一个网站,结果它开始反复点同一个按钮,停不下来。过了一会儿看账单,好几块钱没了。

加上步数限制就行,这个默认应该开的:

python 复制代码
from browser_use import Agent, AgentSettings

agent = Agent(
    task="...",
    llm=llm,
    settings=AgentSettings(
        max_steps=20,     # 超过 20 步强制停
        max_failures=3,   # 失败 3 次就停
    )
)

# 再套一层总超时保险
result = await asyncio.wait_for(agent.run(), timeout=180)

坑三:登录老被风控

让 Agent 自己填账号密码登录,跑几次就触发验证码,然后就卡死了。

解法是用 Session 持久化------你手动登录一次,把状态保存下来,以后每次直接加载,Agent 上来就是已登录状态:

python 复制代码
from browser_use import Browser, BrowserProfile

# 第一次:手动登录
browser = Browser(profile=BrowserProfile(path="./session"))
# 会弹出真实浏览器,你手动登录,关掉后自动保存

# 以后每次直接用
browser = Browser(profile=BrowserProfile(path="./session"))

注意 Cookie 会过期,过期了重新存一次就好。


能跑的完整代码

python 复制代码
import asyncio
from browser_use import Agent, AgentSettings
from langchain_openai import ChatOpenAI

llm = ChatOpenAI(
    model="deepseek-chat",
    api_key="你的DEEPSEEK_KEY",
    base_url="https://api.deepseek.com",
    temperature=0,
    max_tokens=4096,
)

agent = Agent(
    task="打开 baidu.com,搜索 Browser Use,截图第一条结果",
    llm=llm,
    settings=AgentSettings(max_steps=20, max_failures=3),
)

asyncio.run(asyncio.wait_for(agent.run(), timeout=180))

要不要用官方的 BROWSER_USE_API_KEY?

官方 Key 贵,但它帮你处理了验证码、反爬这些脏活。如果你爬的是电商、社交平台这类防护强的网站,官方 Key 值那个价。

如果只是爬一些普通页面、内部系统,DeepSeek API 完全够用,便宜十几倍。


就这些,有问题欢迎加微信聊:yuyezhiji

相关推荐
小码哥_常8 小时前
MyBatis-Plus:让数据库操作飞起来的神器
后端
2301_811274319 小时前
基于SpringBoot的智能家居管理系统
spring boot·后端·智能家居
AI人工智能+电脑小能手9 小时前
【大白话说Java面试题】【Java基础篇】第15题:JDK1.7中HashMap扩容为什么会发生死循环?如何解决
java·开发语言·数据结构·后端·面试·哈希算法
舒一笑9 小时前
我把设备指纹生成逻辑拆开了:它到底凭什么区分不同设备?
后端·程序员·掘金技术征文
Nicander10 小时前
多数据源下@transcation事务踩坑
java·后端
郑州光合科技余经理10 小时前
同城O2O海外版二次开发实战:从支付网关到配送算法
开发语言·前端·后端·算法·架构·uni-app·php
sjsjsbbsbsn11 小时前
大模型核心知识总结
java·人工智能·后端
Moment11 小时前
2026 年,AI 全栈时代到了,前端简历别再只写前端技术了 🫠🫠🫠
前端·后端·面试
白晨并不是很能熬夜12 小时前
【PRC】第 2 篇:Netty 通信层 — NIO 模型 + 自定义协议 + 心跳
java·开发语言·后端·面试·rpc·php·nio
zshs00012 小时前
#从偶发无字幕到补偿探测链路:一次 B 站字幕导入问题的完整收敛过程
java·后端·重构