一、软件安装
1、git + node 安装流程
不想看的直接去下面用windows
git安装
https://git-scm.com/downloads/win #安装时全都下一步,不要修改路径
node安装
下载nodejs (版本20以上) 建议默认安装c盘 以防报错
访问 https://nodejs.org/zh-cn/download
下载codex
打开命令提示符(CMD)或 PowerShell,运行
npm install -g @openai/codex
验证安装
codex --version
C:\Users\admin>codex --version
codex-cli 0.116.0
2、windows安装
最新版现在不用去搞git 和nodejs了,直接去下面页面直接下载就行
https://openai.com/zh-Hans-CN/codex/
关键配置说明
我是先用node装的,不知道装windows有没有这些文件,先跟着做吧
二、api配置
找到下面配置文件C:\Users\admin\.codex\config.toml
1、修改codex模型配置
这里的model 是根据你自己后面提供的api下面的模型来改的,每个人不一定一样,看你后面买的api提供那些版本
model_provider = "codex"
model = "gpt-5.3-codex" #可更改为model = "gpt-5-codex"
model_reasoning_effort = "high"
disable_response_storage = true
[model_providers.codex]
name = "codex"
base_url="https://api.poe.com/v1"
wire_api = "responses"
env_key = "K_CODEX" #不要改成自己的密钥,在下面设置!!!
[windows]
sandbox = "elevated"
2、新增环境变量
codex 不论是怎么装的,他默认都会去读取环境变量名K_CODEX
#变量名
K_CODEX
#这个api key 是你在买其他家api的时候会给提供
#tb一大堆这玩意,几块钱先买一个临时用下
sk-xxxxxxxx

这个改完了,正常来说就能用了,在cmd 输入一个codex

3、Vscode codex 插件配置
需要在vs中连接使用的,一定需要先在终端中设置好并且测试没有问题后再连接vs!!
先下载官方的 codex 插件,切记官方的 codex 插件,只有带 openai 认证的才是!!

4、Cursor codex插件配置
我没用上这个,留个笔记

然后打开左上角的File(文件)点击perferences(首选项)点击VScode settings(设置)然后搜索settings

点击
在settings.json 中编辑,在 json 最下面加上以下内容:
"chatgpt.apiBase": "https://codex.ysaikeji.cn/v1",
"chatgpt.config": {
"preferred_auth_method":"apikey改这个",
"model":"gpt-5.4",
"model_reasoning_effort":"high",
"wire_api":"responses"
}
三、项目试用
假设,我是一个完全不懂任何编程的小白,想要做一个自动化点击屏幕的软件出来,看看效果,我现在用的是vscode

可以看到什么都没有,然后我们发出一个作为小白提出需求
1、大白话提问
我是一个编程小白,我完全看不懂任何代码,但是我现在每天都需要去某些软件上点点点,
我希望他能定时定期的把我每天的日常给做了,我不知道我应该怎么描述,
但我希望这个脚本是通用的,根据我提供的截图,我可以修改点击次数,点击频率,是否随机点击之类的,
按照特定的顺序去执行操作就像,我希望这个程序,是在页面访问的,不是那种奇怪的窗口化
并且能指定在什么时候什么时间固定执行一次,如果执行失败了,给我发邮件
最后,我希望不论他在做什么的时候,我按下ecs都能中断程序,在中断后,按下f1则会继续程序,f2彻底停止
2、gemini润色提问信息
把他仍给gemini,让他润色一下,我就得到了
你好,我是一个没有任何编程基础的新手。我每天需要处理大量重复的桌面软件操作,因此我需要你帮我从零编写一个**"基于 Web 控制台的个人 RPA(机器人流程自动化)工具"**。
请使用 Python + Flask(Web 界面)+ PyAutoGUI(模拟操作)+ OpenCV(图像识别)+ APScheduler(定时任务)+ smtplib(邮件通知)+ pynput 或 keyboard(全局快捷键监听) 来实现。
请给我提供完整的项目代码、文件目录结构,以及傻瓜式的环境安装和运行步骤。不要只给代码片段。
【核心功能需求】
纯 Web 界面控制:程序在后台运行,我通过浏览器访问本地网页(如 http://localhost:5000)来配置和管理任务,不需要桌面 GUI 窗口。
基于图像匹配的通用工作流:我可以在网页上建立一个"任务流",按顺序添加多个步骤。每个步骤我可以上传一张"目标 UI 截图",程序会在屏幕上寻找该图案并执行点击。
节点参数高度自定义:对于工作流中的每一个步骤,我都可以独立设置:
目标图片
点击行为(如单次点击、双击)
操作延迟(每次操作间隔多少秒)
坐标随机偏移(容错机制):在识别到的图片区域内,引入随机数逻辑,让点击的 X/Y 坐标产生轻微的随机偏移,同时延迟时间也有微小的随机波动,以模拟真实用户的操作习惯。
定时任务调度(Cron):在 Web 界面上,我可以为配置好的工作流设定一个"定时执行计划"(例如:每天上午 9:00 固定执行一次)。
异常监控与邮件报警:如果在执行过程中发生错误(例如:连续多次在屏幕上找不到目标截图),程序需要立即停止当前任务,并自动发送一封报警邮件到我指定的邮箱。
全局快捷键与状态控制(重要):为了防止自动化操作失控,我需要程序在后台全局监听键盘按键(需使用多线程,不能阻塞 Web 服务和自动化流程):
按下 Esc 键:暂停当前正在执行的自动化流程。
按下 F1 键:从暂停状态继续执行流程。
按下 F2 键:彻底中断并停止当前流程。
请给出完整的前端(HTML/JS)和后端(Python)代码。代码中请加上详细的中文注释,特别是关于多线程状态控制(暂停/继续)的部分,并告诉我如何配置发件邮箱的授权码。
3、codex执行
把这段直接仍给codex 然后开始等待

给我吐出来一堆东西,打开说明文档,README.md
# 个人 RPA(Web 控制台)
## 1. 安装
```powershell
cd web_rpa
python -m venv .venv
.\.venv\Scripts\activate
pip install -r requirements.txt
```
## 2. 运行
```powershell
python app.py
```
浏览器打开:`http://127.0.0.1:5000`
## 3. 全局快捷键
- `Esc`:暂停当前流程
- `F1`:继续流程
- `F2`:终止流程
## 4. 邮箱授权码说明
`SMTP 授权码` 不是登录密码,必须使用邮箱平台的"授权码 / 应用专用密码"。
常见示例:
- QQ 邮箱:`smtp.qq.com` + `587` + `TLS`
- 163 邮箱:`smtp.163.com` + `465` + `SSL`
- Gmail:`smtp.gmail.com` + `587` + `TLS`(需开启 2FA 后生成 App Password)
我们按文档操作运行,按照依赖,启动服务

访问页面

好丑的ui,把截图给gemini,让他给点推荐
给你的美化建议:
告别纯白背景:整个网页的底层背景可以用非常浅的灰蓝色(比如 #F3F4F6),然后把"流程编辑"、"邮件配置"这些区块做成纯白色的卡片(Card),加上一点点淡淡的阴影。这样页面立刻就有了立体感和层次感。
侧边栏深色化:左侧的"流程列表"可以改成深色(比如深灰或藏青色),这样能把导航区和工作区完美区分开,看起来非常专业。
按钮和输入框圆角化:现在的框框太方正了,显得死板。给输入框和按钮加上圆角(Border Radius),并在鼠标放上去时增加颜色变化(Hover 效果)。
加入图标(Icons):纯文字太枯燥了。在"保存"、"运行"、"暂停"这些按钮旁边加上直观的小图标。
状态颜色区分:
暂停(Esc):用警告色(黄色/橙色)
继续(F1):用成功色(绿色)
终止(F2):用危险色(红色)
正常按钮:用品牌色(蓝色)
把新拿到的信息,再交给codex 给我去改!!

改完了,再启动服务

好一丝,不过可以了,想改啥继续问codex