AI编程 codex使用

一、软件安装

1、git + node 安装流程

不想看的直接去下面用windows

git安装

复制代码

https://git-scm.com/downloads/win  #安装时全都下一步，不要修改路径

node安装

复制代码

下载nodejs (版本20以上)  建议默认安装c盘 以防报错
访问 https://nodejs.org/zh-cn/download

下载codex

复制代码

打开命令提示符(CMD)或 PowerShell，运行
npm install -g @openai/codex

验证安装

复制代码

codex --version



C:\Users\admin>codex --version
codex-cli 0.116.0

2、windows安装

最新版现在不用去搞git 和nodejs了，直接去下面页面直接下载就行

复制代码

https://openai.com/zh-Hans-CN/codex/

关键配置说明

我是先用node装的，不知道装windows有没有这些文件，先跟着做吧

二、api配置

找到下面配置文件C:\Users\admin\.codex\config.toml

1、修改codex模型配置

这里的model 是根据你自己后面提供的api下面的模型来改的，每个人不一定一样，看你后面买的api提供那些版本

复制代码

model_provider = "codex"
model = "gpt-5.3-codex"    #可更改为model = "gpt-5-codex"
model_reasoning_effort = "high"
disable_response_storage = true

 
[model_providers.codex]
name = "codex"
base_url="https://api.poe.com/v1" 
wire_api = "responses"
env_key = "K_CODEX" #不要改成自己的密钥，在下面设置！！！

[windows]
sandbox = "elevated"

2、新增环境变量

codex 不论是怎么装的，他默认都会去读取环境变量名K_CODEX

复制代码

#变量名
K_CODEX



#这个api key 是你在买其他家api的时候会给提供
#tb一大堆这玩意，几块钱先买一个临时用下
sk-xxxxxxxx

这个改完了，正常来说就能用了，在cmd 输入一个codex

3、Vscode codex 插件配置

需要在vs中连接使用的，一定需要先在终端中设置好并且测试没有问题后再连接vs!!

先下载官方的 codex 插件，切记官方的 codex 插件，只有带 openai 认证的才是！！

4、Cursor codex插件配置

我没用上这个，留个笔记

然后打开左上角的File（文件）点击perferences（首选项）点击VScode settings（设置）然后搜索settings

点击在settings.json 中编辑，在 json 最下面加上以下内容：

复制代码

"chatgpt.apiBase": "https://codex.ysaikeji.cn/v1",
  "chatgpt.config": {
    "preferred_auth_method":"apikey改这个",
    "model":"gpt-5.4",
    "model_reasoning_effort":"high",
    "wire_api":"responses"
  }

三、项目试用

假设，我是一个完全不懂任何编程的小白，想要做一个自动化点击屏幕的软件出来，看看效果，我现在用的是vscode

可以看到什么都没有，然后我们发出一个作为小白提出需求

1、大白话提问

复制代码

我是一个编程小白，我完全看不懂任何代码，但是我现在每天都需要去某些软件上点点点，

我希望他能定时定期的把我每天的日常给做了，我不知道我应该怎么描述，

但我希望这个脚本是通用的，根据我提供的截图，我可以修改点击次数，点击频率，是否随机点击之类的，

按照特定的顺序去执行操作就像，我希望这个程序，是在页面访问的，不是那种奇怪的窗口化

并且能指定在什么时候什么时间固定执行一次，如果执行失败了，给我发邮件

最后，我希望不论他在做什么的时候，我按下ecs都能中断程序，在中断后，按下f1则会继续程序，f2彻底停止

2、gemini润色提问信息

把他仍给gemini，让他润色一下，我就得到了

复制代码

你好，我是一个没有任何编程基础的新手。我每天需要处理大量重复的桌面软件操作，因此我需要你帮我从零编写一个**"基于 Web 控制台的个人 RPA（机器人流程自动化）工具"**。

请使用 Python + Flask（Web 界面）+ PyAutoGUI（模拟操作）+ OpenCV（图像识别）+ APScheduler（定时任务）+ smtplib（邮件通知）+ pynput 或 keyboard（全局快捷键监听） 来实现。

请给我提供完整的项目代码、文件目录结构，以及傻瓜式的环境安装和运行步骤。不要只给代码片段。

【核心功能需求】

纯 Web 界面控制：程序在后台运行，我通过浏览器访问本地网页（如 http://localhost:5000）来配置和管理任务，不需要桌面 GUI 窗口。
基于图像匹配的通用工作流：我可以在网页上建立一个"任务流"，按顺序添加多个步骤。每个步骤我可以上传一张"目标 UI 截图"，程序会在屏幕上寻找该图案并执行点击。
节点参数高度自定义：对于工作流中的每一个步骤，我都可以独立设置：
目标图片
点击行为（如单次点击、双击）
操作延迟（每次操作间隔多少秒）
坐标随机偏移（容错机制）：在识别到的图片区域内，引入随机数逻辑，让点击的 X/Y 坐标产生轻微的随机偏移，同时延迟时间也有微小的随机波动，以模拟真实用户的操作习惯。
定时任务调度（Cron）：在 Web 界面上，我可以为配置好的工作流设定一个"定时执行计划"（例如：每天上午 9:00 固定执行一次）。
异常监控与邮件报警：如果在执行过程中发生错误（例如：连续多次在屏幕上找不到目标截图），程序需要立即停止当前任务，并自动发送一封报警邮件到我指定的邮箱。
全局快捷键与状态控制（重要）：为了防止自动化操作失控，我需要程序在后台全局监听键盘按键（需使用多线程，不能阻塞 Web 服务和自动化流程）：
按下 Esc 键：暂停当前正在执行的自动化流程。
按下 F1 键：从暂停状态继续执行流程。
按下 F2 键：彻底中断并停止当前流程。
请给出完整的前端（HTML/JS）和后端（Python）代码。代码中请加上详细的中文注释，特别是关于多线程状态控制（暂停/继续）的部分，并告诉我如何配置发件邮箱的授权码。

3、codex执行

把这段直接仍给codex 然后开始等待

给我吐出来一堆东西，打开说明文档，README.md

复制代码

# 个人 RPA（Web 控制台）

## 1. 安装

```powershell
cd web_rpa
python -m venv .venv
.\.venv\Scripts\activate
pip install -r requirements.txt
```

## 2. 运行

```powershell
python app.py
```

浏览器打开：`http://127.0.0.1:5000`

## 3. 全局快捷键

- `Esc`：暂停当前流程
- `F1`：继续流程
- `F2`：终止流程

## 4. 邮箱授权码说明

`SMTP 授权码` 不是登录密码，必须使用邮箱平台的"授权码 / 应用专用密码"。

常见示例：

- QQ 邮箱：`smtp.qq.com` + `587` + `TLS`
- 163 邮箱：`smtp.163.com` + `465` + `SSL`
- Gmail：`smtp.gmail.com` + `587` + `TLS`（需开启 2FA 后生成 App Password）

我们按文档操作运行，按照依赖，启动服务

访问页面

好丑的ui，把截图给gemini，让他给点推荐

复制代码

给你的美化建议：
告别纯白背景：整个网页的底层背景可以用非常浅的灰蓝色（比如 #F3F4F6），然后把"流程编辑"、"邮件配置"这些区块做成纯白色的卡片（Card），加上一点点淡淡的阴影。这样页面立刻就有了立体感和层次感。
侧边栏深色化：左侧的"流程列表"可以改成深色（比如深灰或藏青色），这样能把导航区和工作区完美区分开，看起来非常专业。
按钮和输入框圆角化：现在的框框太方正了，显得死板。给输入框和按钮加上圆角（Border Radius），并在鼠标放上去时增加颜色变化（Hover 效果）。
加入图标（Icons）：纯文字太枯燥了。在"保存"、"运行"、"暂停"这些按钮旁边加上直观的小图标。
状态颜色区分：
暂停（Esc）：用警告色（黄色/橙色）
继续（F1）：用成功色（绿色）
终止（F2）：用危险色（红色）
正常按钮：用品牌色（蓝色）

把新拿到的信息，再交给codex 给我去改！！

改完了，再启动服务

好一丝，不过可以了，想改啥继续问codex