【项目归档】数据抓取+GenAI+数据分析

年后这两个月频繁组织架构变动，所以博客很久没更新。现在暂时算是尘埃落定，趁这段时间整理一下。

入职九个月，自己参与的项目有4个，负责前后端开发，测试，devops（全栈/doge），总结一下背景，技术栈以及个人在开发方面的思考。

A和B分别是【Python开发】大模型应用开发项目整理中数据抓取和GenAI部分。

A 数据抓取

A.1 背景

时间：2024.8-2024.10

原始数据只能从某Java Application上获取，需获取原始数据并传入Web UI中进行下一步的处理。

A.2 技术栈

A.2.1 jnlp应用程序数据抓取

1.窗口定位：psutil，pygetwindow，win32process

2.数据获取：keyboard(监听和模拟键盘事件)，pypeclip（剪贴板），win32api（鼠标）

3.GUI界面：pysimpleUI

亮点：

1.针对非英语版本的应用无法通过固定title定位的问题，采用psutil通过获取pid获取title，进而定位到window。

针对用户点击过应用其他部分则无法获取数据的问题，采用win32api将鼠标移至初始位置，再获取数据，并添加retry机制提高成功率。

A.2.2 Selenium传入数据

配置chromedriver.exe路径，通过selenium拉起chrome，通过执行js脚本将数据填入page中的hidden element，前端进行解析。

亮点：

1.针对重复启动chrome的问题，设置指定options参数，确保只启动唯一chrome实例。

2.针对退出时chromedriver自动关掉而占用系统资源的问题，增加了关闭app时调用taskkill命令。

A.3 经验和思考

个人感想： 这是入职后接手的第一个组件，接手时开发已经到了中后期，有基本功能，但遗留了较多历史bug需要修复。另外由于严格的policy，导致在整个项目上线后，仍然需要user手动更新chromedriver，在一定程度上增加了user的使用成本。

经验： 尽量减少user使用成本，及时索取feedback。对于无法避免的error，给出完善的refer doc和app提示。

B GenAI 数据分析

B.1 背景

时间：2024.10-2024.12

利用OpenAI的GPT模型，设定prompt来提取article的关键信息和摘要，将结果返回后端分析，给出recommendation。

B.2 技术栈

B.2.1 prompt调优

在与大语言模型（如GPT、Claude等）交互时，Prompt调优是提升输出质量的关键技术。以下是一些常见的Prompt调优方法：

1. 明确任务指令

使用清晰的动词（如"总结"、"解释"、"生成"、"对比"）
指定输出格式（如JSON、Markdown、代码块）
设置约束条件（如字数限制、技术栈要求）

2. 提供示例（Few-Shot Learning）

在Prompt中插入输入-输出示例，引导模型学习模式。

3. 分步引导（Chain of Thought）

将复杂任务拆解为多个步骤，要求模型分步输出思考过程。

4. 角色扮演

指定模型扮演特定角色（如资深程序员、学术专家、创意写作导师）。

5. 控制输出长度

使用明确的字数或标记限制，或指定输出复杂度。

6. 提供上下文信息

在Prompt中添加相关背景知识或前置条件。

7. 避免歧义

使用精确术语，避免模糊词汇（如"一些"、"相关"、"适当"）。

8. 迭代优化（A/B测试）
方法：

对同一任务创建多个版本的Prompt，对比模型输出质量。如何评估模型输出？使用了Gemini模型进行evaluate，这也是业界常用方法，用其他llm来评估llm的输出。

9. 使用系统提示（System Prompt）

在多轮对话中，使用System Prompt设置模型的行为基调。

10. 利用外部工具

结合Function Calling让模型调用外部API获取实时数据。

总结

Prompt调优的核心原则是明确性 、具体性 和引导性 。对于复杂任务，建议采用迭代优化 和分步引导策略，逐步逼近理想结果。

B.2.2 异步处理

由于flask并不原生支持并发，所以使用事件循环和协程实现并发，用redis做backup queue，防止服务器down丢失task。

B.2.3 监控

上线后需要监控服务状态

日志（级别，按日存储，支持查询，排序）
Queue每小时峰值长度
响应时间（每小时触发request，记录上游响应时间）

B.3 经验和思考

高并发下一定需要异步，获取结果可以callback和等待轮询，python的异步常通过协程和事件循环实现，此外也可以尝试用多线程。为了防止service down，需要记录任务状态备份。为了及时发现问题定位问题，需要在生命周期中做好监控和log。

C pipeline components

C.1 背景

时间：2025.1-2025.3

将GenAI相关功能包装成API作为AI workflow的node，开放给center提供pipeline服务。

C.2 技术栈

C.2.1 FastAPI

相比于之前的Flask，FastAPI的好处主要体现在以下几个方面：

高性能：FastAPI基于Starlette，基于ASGI协议构建的异步处理引擎，在TechEmpower基准测试中实现每秒12万次请求处理能力，与Golang的Gin框架（13.5万次）及Node.js的Fastify（11.8万次）处于同一性能梯队，适合高并发场景。
异步支持：FastAPI原生支持异步编程，适合现代Web开发需求。
自动文档生成：FastAPI自动生成OpenAPI和JSON Schema文档，便于API的测试和调试。

所以我们最后在新项目中选用了FastAPI作为微服务框架。

C.2.2 Celery分布式任务处理+监控

之前的redis queue和in-memory queue也可以实现异步任务处理，只是无法快速扩展，无法监控任务状态，需要自己写错误处理，所以在新项目中尝试引入Celery。好处：

多节点扩展+负载均衡: 扩展的话加worker就行
结果存储：将任务的结果存储在各种后端（如 Redis、MongoDB、数据库等），方便后续查询和处理。还可以通过任务 ID 查询任务的结果，实现任务状态监控和结果获取。
任务重试: 支持任务重试机制，当任务失败时可以自动重试，确保任务最终能够成功执行。
持久化队列: 使用持久化的消息队列（如 RabbitMQ 和 Redis），即使系统重启，任务也不会丢失。监控和管理: 提供丰富的监控和管理工具，如 Flower（一个实时监控 Celery 集群的 Web 界面），了解任务的执行情况和系统状态。

C.3 经验和思考

在使用celery时，发现尽管有以上好处，但也增加了维护成本，需要同时维护微服务和worker脚本，对于小项目来说可能并不是很适合。所以以后在选择使用技术的时候，也要考虑到使用成本的问题。

D 数据校验

D.1 背景

时间：2025.3-2025.4

根据user给定的rules，对每列数据进行校验，输出校验结果。

D.2 技术栈

D.2.1 JavaScript engine（低代码平台）

D.2.2 NER model

提取address中的city，county，iso code，用于匹配规则

D.3 经验和思考

这个项目的底层架构是5/6年前的了，所以不支持异步和并发，因为infra性能较差也经常503，504，后来后端有些改进。在技术实现不复杂，复杂的地方在于user给定的校验规则太多，需要大量的沟通，主要学到的就是邮件留痕，及时同步了。个人认为NER model可以用llm替代（不需要手写每一条规则），整个项目也可以用Python重构提高并发（user请求量还挺大的），只是因为接手的时候已经到UAT阶段，无法修改，但做了demo给leader展示，如果有机会重构的话则可以用。

部署

Jenkins+k8s+ArgoCD

Jenkins用来拉代码，build docker image，手动将image更新到k8s脚本中，在ArgoCD中sync进行同步。

参考：
python事件循环深度剖析