[论文阅读] AI + 软件工程 | 从1对1到规模化,Lacy用AI+专家代码漫游重构软件入职指导

从1对1到规模化,Lacy用AI+专家代码漫游重构软件入职指导

论文信息

  • 原标题:LACY: Simulating Expert Mentoring for Software Onboarding with Code Tours
  • 主要作者及机构:Zeynep Begüm Kara(比尔肯大学)、Aytekin İsmail(比尔肯大学)、Selin Şirin Aslangül(倍科伊斯坦布尔)等;合作机构为土耳其比尔肯大学、跨国企业倍科(Beko)伊斯坦布尔分部
  • 发表会议:34th ACM Symposium on the Foundations of Software Engineering (FSE '26)
  • GB/T 7714引文格式:KARA Z B, İSMAİL A, ATEŞ E, et al. LACY: Simulating Expert Mentoring for Software Onboarding with Code ToursC//Companion Proceedings of the 34th ACM Symposium on the Foundations of Software Engineering (FSE '26). Montreal: ACM, 2026.

研究背景

软件行业的新员工入职熟悉代码库,是所有企业都绕不开的难题。想象一下:一个新人接手数万行的遗留代码,文档要么缺失要么过时,想请教资深同事,却发现专家们要为每个新人重复10-20小时的代码讲解,不仅挤占核心开发时间,还容易因人员流动导致关键知识随人走------这就是行业里的"总线因子"问题,少数人掌握核心代码逻辑,他们离开后团队就会陷入知识真空。

此前行业的解决办法都有明显短板:

  1. 纯专家一对一指导:效果最好,但成本高、无法规模化,重复讲解还会大幅降低专家生产力;
  2. 传统文档:匮乏且易过时,往往只适合懂行的人查阅,新人根本抓不到重点;
  3. 纯AI工具(如GitHub Copilot) :只能解释单个代码片段,无法实现代码库的全局理解,更抓不住企业独有的业务逻辑、设计决策等隐性知识

而现有代码漫游工具要么需要专家手动耗时创作,要么纯AI生成缺乏行业语境,均未融入企业实际工作流。简单来说,行业急需一种能保留专家指导价值、同时实现规模化复用、还能适配工业场景的软件入职解决方案。

创新点

这篇论文的核心创新在于打造了首个人机混合的AI+专家协同代码漫游系统,打破了"纯人工低效、纯AI无效"的行业困境,其独特亮点体现在4个方面:

  1. 创作模式创新:将AI生成的通用代码讲解与专家的人工精校结合,AI负责提效,专家负责注入企业隐性知识,兼顾效率与知识深度;
  2. 知识捕获创新 :设计Voice-to-Tour语音转漫游功能,实时捕获专家日常讲解的自然对话,直接转化为结构化代码漫游,让"口口相传"的知识变成可复用资产,无需专家额外花时间写文档;
  3. 功能生态创新:围绕代码漫游打造全流程配套功能(测验、播客、异步问答、专家仪表盘),模拟线下专家指导的完整体验,而非单一的代码讲解工具;
  4. 落地模式创新:以VS Code扩展形式实现,深度集成开发者日常工作的IDE环境,无需切换工具,低学习成本融入企业现有工作流。

一段话总结

本文提出首个人机混合的AI+专家协同代码漫游系统Lacy ,该系统以VS Code扩展为载体,基于与跨国企业Beko长达一年的合作提炼出8项工业需求设计,核心包含引导式漫游(专家+AI)探索式漫游(纯AI) 两类代码漫游及Voice-to-Tour、测验、专家仪表盘等配套功能;研究团队在Beko的3万行遗留金融系统Bankhet开展受控实验,招募2名资深专家和5名真实开发者参与,结果显示使用引导式漫游的学习者测验得分达83% (纯AI为57%),专家创作漫游的负担显著低于现场讲解,且Lacy能无缝融入企业工作流,Beko已正式采用该系统 用于组织级入职培训,作者同时开源了代码和研究工具包,为软件入职培训领域提供了可落地的人机协作解决方案。

详细总结

一、研究背景与行业痛点
  1. 通用行业问题
    软件新员工入职熟悉陌生代码库需3-6个月 ,专家一对一代码讲解是最有效的方式,但存在成本高、重复劳动、无法规模化 的问题;纯AI工具(GitHub Copilot/Cursor)仅能解释单个代码片段,无法实现全局理解,也无法捕捉企业隐性知识、业务逻辑和设计决策;传统文档匮乏、易过时,且仅适用于有基础的开发者,新人难以上手。
  2. Beko企业具体痛点
    • 入职依赖非正式一对一指导,资深开发者为每位新员工花费10-20小时且重复讲解,上下文切换带来高认知负荷;
    • 新人因不愿打扰同事、不知如何提问,仅在必要时求助,学习效率低;
    • 关键代码库知识集中在1-2人手中,存在"总线因子"问题,人员流失即知识流失;
    • 传统文档几乎缺失且易过时,纯AI工具无法识别占比20% 的核心业务逻辑代码,无法替代专家指导。
  3. 现有方案缺陷
    手动代码漫游创作耗时,纯AI代码漫游缺乏专家洞见,均未融入工业工作流,也无配套的理解评估、异步沟通机制,无法模拟专家指导的完整体验。
二、核心设计:Lacy人机混合代码漫游系统
  1. Lacy为VS Code扩展 ,设计基于与Beko一年合作(20+场会议/调研/访谈)提炼的8项工业需求,核心是人机混合的代码漫游创作模式 ,区分代码库专家代码库学习者两大可切换角色,所有功能均支持异步沟通,实现专家一次创作、多学习者复用。

  2. 两类核心代码漫游

    • 引导式漫游 :专家专属,为核心学习资源,支持AI辅助、手动、Voice-to-Tour三种创作方式;AI生成初稿,专家精校补充隐性知识,完成后分配给学习者,能精准传递企业业务逻辑和设计决策。
    • 探索式漫游:所有用户可创建,纯AI生成,无专家输入,作为代码库入门临时工具,弥补引导式漫游的覆盖空白,存在讲解浅表化的风险。
  3. 关键配套功能

    • Voice-to-Tour:实时捕获专家日常讲解的语音和代码上下文,由LLM转化为结构化代码漫游,实现"口口相传"知识的数字化留存;
    • 播客:将漫游内容转化为专家与学习者的对话式音频,适配不同学习偏好,支持边听边探索代码;
    • 测验:基于漫游内容由AI生成初稿、专家精校,题目关联漫游步骤,学习者可查漏补缺,专家可通过结果优化漫游;
    • 笔记/问答/反馈:学习者可在漫游步骤添加私人笔记,异步向专家提问,也可对漫游评分,形成迭代优化;
    • 专家仪表盘:监控学习者漫游完成度、测验成绩,聚合团队数据,作为异步问答枢纽和入职进度管理工具,可识别知识缺口。
  4. 系统架构与创作流水线

    • 核心架构:3大模块,分别为上下文与提示词准备AI驱动的代码漫游生成 (采用Google Gemini-2.5-Flash,支持本地模型)、协作评审与反馈,实现从输入到发布、学习、反馈的全闭环;
    • 三大创作流水线:AI辅助引导式漫游、手动引导式漫游、纯AI探索式漫游,覆盖从"全人工"到"全AI"的创作光谱,适配不同企业场景。
三、工业实验验证:Beko Bankhet系统案例
  1. 实验对象与场景
    • 实验场景:Beko的Bankhet遗留金融系统 ,2007年开发的VB.NET项目,30K+行代码,为企业核心业务系统,文档匮乏、知识集中在2名已转管理岗的专家手中,是典型的入职痛点场景;
    • 实验参与者:2名领域专家 (16/22年工作经验,掌握Bankhet核心知识)、5名真实开发者(3名新员工+2名跨项目开发者,平均4.6年编程经验,无Bankhet相关经验);
    • 参与者背景:80%的学习者仅有非正式导师,40%需5个月以上 才能独立工作;专家为每位新员工花费20-40小时,且反复讲解相同内容(4.5/5分),认为知识流失是重大组织问题(4.0/5分)。
  2. 实验设计
    • 采用被试内设计 ,对比引导式漫游(专家+AI+播客)探索式漫游(纯AI) 两种条件,平衡学习效应;
    • 无传统文档基线(Bankhet无相关文档),学习者完成两场各60分钟的学习任务,覆盖不同系统功能;
    • 专家A创作2份引导式漫游及10题测验,专家B独立设计评估量表,对学习者的口头代码解释进行盲评,避免评估偏差。
  3. 数据收集
    收集测验得分(0-100)、专家盲评理解分、前后测调研问卷(70题)、屏幕录制行为数据、观察者笔记,多维度三角验证结果。
四、实验核心结果

围绕3大研究问题(RQ)验证Lacy的有效性,核心数据对比见下表:

研究问题 对比维度 引导式漫游(专家+AI) 探索式漫游(纯AI) 核心结论
RQ1:专家支持效果 创作认知负荷、时间成本、知识复用 认知负荷4.5/5,创作仅需30分钟/份,知识可反复复用 - 大幅降低专家负担,AI初稿可靠仅需微调,解决重复讲解问题
RQ2:学习者理解效果 测验得分、专家盲评分、完成时间 83%、79%、约25分钟 57%、76.8%、约35分钟 理解效果和效率显著更优,能有效模拟专家指导(4.2/5分)
RQ3:组织集成效果 工作流适配性、单学习者专家时间、知识留存 适配性4.0/5分,30/N分钟,固化核心业务逻辑 - 无缝融入现有工作流,实现规模化成本节约,解决知识流失
  1. 专家维度
    • 创作漫游的认知负荷远低于现场讲解和传统文档编写(4.5/5分),入职指导时间从数小时缩短至几分钟的漫游配置;
    • AI生成的初稿可靠,专家仅需微调(调整复杂度、补充领域语境、标注边界情况),无需修正错误;
    • 漫游成为可复用知识资产,缓解了知识集中的风险,两位专家均表示会持续使用Lacy。
  2. 学习者维度
    • 引导式漫游的测验得分比纯AI高26个百分点,完成时间短10分钟,专家盲评理解分也更高;
    • 学习者认为两种漫游均能模拟专家讲解(引导式4.2/5,探索式3.8/5),结构化漫游解决了"不知从何入手"的问题,能快速建立全局认知;
    • 所有学习者表示Lacy优于此前的入职体验(60%远好,40%稍好),且完成漫游后会完全减少向专家提问的次数(5.0/5分),大幅降低对专家的依赖。
  3. 组织维度
    • Lacy易融入企业现有工作流,专家学习曲线低(3.5/5分),更新漫游比传统方式更高效(4.0/5分);
    • 量化成本节约:创作1份引导式漫游需30分钟,可服务N名学习者,单学习者的专家时间从现场讲解的20分钟降至30/N分钟,规模化效应显著;
    • 解决组织级"总线因子"问题,固化核心业务逻辑和设计决策,还可应用于实习生短期培训、危机场景的快速代码熟悉。
五、研究贡献、经验教训与未来工作
  1. 四大核心研究贡献
    • 基于一年工业合作,首次提炼出8项软件入职工具的核心工业需求,为后续工具设计提供行业参考;
    • 设计并实现Lacy人机混合代码漫游系统,首个将AI生成内容与专家精校结合的代码漫游方案,同时解决专家和学习者的入职痛点;
    • 在真实工业场景中验证了AI+专家代码漫游的可行性,为代码漫游的工业化应用提供可复现框架;
    • 在Beko生产环境部署并被企业正式采用,开源代码和研究工具包(地址:https://figshare.com/s/6a261d3382b116d8494f)。
  2. 三大经验教训
    • 代码漫游是理想的情境化专家指导载体,IDE集成的结构化漫游比孤立文档更适合软件入职培训;
    • 拥抱人机混合创作模式,AI负责提效(初稿、结构化),专家负责赋智(隐性知识、业务逻辑),平衡效率和知识深度;
    • 实时捕获专家自然讲解时刻的知识(如Voice-to-Tour),降低文档创作摩擦,实现隐性知识的高效留存。
  3. 效度威胁
    • 结果依赖LLM性能和专家输入,不同代码库、企业场景效果可能存在差异;
    • 部分企业因数据安全原因无法使用外部LLM,Lacy支持本地模型部署可解决该问题;
    • 研究样本量较小,调研数据基于自我报告存在主观性;
    • 代码库迭代可能导致漫游过时,但漫游轻量易更新,风险低于传统文档。
  4. 未来工作方向
    • 从代码库分析、版本控制、设计文档中自动生成代码漫游
    • 为新员工设计入门实现任务,替代单一的测验评估方式;
    • 丰富多模态学习体验,优化播客等功能,提升学习效果;
    • 拓展Lacy的应用场景,如软件维护、团队知识共享等。
六、研究结论

Lacy作为首个人机混合的AI+专家协同代码漫游系统 ,成功解决了软件入职培训中"专家指导低效、纯AI工具无效、传统文档无用"的核心痛点,通过将专家的临时讲解转化为可复用、可规模化的IDE集成式代码漫游资产,实现了降低专家负担、提升学习者理解效果、无缝融入企业工作流的三重目标。该系统已被Beko正式采用为组织级入职培训工具,其"AI提效+专家赋智"的人机协作模式,不仅为软件入职培训领域提供了可落地的解决方案,也为AI与软件工程的融合研究提供了新的思路,同时为其他知识密集型行业的培训问题提供了参考。


关键问题

问题1(设计层面):Lacy与现有代码漫游工具(如Microsoft CodeTour、Balfroid方案)的核心区别是什么?

答案:Lacy的核心区别是首创人机混合的AI+专家协同创作模式 ,而现有工具要么是纯手动创作(Microsoft CodeTour),要么是纯AI生成且聚焦调试场景(Balfroid方案);此外,Lacy围绕代码漫游打造了全流程配套功能生态 (Voice-to-Tour、播客、测验、专家仪表盘等),支持异步沟通和入职进度管理,且聚焦软件入职培训场景并完成工业落地,而现有工具无配套功能、未融入企业工作流,也无工业可行性验证。

问题2(实验层面):Lacy的引导式漫游相比纯AI的探索式漫游,为何能带来更优的学习者理解效果?

答案:核心原因是专家的人工精校为漫游注入了企业特有的隐性知识、业务逻辑和设计决策,让漫游形成了更聚焦、更高效的结构化学习路径;而纯AI漫游仅能解释通用代码模式,无法识别核心业务逻辑,也无法提供符合企业实际的学习指引,即便讲解表面流畅,也存在理解浅表化的问题;实验数据也显示,引导式漫游虽步骤多3-5步,但完成时间更短,说明专家Curation让学习路径更清晰,大幅提升了学习效率和理解深度。

问题3(落地层面):Lacy能被Beko成功落地并规模化使用的核心因素有哪些?

答案:核心因素包含三点:1. 贴合工业实际需求 ,Lacy的所有设计均基于与Beko一年的合作提炼,精准解决了企业的专家负担、知识流失、新人学习低效等真实痛点;2. 低使用成本与高适配性 ,以VS Code扩展形式实现,深度集成开发者日常工作环境,学习曲线低,无需切换工具,能无缝融入企业现有工作流;3. 量化的价值与可复用性,将专家的重复指导时间转化为一次性的漫游创作,实现了入职培训的规模化成本节约,同时将隐性知识固化为可复用的组织资产,解决了企业的"总线因子"核心风险,为组织带来了长期价值。

研究方法和思路

研究团队与倍科(Beko)展开为期一年的工业合作,通过"问题发现-系统设计-工业部署与实验验证"三步法完成研究,全程贴合企业实际需求,而非纯实验室研究,具体步骤如下:

步骤1:挖掘工业真实需求

与倍科的产品、工程负责人、资深开发者、新员工开展20+场会议、调研和访谈,梳理出软件入职工具的8项核心工业需求(如捕获并规模化专家指导、降低专家创作负担、保留隐性知识等),为Lacy设计定下核心方向。

步骤2:设计Lacy系统架构与功能

基于工业需求,设计以代码漫游 为核心的VS Code扩展系统,明确专家学习者两大角色(可随项目切换),打造三大核心体系:

  1. 两类代码漫游 :专家主导的引导式漫游 (AI辅助生成+专家精校,核心学习资源)、学习者自主的探索式漫游(纯AI生成,入门临时工具);
  2. 三大创作流水线:AI辅助引导式漫游、手动引导式漫游、纯AI探索式漫游,适配不同企业场景;
  3. 全配套功能 :Voice-to-Tour、漫游播客、理解测验、笔记/异步问答/反馈、专家仪表盘,覆盖"知识创作-学习-评估-反馈"全流程。
    系统底层采用Google Gemini-2.5-Flash大模型,同时支持本地模型部署,满足企业数据安全需求。

步骤3:工业场景实验验证

选择倍科3万行遗留金融系统Bankhet(典型痛点场景:文档匮乏、知识集中在2名专家手中)开展受控实验,验证Lacy的有效性:

  1. 实验对象:2名拥有16-22年经验的领域专家、5名真实的新入职/跨项目开发者(平均4.6年编程经验,对该系统无了解);
  2. 实验设计 :采用被试内设计 ,让学习者分别使用引导式漫游(专家+AI)探索式漫游(纯AI) 完成学习任务,平衡学习效应;
  3. 评估维度:通过测验成绩、专家盲评的理解评分、调研问卷、行为数据,回答三大研究问题(RQ):Lacy对专家的支持效果、对学习者的理解提升效果、对企业工作流的集成效果;
  4. 数据收集:收集测验得分、专家评分、前后测调研、屏幕录制、观察者笔记等多维度数据,三角验证结果。

主要成果和贡献

一、核心实验成果

研究团队通过实验验证了Lacy在专家支持、学习者理解、组织集成三大维度的显著效果,核心对比数据和结论如下表:

研究问题(RQ) 核心对比实验 关键结果 核心结论
RQ1:Lacy对专家的支持效果 专家创作漫游vs传统现场讲解/文档编写 1. 创作漫游认知负荷远低于传统方式(4.5/5);2. AI初稿可靠,专家仅需微调;3. 专家入职指导时间从数小时缩至几分钟 Lacy大幅降低专家负担,解决重复讲解问题,将临时指导转化为可复用知识资产
RQ2:Lacy对学习者的理解提升效果 引导式漫游(专家+AI)vs探索式漫游(纯AI) 1. 测验得分:83% vs 57%(+26个百分点);2. 专家盲评理解分:79% vs 76.8%;3. 完成时间:25分钟 vs 35分钟;4. 学习者对引导式漫游的专家模拟评分达4.2/5 专家+AI的混合模式显著提升学习者代码理解效率和效果,能有效模拟线下专家指导
RQ3:Lacy的组织集成效果 Lacy融入倍科现有工作流的实际表现 1. 专家适配评分4.0/5,学习曲线低;2. 单学习者专家时间从20分钟降至30/N分钟(N为使用人数);3. 成功缓解"总线因子"风险,保留核心业务逻辑 Lacy能无缝融入企业工作流,实现规模化成本节约,解决组织级知识流失痛点

此外,所有学习者表示Lacy优于此前的入职体验(60%认为远好,40%认为稍好),且完成漫游后会完全减少向专家的提问次数,大幅降低新人对专家的依赖。

二、研究贡献

该研究为软件入职培训领域带来了理论+工业落地的双重价值,四大核心贡献清晰且实用:

  1. 提炼工业需求:基于一年的企业合作,首次梳理出软件入职工具的8项核心工业需求,为后续相关工具设计提供了行业参考;
  2. 提出系统方案:设计并实现了Lacy系统,首次将人机混合模式融入代码漫游,同时解决了专家和学习者双方的入职痛点;
  3. 验证技术可行性:在真实工业场景中验证了AI+专家代码漫游的可行性,为代码漫游的工业化应用提供了可复现的框架;
  4. 开放研究资源 :在倍科生产环境部署Lacy并被企业正式采用,同时开源代码和研究工具包,地址:https://figshare.com/s/6a261d3382b116d8494f。

三、行业价值

对软件企业而言,Lacy的落地价值体现在三个方面:

  1. 降本:将专家的重复指导时间转化为一次性的漫游创作,实现入职培训的规模化成本节约;
  2. 提效:让新员工快速建立代码库全局认知,大幅缩短从入职到独立工作的时间(倍科新人原需2个月,使用Lacy后大幅缩短);
  3. 保知识:将专家的隐性知识固化为可复用的代码漫游资产,彻底解决"人员走、知识走"的总线因子问题。

总结

本文针对软件行业新员工入职培训中"专家指导低效、纯AI工具无效、传统文档无用"的核心痛点,与跨国企业倍科合作设计并实现了Lacy------一款以人机混合代码漫游为核心的VS Code扩展系统。该系统首次将AI生成的通用内容与专家的人工精校结合,通过Voice-to-Tour、理解测验、专家仪表盘等全配套功能,模拟线下专家一对一指导的完整体验,同时实现知识的规模化复用。

研究团队在倍科的3万行遗留金融系统开展了真实的工业实验,验证了Lacy能大幅降低专家负担、显著提升新员工的代码理解效果,且能无缝融入企业现有工作流。目前Lacy已被倍科正式采用为企业级入职培训工具,相关代码和研究工具包已开源。该研究不仅为软件入职培训提供了可落地的解决方案,也为AI与软件工程的人机协作研究提供了新的思路,其打造的"AI提效+专家赋智"模式,也为其他知识密集型行业的培训问题提供了参考。

相关推荐
IT_陈寒1 小时前
Vue这个坑我跳了两次,原来问题出在这
前端·人工智能·后端
新新技术迷2 小时前
Node给AI接口做SSE代理与鉴权
人工智能
redreamSo2 小时前
大模型是不是到顶了?瓶颈到底在哪
人工智能·openai
Oo9202 小时前
Tool Use 背后的技术逻辑
人工智能
姗姗来迟了2 小时前
Vue3封装AI流式对话组件踩坑实录
人工智能
码上天下3 小时前
用Pinia管理AI多会话状态
人工智能
用户054324329704 小时前
Next.js接大模型流式SSE实操踩坑
人工智能
Assby4 小时前
从 Function Calling 到 MCP:理解 Agent 工具调用的底层通信机制
人工智能·后端
小星AI4 小时前
Claude Code 从入门到精通,一步到位
人工智能
后端小肥肠4 小时前
Codex + Obsidian 做人生副本视频:输入主题文案,直通剪映草稿
人工智能·aigc·agent