2023年CCF中国软件大会(CCF ChinaSoft 2023)由CCF主办,CCF系统软件专委会、形式化方法专委会、软件工程专委会以及复旦大学联合承办,将于2023年12月1-3日 在上海国际会议中心举行。
本次大会主题是"智能化软件创新推动数字经济与社会发展",学术、工业、教育、竞赛等分论坛活动40余场,期待您的参与!
目前大会火热报名中!
CCF ChinaSoft 2023官方首页:
点击文末"阅读原文"或扫描下方二维码进入官方注册通道:
https://conf.ccf.org.cn/chinasoft2023
✦ +
论坛巡礼
论坛名称
CCF-华为胡杨林基金-软件工程专项(海报)论坛
时间
2023年12月1日(星期五)-12月3日(星期日)
地点
上海国际会议中心,5楼廊厅
论坛简介
"CCF-华为胡杨林创新基金"是由华为与中国计算机学会联合发起,致力于为海内外高校及科研院所的学者搭建产学研合作及学术交流的平台。本次研讨会邀请了获得2023年"CCF-华为胡杨林基金"软件工程专项资助的优秀学者进行项目进展介绍及技术交流,旨在进一步明确项目的方案、技术与应用场景,加强学术界与工业界合作,促进软件工程研究和发展。
论坛主席
Forum Chairmen
王千祥
华为公司
华为云智能化软件研发首席专家,PaaS技术创新LAB主任,华为可信领域科学家,中国计算机学会软件工程专委副主任,主导华为公司的智能化软件研发,近期结合大模型技术与软件分析技术研发代码大模型 Pangu-Coder,并集成到智能开发助手 CodeArts Snap中,进而赋能公司的系列软件研发工具。
论坛嘉宾
Forum Guests
王焱林
中山大学
中山大学软件工程学院助理教授、硕士生导师,2022年入选中山大学百人计划。2019年博士毕业于香港大学计算机系,2019~2022年在微软亚洲研究院任研究员、主管研究员。主要研究领域为智能软件工程,尤其是与大模型结合的代码智能,包括代码搜索、代码摘要、代码生成等。已在ICSE、ISSTA、AAAI、ACL等软件工程及人工智能领域的高质量会议和期刊上发表二十余篇学术论文。在多个国际学术会议如ICSE,ISSTA,FSE industry等担任程序委员会委员,是TOSEM,TSE,JSS,EMSE等国际期刊的审稿人。
报告题目:
基于大模型的关联仓库上下文代码生成技术研究
报告摘要:
随着深度学习和大型语言模型的发展,代码生成任务备受关注且取得了较好的效果,先前的方法通常没有高效地融入仓库上下文,导致运用到真实开发场景中遇到阻碍。针对上述问题,本项目拟开发基于大模型的关联仓库上下文的代码生成技术,该项目将研究以下内容:(1)全面研究仓库上下文的种类及其作用,研究其与代码生成效果的相关性;(2)构建实用、有效的多粒度仓库代码依赖图,并集成到基于大模型的代码生成框架中;(3)探索针对代码生成的大模型提示技术,从重要的仓库上下文信息中构建简洁、有效的大模型提示词,解决提示词过长的情况。通过上述技术攻关,实现基于大模型的关联仓库上下文代码生成体系。
刘芳
北京航空航天大学
北京航空航天大学助理教授,CCF会员、CCF软件工程专委会通讯委员。2022年毕业于北京大学计算机学院软件研究所,获得博士学位。主要研究领域为程序理解与推荐,包括代码表示、代码补全、程序翻译等。相关研究成果主要发表在软件工程领域高质量会议和期刊上,包括ICSE、ASE、ICPC、EMSE、JSS等,并获得2020年ACM杰出论文奖(ACM SIGSOFT Distinguished Paper Award in ICPC)。主持国家自然科学青年基金项目,作为骨干参与多项国家级项目,担任多个软件工程国际顶级期刊和会议的审稿人、2023年中国软件大会"生成式AI与软件自动化"专刊编委。
报告题目:
代码表征与生成场景的预训练模型高性能微调与推理技术研究
报告摘要:
随着大模型技术的发展,越来越多的代码大模型被提出,并在部分代码理解与生成任务中展示了较大的潜力。尽管如此,在面向特定领域的代码表征和生成任务中,较大参数的模型面临着难以部署和微调的困难。考虑到大模型的推理资源的有限性,以及下游场景对模型迭代的需求,此项目旨在研究如何在有限的硬件和领域内数据上,实现模型有效微调与高性能推理,主要从以下角度展开研究:(1) 减少训练资源:利用较少的资源实现模型微调性能的提升;(2) 提高解码效率:设计新的解码策略以提高预训练模型解码的效率与生成结果的质量;(3) 优化结果质量:在模型的微调过程中识别与消除Degeneration现象。
陈俊洁
天津大学
天津大学智能与计算学部特聘研究员,博士生导师,软件工程团队负责人,国家优青项目获得者;研究方向主要为基础软件测试、可信人工智能、数据驱动的软件工程等。荣获中国科协青年托举人才、CCF优博、电子学会自然科学一等奖等奖项,连续两年(2021、2022)入围斯坦福大学发布的全球前2%顶尖科学家榜单。近年发表CCF A类论文60余篇,获六项最佳论文奖(包括五项CCF-A类会议ACM SIGSOFT杰出论文奖,以及一项CCF-B类会议ISSRE的唯一最佳论文奖)。成果在华为、百度等多家知名企业落地。担任CCF-A类会议ASE 2021评审过程主席,Dagstuhl研讨会联合主席,以及软件工程领域全部CCF-A类会议的程序委员会成员等。
报告题目:
大模型与类型系统混合驱动的单元测试用例生成技术研究
报告摘要:
在单元测试用例生成任务中,大规模语言模型(LLM)生成的测试用例已经十分接近人工编写的测试用例,但编译率和覆盖率较低。为了提升LLM的有效性,广泛采用的方案有指令工程和微调两种,但是他们都面临着不同的挑战。本课题首先开展了不同规模的LLM生成的测试用例的编译率和覆盖率的实证研究,并提出一种更优的基于指令的LLM微调方法。进而,本课题拟结合软件分析、类型系统策略,进一步提升LLM生成测试用例的编译率和覆盖率。
陈振宇
南京大学
南京大学软件学院教授、博导,主要从事智能软件工程的研究。中国计算机学会杰出讲者,国家一流本科课程《软件测试》负责人。曾主持国家重点研发计划课题1项和国家自然科学基金重点项目1项。研究成果已经在中船重工、航天科工、中国电科、国家电网、百度、阿里、腾讯、华为等知名企业转化,研究成果获2012年度江苏省科学技术奖一等奖、2015年湖北省科技进步奖一等奖、2017年CCF NASAC-东软青年软件创新奖、2021年中国电子学会科技进步奖一等奖、2021年江苏省教学成果奖特等奖、2022年国家级教学成果奖一等奖。
报告题目:
基于大语言模型与代码分析的单元测试用例演化技术研究
报告摘要:
针对软件演化给测试用例演化带来的挑战,本项目将探索基于大语言模型(LLM)和代码分析融合的单元测试用例演化方法。根据软件演化信息对测试用例损坏原因开展分析,并结合LLM和代码分析实现自动化测试用例修复技术。单元测试用例包含前缀和断言两个部分,前缀将被测单元驱动到有趣的状态,断言指定结果状态应满足的条件。分析测试用例在这两个部分的损坏原因,包括基于LLM的损坏测试用例修复和基于代码分析的修复测试用例意图变化检测。从软件演化信息提取有效信息,利用提示工程技术构建合适的提示指导LLM生成候选修复,并执行每个候选修复;如若失败LLM会再次得到一个特殊的提示,包括失败的候选修复及其产生的错误消息和测试意图偏差信息,促使其再次修复测试用例并使其通过。
王俊杰
中国科学院软件研究所
中国科学院软件研究所研究员,博士生导师,中国科学院特聘研究岗位,主要从事智能化软件工程、软件质量等方面的研究,近年来主要关注移动应用测试、智能软件测试、众包测试等。在国际著名学术期刊/会议发表50余篇高水平学术论文,四次荣获ACM/IEEE杰出论文奖。主持和参与了多项国家自然科学基金项目、科技部重点研发计划、CCF-华为胡杨林基金等。担任CCF A类期刊TSE的副主编(Associate Editor),FSE、ICST、ICSE demo等的PC member,TSE、TOSEM、EMSE、AUSE等期刊的审稿人。
报告题目:
基于大模型的系统集成测试生成和优化技术
报告摘要:
随着软件规模和复杂度的增加,需要持续补充、更新、维护的测试文本用例、测试用例脚本等数量也急剧增加。本项目旨在充分利用大模型的自然语言上下文理解能力和text-to-code转化能力,提升测试用例设计效率、用例规范检查及修订补全效率,测试自动化脚本开发和补全效率,同时提升测试用例文本和测试脚本用例的规范性与编写质量。
高翠芸
哈尔滨工业大学(深圳)
哈尔滨工业大学(深圳校区)计算机科学与技术学院副教授,博导,哈工大青年拔尖人才。主要研究方向为智能化软件工程和软件可靠性。近年来在TSE、TOSEM、ICSE、FSE、ASE等会议和期刊上发表论文60余篇,荣获ASE2023杰出论文奖以及ICSE2022杰出论文奖提名。
报告题目:
智能代码重构引擎:时机识别与精准重构的算法研究
报告摘要:
软件开发过程中,开发人员往往不可避免地在某些地方产生疏忽,导致编写的代码虽然符合语言规范,技术正确,但结构复杂混乱且存在某些潜在缺陷,称之为代码坏味道。代码坏味道不属于常见的代码错误,但是表明了软件设计中的潜在弱点,可能会导致故障,造成未来维护困难等问题。针对上述问题,本项目拟开发针对代码坏味道的时机识别与精准重构的算法,将涵盖如下三个主要部分:(1)通过对真实业务场景中存在的代码坏味道进行深入研究,提出一种能够准确捕获不同代码重构时机的多重重构时机识别算法;(2)深入分析需要重构代码段的语义和逻辑信息,设计一种高效的代码精准重构算法;(3)基于前两部分研究内容,开发一套先进的代码重构可视化工具,为开发人员提供直观的代码改进建议。通过以上技术攻关,实现针对代码坏味道的时机识别与精准重构,提升软件系统的稳定性。
石琳
北京航空航天大学
北京航空航天大学教授、博士生导师、CCF高级会员,美国南加州大学访问学者。主要研究智能软件工程、经验软件工程、开源软件安全。曾在人工智能、软件工程领域的高水平国际会议期刊 IJCAI,ICSE,FSE,ASE等发表论文50余篇,三次获得杰出论文奖:ACM SIGSOFT 杰出论文奖(ASE21)、RE21杰出论文奖,RE20杰出论文奖。担任多个国际知名会议期刊包括ICSE、ASE、FSE、Automated Software Engineering期刊、Requirements Engineering期刊、软件学报等审稿人。主持参与多项国家自然科学科学基金项目、国防科技创新项目、国家重点研发项目等。
报告题目:
基于大模型的代码精准重构技术
报告摘要:
工具的使用在人类进化史上占据了重要的地位,对于大语言模型来说,这一点同样适用。当大语言模型能够熟练运用各种工具,则有望突破自身局限,获取最新的信息,提升回答的精确性。在代码重构任务的背景下,一些领域特定的专家工具在相关任务上表现较好,但是由于自身数据量及参数量的限制,这些工具往往能力较为单一,偏好于不同的任务模式或使用场景,难以形成合力。本项目拟结合两者的优点,提出一种基于大模型的代码精准重构技术。包括(1)重构工具集能力理解,让大模型先学会理解和使用这些不同能力的专家工具,再结合这些专家工具的外部知识,激发大模型的推理能力给出准确的答案。(2)自动重构时机识别,利用历史数据和重构识别工具增强大模型,从而提升自动识别代码异味的性能。(3)自动重构代码生成,利用大模型以及现有的重构代码生成工具来自动生成准确的重构代码并解释代码需要重构的原因。
孙永谦
南开大学
南开大学软件学院副教授,CCF软件工程专委、互联网专委、服务计算专委、体系结构专委执行委员。清华大学计算机系博士毕业,华为智能基座"金课"建设计划教改项目负责人,荣获华为智能基座"栋梁之师"称号、入选天津市"131"创新型人才培养工程(第三层次)。在TC, TSC, JSAC, WWW, ISSRE,JSS等国际会议或期刊发表高水平论文30余篇。主持天津市青年基金项目1项,校企共研项目8项(与阿里巴巴、腾讯、字节跳动、快手等合作)。多次受邀担任 PRICAI、ICA3PP等CCF推荐会议的程序委员会委员, TON/ISSRE/软件学报/计算机学报等国内外会议或期刊审稿人。
报告题目:
全链路压测演练场景下智能辅助性能工程
报告摘要:
随着软件的规模化、复杂化程度不断提升,现网性能问题愈发严峻,尤其遇到大促、抢红包、抢票、抢课等特殊业务类型时,由于缺乏准确的预估,流量冲击大导致服务中断频发。这些问题会导致用户体验下降、业务损失增加、运维成本上升等后果。本项目拟开发面向全链路压测演练场景的智能辅助性能工程技术方案,该方案包括以下功能:(1)对压测过程中的性能指标、指标间关联关系进行自动建模,实现软件新版本性能的异变检测;(2)对压测过程中的指标、日志、调用链数据进行自动分析和处理,实现根因组件定界和事件类型推断;(3)对压测过程中的容量摸高进行自适应调整和优化,实现高效率的容量预估和探顶。通过上述技术攻关,实现面向全链路压测演练场景的智能辅助性能工程体系。
李锭
北京大学
2011年于北京大学获得学士学位,2016年于美国南加州大学获得博士学位,2016-2020年于美国NEC研究院担任研究员,2020年加入北京大学担任助理教授,博士生导师,获博雅青年学者称号。研究方向是系统安全和软件工程,研究内容包括系统溯源分析、符号执行、WASM运行时安全、AI隐私保护等。曾获得CCF-A类会议ISSTA 2023 杰出论文奖(Distinguished Paper Award)和最有影响力论文奖(Impact Paper Award)。
报告题目:
基于DPU的低开销细粒度非侵入式应用观测工具
报告摘要:
APT(Advanced Persistent Threat,高级可持续性威胁)攻击是当前云原生环境面临的主要安全威胁之一。相较于传统攻击,APT攻击具有专业性、分散性、长期性三大特点,导致传统的主机防御方法(如杀毒软件和防火墙等)难以有效应对。在此背景下,如何防御APT攻击成为了当前国际系统安全领域的一个重要研究课题。除了学术界在对相关技术进行广泛研究,工业界也相当重视相关技术。然而,尽管现有溯源分析已经取得了一定效果,它们仍然面临着三大不足:第一是实时性不足。当前一大类方法主要是利用机器学习技术对eBPF数据进行离线分析,但是这一类方法检测延迟高,通常会达到数小时甚至数天,只能支持事后的反思和分析,难以及时阻止攻击造成的破坏。第二是溯源准确率低,当前的实时分析算法往往采用启发式方法,在溯源过程中常常包含大量与攻击无关的信息,降低了攻击分析的效率。第三是分析成本高,吞吐量低。在现有方法中,一台安全监控服务器一般只能同时监控数十台主机,效率差,成本高,难以被商业用户采纳。
针对现有APT攻击检测系统的局限,本项目拟建立一套面向云原生环境的溯源分析技术,与现有检测技术相比,实现实时攻击检测,溯源误报减少一个数量级,吞吐量提高一个数量级。项目的核心思路是结合利用严谨的数学工具和新型硬件如DPU等,对现有的eBPF数据离线分析算法进行有效近似。在理论上保证分析精度的前提下大幅提高分析效率。具体来说,利用eBPF采集的数据一般会被组织成溯源图的形式,现有方法采用基于消息传播的图学习算法,复杂度高,分析难度大,是目前算法低效的根源。根据课题组前期的调查研究,溯源图的分析更加接近于STP (Steiner Tree Problem)问题。该问题主要是在一个图上寻找重要节点以及这些节点之间的重要通路,可以较好地建模APT攻击检测和溯源问题。同时,虽然STP被证明是一个NP-hard问题,但是有研究证明我们可以用一个多项式复杂度的算法来近似求解STP问题,且该算法的误差具有理论保证。同时,项目还将研究如何利用DPU等新型硬件对APT攻击检测算法进行卸载,实现对被监控设备性能损耗的最小化。
游伟
中国人民大学
中国人民大学副教授,博士生导师,入选国家级青年人才项目。长期从事软件漏洞自动化挖掘和二进制程序的动态/静态分析,在信息安全和软件工程领域国际顶级学术会议/期刊论文上发表论文二十余篇,获得最佳论文奖一次,最佳应用安全论文提名奖两次,获得CCF科学技术奖自然科学一等奖。
报告题目:
基于导向型模糊测试的漏洞验证程序自动生成技术研究
报告摘要:
漏洞验证程序的自动生成是一个十分重要的研究问题,能有效提升漏洞的分析与验证效率。导向型模糊测试是漏洞验证程序自动生成的一种有效技术手段,被广泛应用于当前的漏洞研究实践中。现有的导向型模糊测试工作在漏洞触发方面尚未达到优秀的效果,主要原因包括两个方面:其一,传统的覆盖制导策略无法保证以多种不同的路径到达目标代码位置;其二,在存在多个目标代码位置的情况下,传统的距离制导策略无法保证每个目标代码位置得到公平的对待。本课题拟设计一种考虑多目标代码位置和路径多样性的导向型模糊测试方案。其独特之处在于使用目标路径多样性度量来判断是否需要留存测试用例,以及使用公平能量分配算法确保所有的目标代码位置被无差别对待。
刘博涵
南京大学
南京大学软件学院助理研究员,软件研发效能实验室成员,2021年博士毕业于南京大学软件学院。其研究方向包括软件过程、经验软件工程、机器学习等。具体研究内容聚焦在软件过程仿真、软件过程挖掘、人工智能的软件工程、DevOps、持续集成等方向。主持一项国家自然科学基金青年项目,参与重点研发项目、面上项目、横向项目多项。依托于项目,在本领域TSE、JSS、软件学报等权威期刊和SANER、EASE、ICSSP等一流国际会议上发表论文多篇,申请国家发明专利多项。
报告题目:
基于流量的API资产的发现、安全风险检查与异常识别
报告摘要:
随着云服务的不断发展,服务API的数量急剧增加,针对于API的攻击也呈指数级增长。基于流量的API安全分析与治理指的是从云服务所有的网络流量中提取出API流量,对这些流量进行识别、分类以及异常检测等操作。本项目着眼于基于流量的API安全分析与治理,具体包含以下三个研究目标:(1)API资产的发现。研发一套规则与半监督学习相结合的API流量识别方法。能从海量的流量中识别出API类型的流量,并能根据多种特征对API进行聚类。(2)API资产的风险检查。汇总现有API安全检查表,设计基于流量的API安全风险检查表及相应的自动化检测方法。(3)API流量的异常识别。从单点视角和过程视角两方面开展异常检测。单点视角下实现基于自监督学习的异常检测。过程视角下充分挖掘上下文信息,针对不同场景建立正常行为的过程模型,并以过程模型为参照识别异常的事件流。
陈碧欢
复旦大学
复旦大学计算机科学技术学院副教授,主要研究方向包括软件供应链、智能网联汽车、AI系统工程等。作为课题负责人和技术骨干参加科技创新2030-"新一代人工智能"重大项目、国家自然科学基金项目,承担多项企业合作项目。研究成果发表在ICSE、FSE、S&P、TSE、TIFS等国际顶级会议和期刊,并获得3次ACM SIGSOFT杰出论文奖(FSE2016、ASE2018、ASE2022)和2次IEEE TCSE杰出论文奖(ICSME2020、SANER2023)。基于相关研究成果,研制了开源风险治理平台伏羲(http://www.se.fudan.edu.cn/fuxi/)。
报告题目:
基于行为序列建模的恶意软件包检测与定位技术
报告摘要:
恶意软件包是一种新型的开源软件供应链攻击方式。2023年的恶意软件包数量已经是2019年到2022年总和的2倍。现有的恶意软件包检测方法大部分只支持单语言,通用性较差;将恶意行为建模为一组离散特征,误报和漏报较高;在粗粒度的软件包级别进行检测,无法定位到细粒度的文件级甚至是代码行级。针对上述问题,本项目拟研究基于行为序列建模的恶意软件包检测与定位技术,包括以统一的方式利用来自不同语言的恶意软件包的知识,从而实现多语言恶意软件包检测;对恶意行为序列进行建模,以便能够准确捕捉恶意性;实现细粒度的文件级或者代码行级的软件包恶意行为定位,从而降低人工确认的开销。
薛吟兴
中国科学技术大学苏州高等研究院
中国科学技术大学苏州高等研究院研究员,博士生导师。2013年获得新加坡国立大学博士学位,长期工作在程序分析、软件测试、软件安全等领域。2017年加入微软亚太研发集团邮件安全部门,2018年加入中国科学技术大学。近些年以主要作者在软件工程、信息安全的国际期刊或会议发表论文60余篇,获得ACM杰出论文奖。现主持国家重点研发计划项目课题、国家自然基金委面上项目、省科技重大专项、中国科学院相关人才项目等。现担任CCF B类期刊Automated Software Engineering编委,CCF软件工程专委成员、中国仿真学会自动驾驶与仿真测试专委会成员、安徽省智能网联汽车标委会成员等。
报告题目:
基于大语言模型的深度代码高覆盖的灰盒模糊测试方法研究
报告摘要:
Fuzzing 测试技术已被广泛应用于开发者测试、安全测试等多个安全防护阶段。然而,由于其轻量级的策略与随机性,往往只能覆盖被测程序的浅层代码与状态,难以稳定测试深层代码与状态,从而导致其缺乏充分性。针对上述问题,本项目拟开发基于大语言模型的智能化制导的灰盒模糊测试方法,该方法具备以下内容:(1)提示学习与反馈机制结合的攻击面预测模型,快速定位源代码中易受攻击的代码片段,提升测试效率。(2)大语言模型驱动的测试种子与驱动程序生成,保证测试输入有效性,自动化生成测试驱动程序,进而提高深层代码测试覆盖率。通过上述技术攻关,实现基于大语言模型的智能化制导的灰盒模糊测试系统。