Cross-Inlining Binary Function Similarity Detection

注:在阅读该论文时顺便参考了作者团队的分享视频:【ICSE 2024论文预讲会-第二期-下午-哔哩哔哩】 https://b23.tv/XUVAPy3 在这个视频的末尾最后一个


一.introducion

计算下面两个函数的相似度:

查询函数:脆弱函数,重用函数

目标函数:商用软件中的函数

**函数内联:**函数(a)是一个脆弱函数,易被攻击,函数(b) 和(c)都内联了函数(a) ,所以他们也变成易被攻击的函数。

**problem:**相似度小于50%->对内联函数的相似性判断不准(内联关系太错综复杂了)

本文研究解决三个问题:

二.backgroud

?交叉内联

跨内联(Cross-Inlining):在不同的编译环境中,同一个源代码函数可能因为内联而产生不同的二进制表示。跨内联相似性检测旨在识别这些不同二进制表示之间的相似性。

左图:一般的函数调用,源函数在编译之后 ,会生成两个二进制函数:(Main和myfunction)

Main调用myfunction

右图:函数内联,myfunction的函数体被嵌入到了Main函数中,对应生成的二进制函数只有Main函数,没有myfunction

->引入了跨内联场景下的新问题

因为:首先在检测二进制函数的相似性的时候一般先要将他们反汇编成目标函数,通过语义来进行相似性比较。

1.Binary Function Similarity Detection(二进制相似度检测的研究方向们)

1)交叉优化二进制相似性检测工作:检测由相同源函数编译但具有不同优化(语法会不同)的二进制函数的相似性。

2)交叉编译器检测工作:检测由不同编译器编译的二进制函数的相似性。

3)跨架构检测工作:检测编译到不同架构的二进制函数的相似性。

4)目标:交叉内联二元函数相似性检测

2.Function Inlining(函数内联定义)

编译器在编译时将函数调用直接替换为函数体代码,从而消除函数调用的开销。代码直接嵌入到调用点,而不是通过函数调用进行。这可以减少函数调用的开销

3.Cross-Inlining Binary Similarity Detection(交叉内联函数)

(1)函数映射构建

研究者们进一步为这两个数据集构建了从二进制函数到源代码函数的映射(binary2source function mappings)。这个过程包括:

  • 从.debug_line节提取地址到行的映射。
  • 提取地址到二进制函数和行到源代码函数的关系。
  • 通过将二进制函数与它们映射的源代码函数对齐,构建binary2source函数映射。
(2)内联函数识别

通过binary2source函数映射,可以通过它们映射的源代码函数数量来识别内联的二进制函数。如果一个二进制函数映射到多个源代码函数,它就被认为是内联函数。在Dataset-NoInlining中,大多数二进制函数映射到一个源代码函数。

跨内联函数对:Dataset-Inlining中的CMS_decrypt和Dataset-NoInlining中的do_free_upto。在内联和非内联数据集中,通过桥函数关联起来的二进制函数对。

(3)三种交叉内联模式

注:标红的是桥函数(bridge function)。模式是根据桥函数(bridge function)在源代码函数调用图(FCG)中的位置来分类的

~Leaf-Inlining(叶节点内联)

桥函数位于调用链的末尾,没有被其他函数调用

Root-Inlining(根节点内联)

在树状结构中,这样的节点类似于根,因为它是调用链的起点。

InternalInlining(内部节点内联)

桥函数(中间的SF)既被其他函数调用,也调用了其他函数。在树状结构中,这样的节点位于调用链的中间,类似于树的内部节点。

跨内联(Cross-Inlining):在不同的编译环境中,同一个源代码函数可能因为内联而产生不同的二进制表示。跨内联相似性检测旨在识别这些不同二进制表示之间的相似性。

三.Method

1.ACFG 语义抽取

用GNN对ACFG进行embedding

2.model training

构造数据集:

case bridge(key):{

equal:非内联场景下的do_free_upto:[]

cross-inlining:被内联到的二进制函数集合:[]

}

正样本: equal中选一个,cross-inlining中选一个

负样本: equal中选一个,不在cross-inlining中选(但是在另外里面发生过内联)一个

使用基于边界的loss优化神经网络,达到分类的效果

基于三种不同的mode进行训练,threshold=0.55

相关推荐
谷粒.1 小时前
Cypress vs Playwright vs Selenium:现代Web自动化测试框架深度评测
java·前端·网络·人工智能·python·selenium·测试工具
CareyWYR6 小时前
每周AI论文速递(251201-251205)
人工智能
北京耐用通信7 小时前
电磁阀通讯频频“掉链”?耐达讯自动化Ethernet/IP转DeviceNet救场全行业!
人工智能·物联网·网络协议·安全·自动化·信息与通信
cooldream20097 小时前
小智 AI 智能音箱深度体验全解析:人设、音色、记忆与多场景玩法的全面指南
人工智能·嵌入式硬件·智能音箱
oil欧哟7 小时前
AI 虚拟试穿实战,如何低成本生成模特上身图
人工智能·ai作画
央链知播8 小时前
中国移联元宇宙与人工智能产业委联席秘书长叶毓睿受邀到北京联合大学做大模型智能体现状与趋势专题报告
人工智能·科技·业界资讯
人工智能培训8 小时前
卷积神经网络(CNN)详细介绍及其原理详解(2)
人工智能·神经网络·cnn
YIN_尹8 小时前
目标检测模型量化加速在 openEuler 上的实现
人工智能·目标检测·计算机视觉
mys55189 小时前
杨建允:企业应对AI搜索趋势的实操策略
人工智能·geo·ai搜索优化·ai引擎优化
小毅&Nora9 小时前
【人工智能】【深度学习】 ⑦ 从零开始AI学习路径:从Python到大模型的实战指南
人工智能·深度学习·学习