Cross-Inlining Binary Function Similarity Detection

注:在阅读该论文时顺便参考了作者团队的分享视频:【ICSE 2024论文预讲会-第二期-下午-哔哩哔哩】 https://b23.tv/XUVAPy3 在这个视频的末尾最后一个


一.introducion

计算下面两个函数的相似度:

查询函数:脆弱函数,重用函数

目标函数:商用软件中的函数

**函数内联:**函数(a)是一个脆弱函数,易被攻击,函数(b) 和(c)都内联了函数(a) ,所以他们也变成易被攻击的函数。

**problem:**相似度小于50%->对内联函数的相似性判断不准(内联关系太错综复杂了)

本文研究解决三个问题:

二.backgroud

?交叉内联

跨内联(Cross-Inlining):在不同的编译环境中,同一个源代码函数可能因为内联而产生不同的二进制表示。跨内联相似性检测旨在识别这些不同二进制表示之间的相似性。

左图:一般的函数调用,源函数在编译之后 ,会生成两个二进制函数:(Main和myfunction)

Main调用myfunction

右图:函数内联,myfunction的函数体被嵌入到了Main函数中,对应生成的二进制函数只有Main函数,没有myfunction

->引入了跨内联场景下的新问题

因为:首先在检测二进制函数的相似性的时候一般先要将他们反汇编成目标函数,通过语义来进行相似性比较。

1.Binary Function Similarity Detection(二进制相似度检测的研究方向们)

1)交叉优化二进制相似性检测工作:检测由相同源函数编译但具有不同优化(语法会不同)的二进制函数的相似性。

2)交叉编译器检测工作:检测由不同编译器编译的二进制函数的相似性。

3)跨架构检测工作:检测编译到不同架构的二进制函数的相似性。

4)目标:交叉内联二元函数相似性检测

2.Function Inlining(函数内联定义)

编译器在编译时将函数调用直接替换为函数体代码,从而消除函数调用的开销。代码直接嵌入到调用点,而不是通过函数调用进行。这可以减少函数调用的开销

3.Cross-Inlining Binary Similarity Detection(交叉内联函数)

(1)函数映射构建

研究者们进一步为这两个数据集构建了从二进制函数到源代码函数的映射(binary2source function mappings)。这个过程包括:

  • 从.debug_line节提取地址到行的映射。
  • 提取地址到二进制函数和行到源代码函数的关系。
  • 通过将二进制函数与它们映射的源代码函数对齐,构建binary2source函数映射。
(2)内联函数识别

通过binary2source函数映射,可以通过它们映射的源代码函数数量来识别内联的二进制函数。如果一个二进制函数映射到多个源代码函数,它就被认为是内联函数。在Dataset-NoInlining中,大多数二进制函数映射到一个源代码函数。

跨内联函数对:Dataset-Inlining中的CMS_decrypt和Dataset-NoInlining中的do_free_upto。在内联和非内联数据集中,通过桥函数关联起来的二进制函数对。

(3)三种交叉内联模式

注:标红的是桥函数(bridge function)。模式是根据桥函数(bridge function)在源代码函数调用图(FCG)中的位置来分类的

~Leaf-Inlining(叶节点内联)

桥函数位于调用链的末尾,没有被其他函数调用

Root-Inlining(根节点内联)

在树状结构中,这样的节点类似于根,因为它是调用链的起点。

InternalInlining(内部节点内联)

桥函数(中间的SF)既被其他函数调用,也调用了其他函数。在树状结构中,这样的节点位于调用链的中间,类似于树的内部节点。

跨内联(Cross-Inlining):在不同的编译环境中,同一个源代码函数可能因为内联而产生不同的二进制表示。跨内联相似性检测旨在识别这些不同二进制表示之间的相似性。

三.Method

1.ACFG 语义抽取

用GNN对ACFG进行embedding

2.model training

构造数据集:

case bridge(key):{

equal:非内联场景下的do_free_upto:[]

cross-inlining:被内联到的二进制函数集合:[]

}

正样本: equal中选一个,cross-inlining中选一个

负样本: equal中选一个,不在cross-inlining中选(但是在另外里面发生过内联)一个

使用基于边界的loss优化神经网络,达到分类的效果

基于三种不同的mode进行训练,threshold=0.55

相关推荐
青藤云安全3 分钟前
青藤天睿RASP再次发威!捕获E签宝RCE 0day漏洞
网络安全
cwn_27 分钟前
Sequential 损失函数 反向传播 优化器 模型的使用修改保存加载
人工智能·pytorch·python·深度学习·机器学习
老鱼说AI28 分钟前
Transformer Masked loss原理精讲及其PyTorch逐行实现
人工智能·pytorch·python·深度学习·transformer
我是苏苏31 分钟前
Pytorch01:深度学习中的专业名词及基本介绍
人工智能
空中湖31 分钟前
PyTorch武侠演义 第一卷:初入江湖 第5章:玉如意的秘密
人工智能·pytorch·neo4j
lxmyzzs32 分钟前
【已解决】YOLO11模型转wts时报错:PytorchStreamReader failed reading zip archive
人工智能·python·深度学习·神经网络·目标检测·计算机视觉·bug
Blossom.1181 小时前
基于深度学习的图像分类:使用预训练模型进行迁移学习
人工智能·深度学习·目标检测·分类·音视频·语音识别·迁移学习
kupeThinkPoem2 小时前
OpenAI最新大模型GPT-4o体验之Code Copilot AI编程大模型
人工智能·ai编程
XINERTEL2 小时前
解锁高品质音频体验:探索音频质量评估与测试的科学之道
人工智能·音视频·语音识别·音视频质量测试
IMER SIMPLE3 小时前
人工智能-python-OpenCV 图像基础认知与运用-图像的预处理(1)
人工智能·python·opencv