Cross-Inlining Binary Function Similarity Detection

注:在阅读该论文时顺便参考了作者团队的分享视频:【ICSE 2024论文预讲会-第二期-下午-哔哩哔哩】 https://b23.tv/XUVAPy3 在这个视频的末尾最后一个


一.introducion

计算下面两个函数的相似度:

查询函数:脆弱函数,重用函数

目标函数:商用软件中的函数

**函数内联:**函数(a)是一个脆弱函数,易被攻击,函数(b) 和(c)都内联了函数(a) ,所以他们也变成易被攻击的函数。

**problem:**相似度小于50%->对内联函数的相似性判断不准(内联关系太错综复杂了)

本文研究解决三个问题:

二.backgroud

?交叉内联

跨内联(Cross-Inlining):在不同的编译环境中,同一个源代码函数可能因为内联而产生不同的二进制表示。跨内联相似性检测旨在识别这些不同二进制表示之间的相似性。

左图:一般的函数调用,源函数在编译之后 ,会生成两个二进制函数:(Main和myfunction)

Main调用myfunction

右图:函数内联,myfunction的函数体被嵌入到了Main函数中,对应生成的二进制函数只有Main函数,没有myfunction

->引入了跨内联场景下的新问题

因为:首先在检测二进制函数的相似性的时候一般先要将他们反汇编成目标函数,通过语义来进行相似性比较。

1.Binary Function Similarity Detection(二进制相似度检测的研究方向们)

1)交叉优化二进制相似性检测工作:检测由相同源函数编译但具有不同优化(语法会不同)的二进制函数的相似性。

2)交叉编译器检测工作:检测由不同编译器编译的二进制函数的相似性。

3)跨架构检测工作:检测编译到不同架构的二进制函数的相似性。

4)目标:交叉内联二元函数相似性检测

2.Function Inlining(函数内联定义)

编译器在编译时将函数调用直接替换为函数体代码,从而消除函数调用的开销。代码直接嵌入到调用点,而不是通过函数调用进行。这可以减少函数调用的开销

3.Cross-Inlining Binary Similarity Detection(交叉内联函数)

(1)函数映射构建

研究者们进一步为这两个数据集构建了从二进制函数到源代码函数的映射(binary2source function mappings)。这个过程包括:

  • 从.debug_line节提取地址到行的映射。
  • 提取地址到二进制函数和行到源代码函数的关系。
  • 通过将二进制函数与它们映射的源代码函数对齐,构建binary2source函数映射。
(2)内联函数识别

通过binary2source函数映射,可以通过它们映射的源代码函数数量来识别内联的二进制函数。如果一个二进制函数映射到多个源代码函数,它就被认为是内联函数。在Dataset-NoInlining中,大多数二进制函数映射到一个源代码函数。

跨内联函数对:Dataset-Inlining中的CMS_decrypt和Dataset-NoInlining中的do_free_upto。在内联和非内联数据集中,通过桥函数关联起来的二进制函数对。

(3)三种交叉内联模式

注:标红的是桥函数(bridge function)。模式是根据桥函数(bridge function)在源代码函数调用图(FCG)中的位置来分类的

~Leaf-Inlining(叶节点内联)

桥函数位于调用链的末尾,没有被其他函数调用

Root-Inlining(根节点内联)

在树状结构中,这样的节点类似于根,因为它是调用链的起点。

InternalInlining(内部节点内联)

桥函数(中间的SF)既被其他函数调用,也调用了其他函数。在树状结构中,这样的节点位于调用链的中间,类似于树的内部节点。

跨内联(Cross-Inlining):在不同的编译环境中,同一个源代码函数可能因为内联而产生不同的二进制表示。跨内联相似性检测旨在识别这些不同二进制表示之间的相似性。

三.Method

1.ACFG 语义抽取

用GNN对ACFG进行embedding

2.model training

构造数据集:

case bridge(key):{

equal:非内联场景下的do_free_upto:[]

cross-inlining:被内联到的二进制函数集合:[]

}

正样本: equal中选一个,cross-inlining中选一个

负样本: equal中选一个,不在cross-inlining中选(但是在另外里面发生过内联)一个

使用基于边界的loss优化神经网络,达到分类的效果

基于三种不同的mode进行训练,threshold=0.55

相关推荐
桜吹雪11 小时前
在前端运行Qwen3.5原生多模态模型
前端·人工智能·机器学习
nix.gnehc11 小时前
AI时代的三重镜像:技术平权、数字祭道、认知外包
人工智能
星空下的月光影子11 小时前
贝叶斯优化加速工业AI模型超参数调优
人工智能
东莞呵呵11 小时前
从Linear到MLP AI模型的数学本质
人工智能·深度学习·机器学习
SmartBrain11 小时前
Spring Boot 中常用注解总结(AI工程化)
java·人工智能·spring boot·后端
帐篷Li11 小时前
Superpowers:让 AI 编程助手拥有专业级软件开发流程
人工智能·everything
明月照山海-11 小时前
机器学习周报三十七
人工智能·机器学习
TOWE technology11 小时前
从“制造”到“智造”:智能PDU如何成为智慧工厂的电力“神经中枢”
大数据·人工智能·制造·数据中心·电源管理·智能pdu
flying_131411 小时前
图神经网络分享系列-HAN(Heterogeneous Graph Attention Network)(一)
人工智能·深度学习·图神经网络·异构图·han·节点级注意力·语义级注意力
MIka11 小时前
CopilotKit 入门:用 Runtime 和 React Core 搭建真正可用的 AI Copilot
人工智能·typescript·agent