Cross-Inlining Binary Function Similarity Detection

注:在阅读该论文时顺便参考了作者团队的分享视频:【ICSE 2024论文预讲会-第二期-下午-哔哩哔哩】 https://b23.tv/XUVAPy3 在这个视频的末尾最后一个


一.introducion

计算下面两个函数的相似度:

查询函数:脆弱函数,重用函数

目标函数:商用软件中的函数

**函数内联:**函数(a)是一个脆弱函数,易被攻击,函数(b) 和(c)都内联了函数(a) ,所以他们也变成易被攻击的函数。

**problem:**相似度小于50%->对内联函数的相似性判断不准(内联关系太错综复杂了)

本文研究解决三个问题:

二.backgroud

?交叉内联

跨内联(Cross-Inlining):在不同的编译环境中,同一个源代码函数可能因为内联而产生不同的二进制表示。跨内联相似性检测旨在识别这些不同二进制表示之间的相似性。

左图:一般的函数调用,源函数在编译之后 ,会生成两个二进制函数:(Main和myfunction)

Main调用myfunction

右图:函数内联,myfunction的函数体被嵌入到了Main函数中,对应生成的二进制函数只有Main函数,没有myfunction

->引入了跨内联场景下的新问题

因为:首先在检测二进制函数的相似性的时候一般先要将他们反汇编成目标函数,通过语义来进行相似性比较。

1.Binary Function Similarity Detection(二进制相似度检测的研究方向们)

1)交叉优化二进制相似性检测工作:检测由相同源函数编译但具有不同优化(语法会不同)的二进制函数的相似性。

2)交叉编译器检测工作:检测由不同编译器编译的二进制函数的相似性。

3)跨架构检测工作:检测编译到不同架构的二进制函数的相似性。

4)目标:交叉内联二元函数相似性检测

2.Function Inlining(函数内联定义)

编译器在编译时将函数调用直接替换为函数体代码,从而消除函数调用的开销。代码直接嵌入到调用点,而不是通过函数调用进行。这可以减少函数调用的开销

3.Cross-Inlining Binary Similarity Detection(交叉内联函数)

(1)函数映射构建

研究者们进一步为这两个数据集构建了从二进制函数到源代码函数的映射(binary2source function mappings)。这个过程包括:

  • 从.debug_line节提取地址到行的映射。
  • 提取地址到二进制函数和行到源代码函数的关系。
  • 通过将二进制函数与它们映射的源代码函数对齐,构建binary2source函数映射。
(2)内联函数识别

通过binary2source函数映射,可以通过它们映射的源代码函数数量来识别内联的二进制函数。如果一个二进制函数映射到多个源代码函数,它就被认为是内联函数。在Dataset-NoInlining中,大多数二进制函数映射到一个源代码函数。

跨内联函数对:Dataset-Inlining中的CMS_decrypt和Dataset-NoInlining中的do_free_upto。在内联和非内联数据集中,通过桥函数关联起来的二进制函数对。

(3)三种交叉内联模式

注:标红的是桥函数(bridge function)。模式是根据桥函数(bridge function)在源代码函数调用图(FCG)中的位置来分类的

~Leaf-Inlining(叶节点内联)

桥函数位于调用链的末尾,没有被其他函数调用

Root-Inlining(根节点内联)

在树状结构中,这样的节点类似于根,因为它是调用链的起点。

InternalInlining(内部节点内联)

桥函数(中间的SF)既被其他函数调用,也调用了其他函数。在树状结构中,这样的节点位于调用链的中间,类似于树的内部节点。

跨内联(Cross-Inlining):在不同的编译环境中,同一个源代码函数可能因为内联而产生不同的二进制表示。跨内联相似性检测旨在识别这些不同二进制表示之间的相似性。

三.Method

1.ACFG 语义抽取

用GNN对ACFG进行embedding

2.model training

构造数据集:

case bridge(key):{

equal:非内联场景下的do_free_upto:[]

cross-inlining:被内联到的二进制函数集合:[]

}

正样本: equal中选一个,cross-inlining中选一个

负样本: equal中选一个,不在cross-inlining中选(但是在另外里面发生过内联)一个

使用基于边界的loss优化神经网络,达到分类的效果

基于三种不同的mode进行训练,threshold=0.55

相关推荐
weixin_435208164 分钟前
如何使用 Qwen3 实现 Agentic RAG?
人工智能·深度学习·自然语言处理·aigc
CS创新实验室9 分钟前
研读论文《Attention Is All You Need》(3)
人工智能·论文·transformer·注意力
AORO_BEIDOU9 分钟前
防爆手机与普通手机有什么区别
人工智能·5g·安全·智能手机·信息与通信
暴龙胡乱写博客9 分钟前
机器学习 --- 数据集
人工智能·机器学习
唐天下文化12 分钟前
居然智家亮相全零售AI火花大会 AI大模型赋能家居新零售的进阶之路
大数据·人工智能·零售
~西贝贝~22 分钟前
二元随机响应(Binary Randomized Response, RR)的翻转概率
网络安全
gaosushexiangji28 分钟前
应用探析|千眼狼PIV测量系统在职业病防治中的应用
大数据·人工智能·科技·数码相机
Hello world.Joey43 分钟前
数据挖掘入门-二手车交易价格预测
人工智能·python·数据挖掘·数据分析·conda·pandas
愚公搬代码1 小时前
【愚公系列】《Manus极简入门》036-物联网系统架构师:“万物互联师”
人工智能·物联网·系统架构·agi·ai agent·智能体·manus
君臣Andy1 小时前
AI 搜索引擎 MindSearch
人工智能·ai 搜索引擎