亚洲综合日韩精品欧美综合区,日韩国产在线一区,久久久精品一二三区,午夜精品久久久久久中宇69,国产做爰一区二区三区视频,aa天堂,三级在线视频

面向數(shù)據(jù)交易的同構(gòu)圖嵌入源與二進(jìn)制函數(shù)同源判別方法、系統(tǒng)、設(shè)備及介質(zhì)與流程

文檔序號:43689877發(fā)布日期:2025-11-07 19:47閱讀:13來源:國知局

本發(fā)明涉及數(shù)據(jù)隱私安全,具體涉及面向數(shù)據(jù)交易的同構(gòu)圖嵌入源與二進(jìn)制函數(shù)同源判別方法、系統(tǒng)、設(shè)備及介質(zhì)。


背景技術(shù):

1、隨著數(shù)據(jù)成為新型生產(chǎn)要素,數(shù)據(jù)交易已不再局限于結(jié)構(gòu)化或文本化數(shù)據(jù),軟件源代碼及其二進(jìn)制形式的“代碼數(shù)據(jù)”成為數(shù)據(jù)交易的重要組成部分,其真實(shí)來源和功能可靠性直接影響交易的合規(guī)性與可靠性。源代碼與二進(jìn)制函數(shù)同源性判別是指判斷二進(jìn)制函數(shù)是否編譯自對應(yīng)的源代碼函數(shù),該技術(shù)不僅能夠識別未經(jīng)授權(quán)的代碼嵌入或侵權(quán)抄襲,也可探測潛在的惡意篡改風(fēng)險,從而保障軟件功能的正確性與安全性,在數(shù)據(jù)交易場景中具有重要價值。研究源代碼與二進(jìn)制函數(shù)同源性判別技術(shù),能夠輔助交易各方進(jìn)行版權(quán)歸屬驗(yàn)證、敏感功能溯源和可信審計(jì),為數(shù)據(jù)交易生態(tài)提供強(qiáng)有力的安全與合規(guī)保障。

2、傳統(tǒng)的源代碼與二進(jìn)制函數(shù)同源性判別方法存在過度依賴預(yù)定義規(guī)則、判別效率低下等弊端,難以適應(yīng)大規(guī)模應(yīng)用等需求。基于深度學(xué)習(xí)的方法展現(xiàn)出檢測準(zhǔn)確率高、速度快等顯著優(yōu)勢?,F(xiàn)有基于深度學(xué)習(xí)的源代碼與二進(jìn)制函數(shù)同源性判別方法主要分為以下三類:

3、第一類方法將源代碼編譯為二進(jìn)制程序,利用二進(jìn)制函數(shù)同源性判別技術(shù)進(jìn)行源代碼與二進(jìn)制函數(shù)的同源性判別。此類判別方法首先需要確保源代碼完整可以編譯,且需要識別編譯來源并構(gòu)建相應(yīng)的編譯環(huán)境,識別來源并編譯源碼的過程較為復(fù)雜影響判別效率。第二類方法利用中間表示,將源代碼和二進(jìn)制程序分別解析為中間語言形式,然后基于中間語言進(jìn)行同源性判別。由于需要使用編譯器和反編譯器將源代碼和二進(jìn)制文件分別轉(zhuǎn)換為中間語言,轉(zhuǎn)換過程較為復(fù)雜使此類方法難以直接應(yīng)用。第三類方法結(jié)合源代碼和二進(jìn)制程序中的語法或者語義特征直接進(jìn)行同源性判別,無需進(jìn)行編譯或轉(zhuǎn)換,判別過程相對于前兩種方法較為靈活方便。然而,非同源函數(shù)間可能存在語法特征相同或語義特征相似,現(xiàn)有方法容易將其被誤判為同源函數(shù)。

4、針對上述問題,提出一種同構(gòu)圖嵌入的源代碼與二進(jìn)制函數(shù)同源性判別方法。該方法構(gòu)建源代碼控制結(jié)構(gòu)屬性圖和二進(jìn)制函數(shù)控制流圖,結(jié)合多維結(jié)構(gòu)特征加權(quán)機(jī)制與困難樣本記憶機(jī)制選擇非同源訓(xùn)練樣本,提高模型對困難樣本判別能力。


技術(shù)實(shí)現(xiàn)思路

1、鑒于上述存在的問題,提出了本發(fā)明。

2、因此,本發(fā)明解決的技術(shù)問題是:如何解決現(xiàn)有技術(shù)中容易將存在語法特征相同或語義特征相似的非同源函數(shù)誤判為同源函數(shù);模型訓(xùn)練時難以從隨機(jī)選擇的訓(xùn)練樣本中充分挖掘區(qū)分非同源函數(shù)的特征的問題。

3、為解決上述技術(shù)問題,本發(fā)明提供如下技術(shù)方案:面向數(shù)據(jù)交易的同構(gòu)圖嵌入源與二進(jìn)制函數(shù)同源判別方法,其包括:獲取待判別的源代碼函數(shù)和二進(jìn)制函數(shù),構(gòu)建所述源代碼函數(shù)的控制結(jié)構(gòu)屬性特征圖;

4、構(gòu)建所述二進(jìn)制函數(shù)的控制流特征圖;

5、基于圖嵌入網(wǎng)絡(luò)分別生成所述控制結(jié)構(gòu)屬性特征圖和所述控制流特征圖的圖向量表示;

6、根據(jù)所述控制結(jié)構(gòu)屬性特征圖的圖向量表示和所述控制流特征圖的圖向量表示之間的相似度,確定所述源代碼函數(shù)和所述二進(jìn)制函數(shù)是否同源。

7、作為本發(fā)明所述的面向數(shù)據(jù)交易的同構(gòu)圖嵌入源與二進(jìn)制函數(shù)同源判別方法的一種優(yōu)選方案,其中:所述構(gòu)建所述源代碼函數(shù)的控制結(jié)構(gòu)屬性特征圖,包括:

8、解析所述源代碼函數(shù)生成代碼屬性圖;

9、對所述代碼屬性圖中節(jié)點(diǎn)關(guān)聯(lián)的源代碼語句進(jìn)行詞法分析,獲取語義嵌入向量;

10、提取節(jié)點(diǎn)類型并分配類型嵌入向量;

11、根據(jù)所述語義嵌入向量和所述類型嵌入向量生成節(jié)點(diǎn)初始嵌入,構(gòu)建控制結(jié)構(gòu)屬性特征圖。

12、本優(yōu)選技術(shù)方案的有益效果為:當(dāng)源代碼函數(shù)需進(jìn)行同源判別時,即通過詞法分析提取語義嵌入向量并結(jié)合類型嵌入向量構(gòu)建控制結(jié)構(gòu)屬性特征圖,故能夠從語義層面與結(jié)構(gòu)層面雙重維度捕獲源代碼函數(shù)之本質(zhì)特征。進(jìn)而在面對具有相似語法結(jié)構(gòu)但語義內(nèi)涵迥異之非同源函數(shù)時,亦能通過語義嵌入向量之差異性進(jìn)行有效區(qū)分。且通過節(jié)點(diǎn)類型之顯式編碼,即使在代碼變量命名、注釋修改等表層變化情形下,亦能保持對函數(shù)控制結(jié)構(gòu)之穩(wěn)定表征,從而顯著提升源代碼函數(shù)特征提取之魯棒性與區(qū)分度。

13、作為本發(fā)明所述的面向數(shù)據(jù)交易的同構(gòu)圖嵌入源與二進(jìn)制函數(shù)同源判別方法的一種優(yōu)選方案,其中:所述構(gòu)建所述二進(jìn)制函數(shù)的控制流特征圖,包括:

14、對所述二進(jìn)制函數(shù)進(jìn)行反匯編分析,提取控制流圖;

15、基于匯編指令嵌入模型處理所述控制流圖中的匯編指令;

16、將所述控制流圖中的基本塊表示為特征向量,生成控制流特征圖。

17、作為本發(fā)明所述的面向數(shù)據(jù)交易的同構(gòu)圖嵌入源與二進(jìn)制函數(shù)同源判別方法的一種優(yōu)選方案,其中:所述基于圖嵌入網(wǎng)絡(luò)分別生成所述控制結(jié)構(gòu)屬性特征圖和所述控制流特征圖的圖向量表示,包括:

18、采用第一圖嵌入網(wǎng)絡(luò)生成所述控制結(jié)構(gòu)屬性特征圖中節(jié)點(diǎn)的嵌入表示;

19、采用第二圖嵌入網(wǎng)絡(luò)生成所述控制流特征圖中節(jié)點(diǎn)的嵌入表示;

20、分別聚合所述控制結(jié)構(gòu)屬性特征圖的節(jié)點(diǎn)的嵌入表示和所述控制流特征圖的節(jié)點(diǎn)的嵌入表示,得到對應(yīng)的圖向量表示。

21、作為本發(fā)明所述的面向數(shù)據(jù)交易的同構(gòu)圖嵌入源與二進(jìn)制函數(shù)同源判別方法的一種優(yōu)選方案,其中:在所述基于圖嵌入網(wǎng)絡(luò)分別生成所述控制結(jié)構(gòu)屬性特征圖和所述控制流特征圖的圖向量表示之前,還包括:

22、結(jié)合多維結(jié)構(gòu)特征加權(quán)機(jī)制與困難樣本記憶機(jī)制,動態(tài)選擇非同源訓(xùn)練樣本;

23、基于所述非同源訓(xùn)練樣本和同源訓(xùn)練樣本訓(xùn)練所述圖嵌入網(wǎng)絡(luò)。

24、本優(yōu)選技術(shù)方案的有益效果為:當(dāng)訓(xùn)練圖嵌入網(wǎng)絡(luò)時,即采用多維結(jié)構(gòu)特征加權(quán)機(jī)制結(jié)合困難樣本記憶機(jī)制進(jìn)行非同源訓(xùn)練樣本之動態(tài)選擇,故能夠由易到難地引導(dǎo)模型學(xué)習(xí)進(jìn)程。進(jìn)而通過在訓(xùn)練初期選擇結(jié)構(gòu)差異明顯之樣本促進(jìn)模型快速收斂,在訓(xùn)練后期選擇結(jié)構(gòu)相近之困難樣本強(qiáng)化判別能力,即使面對與同源函數(shù)高度相似之非同源函數(shù)亦能準(zhǔn)確識別。同時,困難樣本記憶機(jī)制能夠累積模型誤判信息,使得易混淆樣本在后續(xù)訓(xùn)練中得到重點(diǎn)關(guān)注,從而大幅提升模型對邊界樣本之判別精度與泛化能力。

25、作為本發(fā)明所述的面向數(shù)據(jù)交易的同構(gòu)圖嵌入源與二進(jìn)制函數(shù)同源判別方法的一種優(yōu)選方案,其中:所述結(jié)合多維結(jié)構(gòu)特征加權(quán)機(jī)制與困難樣本記憶機(jī)制,動態(tài)選擇非同源訓(xùn)練樣本,包括:

26、根據(jù)控制流圖的多維結(jié)構(gòu)特征計(jì)算二進(jìn)制函數(shù)的結(jié)構(gòu)復(fù)雜度得分;

27、在訓(xùn)練過程中記錄模型對非同源函數(shù)的誤判次數(shù);

28、根據(jù)所述結(jié)構(gòu)復(fù)雜度得分和所述誤判次數(shù),由易到難地選擇所述非同源訓(xùn)練樣本。

29、作為本發(fā)明所述的面向數(shù)據(jù)交易的同構(gòu)圖嵌入源與二進(jìn)制函數(shù)同源判別方法的一種優(yōu)選方案,其中:所述根據(jù)所述控制結(jié)構(gòu)屬性特征圖的圖向量表示和所述控制流特征圖的圖向量表示之間的相似度,確定所述源代碼函數(shù)和所述二進(jìn)制函數(shù)是否同源,包括:

30、計(jì)算所述控制結(jié)構(gòu)屬性特征圖的圖向量表示和所述控制流特征圖的圖向量表示之間的余弦距離作為相似度;

31、若所述相似度大于預(yù)設(shè)的同源判別閾值,則確定所述源代碼函數(shù)和所述二進(jìn)制函數(shù)為同源。

32、本發(fā)明提供面向數(shù)據(jù)交易的同構(gòu)圖嵌入源與二進(jìn)制函數(shù)同源判別系統(tǒng)。

33、本優(yōu)選技術(shù)方案的有益效果為:當(dāng)需判定源代碼函數(shù)與二進(jìn)制函數(shù)是否同源時,即計(jì)算兩者圖向量表示之間的余弦距離作為相似度度量,并與預(yù)設(shè)閾值進(jìn)行比較,故能夠?qū)?fù)雜的函數(shù)同源性判別問題轉(zhuǎn)化為向量空間中的距離度量問題。進(jìn)而通過余弦距離這一歸一化度量方式,即使源代碼函數(shù)與二進(jìn)制函數(shù)在表征維度上存在差異,亦能進(jìn)行公平比較。且通過設(shè)置同源判別閾值,不僅能夠靈活調(diào)整判別嚴(yán)格程度以適應(yīng)不同應(yīng)用場景需求,亦能在保證判別準(zhǔn)確率與召回率之間取得平衡,從而實(shí)現(xiàn)高效可靠的同源性判別。

34、為解決上述技術(shù)問題,本發(fā)明進(jìn)一步提供如下技術(shù)方案:面向數(shù)據(jù)交易的同構(gòu)圖嵌入源與二進(jìn)制函數(shù)同源判別系統(tǒng),包括:控制結(jié)構(gòu)屬性特征圖構(gòu)建模塊,用于獲取待判別的源代碼函數(shù)和二進(jìn)制函數(shù),構(gòu)建所述源代碼函數(shù)的控制結(jié)構(gòu)屬性特征圖;

35、控制流特征圖構(gòu)建模塊,用于構(gòu)建所述二進(jìn)制函數(shù)的控制流特征圖;

36、圖嵌入生成模塊,用于基于圖嵌入網(wǎng)絡(luò)分別生成所述控制結(jié)構(gòu)屬性特征圖和所述控制流特征圖的圖向量表示;

37、同源判別模塊,用于根據(jù)所述控制結(jié)構(gòu)屬性特征圖的圖向量表示和所述控制流特征圖的圖向量表示之間的相似度,確定所述源代碼函數(shù)和所述二進(jìn)制函數(shù)是否同源。

38、本發(fā)明提供了一種計(jì)算機(jī)設(shè)備,包括存儲器和處理器,所述存儲器存儲有計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時實(shí)現(xiàn)所述的面向數(shù)據(jù)交易的同構(gòu)圖嵌入源與二進(jìn)制函數(shù)同源判別方法的步驟。

39、本發(fā)明提供了一種計(jì)算機(jī)可讀存儲介質(zhì),其上存儲有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時實(shí)現(xiàn)所述的面向數(shù)據(jù)交易的同構(gòu)圖嵌入源與二進(jìn)制函數(shù)同源判別方法的步驟。

40、本發(fā)明的有益效果:與其他源代碼與二進(jìn)制函數(shù)同源性判別方法相比,本發(fā)明結(jié)合多維結(jié)構(gòu)特征加權(quán)機(jī)制與困難樣本記憶機(jī)制選擇非同源訓(xùn)練樣本,有效挖掘非同源困難訓(xùn)練樣本,減少誤判,提升模型對困難樣本的判別能力;通過構(gòu)建源代碼函數(shù)控制結(jié)構(gòu)屬性圖和二進(jìn)制函數(shù)控制流圖,捕獲非同源函數(shù)間順序、選擇和分支三種控制結(jié)構(gòu)和語義特征差異,強(qiáng)化語法特征相同或語義特征相似的非同源函數(shù)之間的區(qū)分度,有效提高判別準(zhǔn)確率。

當(dāng)前第1頁1 2 
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 留言:0條
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1