本申請(qǐng)涉及數(shù)據(jù)處理,尤其涉及一種基于異常檢測(cè)的數(shù)據(jù)樣本標(biāo)簽噪聲檢測(cè)方法、裝置及設(shè)備。
背景技術(shù):
1、目前一般對(duì)于正確的樣本數(shù)據(jù)都是會(huì)有正確標(biāo)簽的,這樣就可以根據(jù)正確標(biāo)簽的樣本數(shù)據(jù)進(jìn)行模型的學(xué)習(xí)訓(xùn)練,進(jìn)而利用學(xué)習(xí)訓(xùn)練后的模型能夠識(shí)別標(biāo)簽異常的樣本數(shù)據(jù)。
2、但是,標(biāo)簽噪聲往往并非隨機(jī)噪聲,而是具有偏向性的系統(tǒng)性標(biāo)簽噪聲。這種情況下,某些惡意家族中的錯(cuò)誤標(biāo)簽樣本數(shù)量甚至超過(guò)了正確標(biāo)簽的樣本,嚴(yán)重破壞了類別分布的結(jié)構(gòu)性假設(shè)。所以現(xiàn)有技術(shù)中在處理此類系統(tǒng)性標(biāo)簽噪聲時(shí)效果顯著下降,難以準(zhǔn)確識(shí)別并剔除錯(cuò)誤標(biāo)簽的樣本。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于此,本申請(qǐng)的目的在于提出一種基于異常檢測(cè)的數(shù)據(jù)樣本標(biāo)簽噪聲檢測(cè)方法、裝置及設(shè)備,用以解決或部分解決上述技術(shù)問(wèn)題。
2、基于上述目的,本申請(qǐng)?zhí)峁┝艘环N基于異常檢測(cè)的數(shù)據(jù)樣本標(biāo)簽噪聲檢測(cè)方法,包括:
3、獲取多個(gè)帶有標(biāo)簽的樣本數(shù)據(jù)作為初始樣本數(shù)據(jù)集,針對(duì)所述初始樣本數(shù)據(jù)集利用模型執(zhí)行k折交叉驗(yàn)證過(guò)程,每輪次交叉驗(yàn)證過(guò)程中采用蒙特卡羅丟棄算法確定每個(gè)樣本數(shù)據(jù)的預(yù)測(cè)概率,根據(jù)預(yù)測(cè)概率確定對(duì)應(yīng)的特征指標(biāo),其中,k表示交叉驗(yàn)證過(guò)程的輪次,所述預(yù)測(cè)概率為樣本數(shù)據(jù)屬于惡意樣本的概率;
4、將每個(gè)樣本數(shù)據(jù)對(duì)應(yīng)的特征指標(biāo)按照驗(yàn)證時(shí)間進(jìn)行排序,形成每個(gè)樣本數(shù)據(jù)對(duì)應(yīng)的時(shí)序特征;
5、將所有樣本數(shù)據(jù)對(duì)應(yīng)的時(shí)序特征進(jìn)行預(yù)處理,得到預(yù)處理后的數(shù)據(jù)特征;
6、對(duì)所述預(yù)處理后的數(shù)據(jù)特征進(jìn)行基于密度的聚類處理,和/或進(jìn)行孤立森林處理,確定出異常標(biāo)簽的數(shù)據(jù)特征;
7、將所述異常標(biāo)簽的數(shù)據(jù)特征對(duì)應(yīng)的樣本數(shù)據(jù)標(biāo)記噪聲標(biāo)簽,并將帶有噪聲標(biāo)簽的樣本數(shù)據(jù)進(jìn)行標(biāo)簽翻轉(zhuǎn),將剩余的樣本數(shù)據(jù)組合得到樣本數(shù)據(jù)集。
8、基于同一發(fā)明構(gòu)思,本申請(qǐng)還提供了一種基于異常檢測(cè)的數(shù)據(jù)樣本標(biāo)簽噪聲檢測(cè)裝置,包括:
9、驗(yàn)證模塊,被配置為獲取多個(gè)帶有標(biāo)簽的樣本數(shù)據(jù)作為初始樣本數(shù)據(jù)集,針對(duì)所述初始樣本數(shù)據(jù)集利用模型執(zhí)行k折交叉驗(yàn)證過(guò)程,每輪次交叉驗(yàn)證過(guò)程中采用蒙特卡羅丟棄算法確定每個(gè)樣本數(shù)據(jù)的預(yù)測(cè)概率,根據(jù)預(yù)測(cè)概率確定對(duì)應(yīng)的特征指標(biāo),其中,k表示交叉驗(yàn)證過(guò)程的輪次,所述預(yù)測(cè)概率為樣本數(shù)據(jù)屬于惡意樣本的概率;
10、排序模塊,被配置為將每個(gè)樣本數(shù)據(jù)對(duì)應(yīng)的特征指標(biāo)按照驗(yàn)證時(shí)間進(jìn)行排序,形成每個(gè)樣本數(shù)據(jù)對(duì)應(yīng)的時(shí)序特征;
11、預(yù)處理模塊,被配置為將所有樣本數(shù)據(jù)對(duì)應(yīng)的時(shí)序特征進(jìn)行預(yù)處理,得到預(yù)處理后的數(shù)據(jù)特征;
12、異常確定模塊,被配置為對(duì)所述預(yù)處理后的數(shù)據(jù)特征進(jìn)行基于密度的聚類處理,和/或進(jìn)行孤立森林處理,確定出異常標(biāo)簽的數(shù)據(jù)特征;
13、噪聲去除模塊,被配置為將所述異常標(biāo)簽的數(shù)據(jù)特征對(duì)應(yīng)的樣本數(shù)據(jù)標(biāo)記噪聲標(biāo)簽,并將帶有噪聲標(biāo)簽的樣本數(shù)據(jù)進(jìn)行標(biāo)簽翻轉(zhuǎn),將剩余的樣本數(shù)據(jù)組合得到樣本數(shù)據(jù)集。
14、基于同一發(fā)明構(gòu)思,本申請(qǐng)還提供了一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可由所述處理器執(zhí)行的計(jì)算機(jī)程序,所述處理器在執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如上所述的方法。
15、從上面所述可以看出,本申請(qǐng)?zhí)峁┑幕诋惓z測(cè)的數(shù)據(jù)樣本標(biāo)簽噪聲檢測(cè)方法、裝置及設(shè)備,能夠?qū)Τ跏紭颖緮?shù)據(jù)集利用模型進(jìn)行k折交叉驗(yàn)證過(guò)程,并利用蒙特卡羅丟棄算法得到每個(gè)樣本數(shù)據(jù)屬于惡意樣本的預(yù)測(cè)概率,根據(jù)預(yù)測(cè)概率確定對(duì)應(yīng)的特征指標(biāo),將特征指標(biāo)按照驗(yàn)證時(shí)間進(jìn)行排序,得到每個(gè)樣本數(shù)據(jù)對(duì)應(yīng)的時(shí)序特征,為了保證后續(xù)過(guò)程的順利執(zhí)行,會(huì)對(duì)時(shí)序特征進(jìn)行預(yù)處理得到預(yù)處理后的數(shù)據(jù)特征;然后,通過(guò)對(duì)預(yù)處理后的數(shù)據(jù)特征進(jìn)行基于密度的聚類處理,和/或孤立森林處理,能夠識(shí)別出異常標(biāo)簽的數(shù)據(jù)特征;該異常標(biāo)簽的數(shù)據(jù)特征對(duì)應(yīng)的樣本數(shù)據(jù)屬于噪聲標(biāo)簽,需要將其進(jìn)行標(biāo)簽翻轉(zhuǎn),避免噪聲標(biāo)簽的樣本數(shù)據(jù)的干擾,使得最終得到的剩余的樣本數(shù)據(jù)的樣本數(shù)據(jù)集更加準(zhǔn)確,保證了樣本數(shù)據(jù)集的質(zhì)量的可靠性。
1.一種基于異常檢測(cè)的數(shù)據(jù)樣本標(biāo)簽噪聲檢測(cè)方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述每輪次交叉驗(yàn)證過(guò)程中采用蒙特卡羅丟棄算法確定每個(gè)樣本數(shù)據(jù)的預(yù)測(cè)概率,包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述特征指標(biāo)包括:預(yù)測(cè)概率、預(yù)測(cè)熵、信息散度和標(biāo)準(zhǔn)差;
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將所有樣本數(shù)據(jù)對(duì)應(yīng)的時(shí)序特征進(jìn)行預(yù)處理,得到預(yù)處理后的數(shù)據(jù)特征,包括:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述對(duì)各個(gè)維度的時(shí)序特征對(duì)應(yīng)的標(biāo)準(zhǔn)正態(tài)分布數(shù)值,進(jìn)行降維提取主成分處理,得到降維主成分特征,包括:
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)所述預(yù)處理后的數(shù)據(jù)特征進(jìn)行基于密度的聚類處理,包括:
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)所述預(yù)處理后的數(shù)據(jù)特征進(jìn)行孤立森林處理,包括:
8.一種基于異常檢測(cè)的數(shù)據(jù)樣本標(biāo)簽噪聲檢測(cè)裝置,其特征在于,包括:
9.一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至7任意一項(xiàng)所述的方法。
10.一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)計(jì)算機(jī)指令,其特征在于,所述計(jì)算機(jī)指令用于使計(jì)算機(jī)執(zhí)行權(quán)利要求1至7任一所述方法。