本發(fā)明屬于數(shù)據(jù)處理,尤其涉及一種電力時序預測數(shù)據(jù)集構(gòu)建方法及系統(tǒng)。
背景技術(shù):
1、隨著新型電力系統(tǒng)建設(shè)的深入推進,風電、光伏等新能源在電網(wǎng)中的滲透率持續(xù)提高,同時用戶側(cè)用電行為日趨多樣化和互動化,源荷雙側(cè)的動態(tài)耦合特性不斷增強。在此背景下,電力負荷曲線呈現(xiàn)出更強的波動性、間歇性與不確定性,其時序模式變得愈發(fā)復雜,對負荷預測的準確性與時效性提出了更高要求。電力系統(tǒng)調(diào)度、市場交易和穩(wěn)定控制等業(yè)務對高質(zhì)量負荷預測的依賴程度顯著提升,已成為行業(yè)智能化轉(zhuǎn)型中的關(guān)鍵挑戰(zhàn)之一。
2、目前主流的電力負荷預測方法通?;跉v史負荷數(shù)據(jù),采用各類時間序列分析模型或機器學習方法進行建模。典型做法包括使用自回歸積分滑動平均(arima)、長短期記憶網(wǎng)絡(luò)(lstm)、門控循環(huán)單元(gru)等模型,以歷史負荷值為主要輸入,通過滑動窗口構(gòu)造訓練樣本,并利用序列到序列(seq2seq)或注意力機制(attention)捕捉時序依賴關(guān)系。
3、然而,現(xiàn)有技術(shù)存在一個最明顯的缺點:其模型輸入大多局限于單一來源的歷史電力數(shù)據(jù),數(shù)據(jù)維度較為有限,未能有效引入和融合來自氣象、經(jīng)濟、社會事件等多源異構(gòu)時序數(shù)據(jù)。即便個別方法嘗試整合外部數(shù)據(jù),也常因不同來源數(shù)據(jù)在采樣頻率、時間對齊和特征語義上的差異,導致特征提取困難、信息利用不充分,從而限制了模型對復雜多因素耦合關(guān)系的刻畫能力,影響了預測精度與泛化性能。
技術(shù)實現(xiàn)思路
1、發(fā)明目的:本發(fā)明的目的是提供一種電力時序預測數(shù)據(jù)集構(gòu)建方法及系統(tǒng),解決現(xiàn)有技術(shù)中電力負荷預測數(shù)據(jù)來源單一、格式不統(tǒng)一、多源異構(gòu)數(shù)據(jù)融合效率低及模型泛化能力不足的問題。
2、技術(shù)方案:本發(fā)明所述的電力時序預測數(shù)據(jù)集構(gòu)建方法,包括以下步驟:
3、步驟s1、獲取來自電力傳感器、調(diào)度中心、用戶終端及天氣預報系統(tǒng)的電力負荷數(shù)據(jù)與天氣數(shù)據(jù),構(gòu)成電力數(shù)據(jù)集;
4、步驟s2、對所述電力數(shù)據(jù)集中的時序數(shù)據(jù),依據(jù)時間戳對齊電力負荷數(shù)據(jù)與天氣數(shù)據(jù),檢測其中的突變值及連續(xù)恒定值,通過填充或丟棄完成數(shù)據(jù)清洗;
5、步驟s3、從公開數(shù)據(jù)源獲取涵蓋能源、氣象、交通及金融領(lǐng)域的多源時序數(shù)據(jù),構(gòu)成公共數(shù)據(jù)集;
6、步驟s4、將清洗后的電力數(shù)據(jù)集中的數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一格式,所述統(tǒng)一格式包含的特征字段包括:目標target、開始時間start、時序頻率freq及數(shù)據(jù)編號item_id;可選特征字段包括:動態(tài)協(xié)變量feat_dynamic_real和靜態(tài)協(xié)變量feat_static_real中的零種、一種或兩種;所述的動態(tài)協(xié)變量包括以下三類特性因子:節(jié)假日特性因子、氣象特性因子和負荷特性因子;
7、步驟s5、對所述電力數(shù)據(jù)集與公共數(shù)據(jù)集的數(shù)據(jù)的目標值進行歸一化處理,提取其時頻特征,包括均值、方差及傅里葉變換系數(shù),并計算電力數(shù)據(jù)集與公共數(shù)據(jù)集中各時序數(shù)據(jù)序列之間的相似度指標;
8、步驟s6、依據(jù)所述相似度指標,從公共數(shù)據(jù)集中篩選出與電力負荷具有顯著相關(guān)性的數(shù)據(jù),與電力數(shù)據(jù)集共同組成待處理數(shù)據(jù)集;
9、步驟s7、采用動態(tài)采樣加權(quán)方法,計算所述待處理數(shù)據(jù)集中每一條時序數(shù)據(jù)的權(quán)重,形成權(quán)重映射集weight_map,并依據(jù)所述權(quán)重映射集設(shè)定采樣頻率,最終構(gòu)建得到用于電力時序大模型預訓練與微調(diào)的異構(gòu)電力時序數(shù)據(jù)集。
10、本發(fā)明通過整合電力傳感器、調(diào)度中心、用戶終端及天氣預報系統(tǒng)等多源數(shù)據(jù),并引入涵蓋能源、氣象、交通和金融領(lǐng)域的公共時序數(shù)據(jù),有效解決了數(shù)據(jù)來源單一的問題;通過時間戳對齊、異常值清洗和統(tǒng)一格式轉(zhuǎn)換,實現(xiàn)了多源異構(gòu)數(shù)據(jù)的高效融合與標準化處理;進一步利用時頻特征提取和相似度計算,篩選出與電力負荷顯著相關(guān)的跨域數(shù)據(jù),結(jié)合動態(tài)采樣加權(quán)方法構(gòu)建異構(gòu)數(shù)據(jù)集,顯著提升了數(shù)據(jù)多樣性和質(zhì)量,從而增強了時序預測模型的泛化能力和預訓練與微調(diào)效果。
11、優(yōu)選的,步驟s2包括:
12、基于時間戳對電力負荷數(shù)據(jù)與天氣數(shù)據(jù)進行對齊,所述天氣數(shù)據(jù)包括溫度、濕球溫度、相對濕度、風速和氣壓;所述對齊過程基于統(tǒng)一時間粒度進行插值或重采樣處理,使負荷序列與氣象特征在時間維度上對齊;
13、采用3σ標準差法或四分位距法檢測局部離群點,其中:使用3σ標準差法時,計算時間序列的均值μ和標準差σ,若某一時刻數(shù)值xt滿足|xt?-?μ|>3σ,則判定為突變值;使用四分位距法時,計算第一四分位數(shù)q1和第三四分位數(shù)q3,若數(shù)值xt滿足xt<q1?-?1.5×iqr?或?xt>q3?+?1.5×iqr,其中iqr?=?q3?-?q1,則判定為突變值;
14、采用邏輯判斷法檢測連續(xù)恒定值,對時間序列按時間順序進行滑動窗口處理,若存在連續(xù)長度l≥預設(shè)閾值l0且相鄰數(shù)據(jù)點變化率α<預設(shè)閾值α0的區(qū)段,則標記為恒定值區(qū)段;
15、對檢測出的突變值和恒定值區(qū)段進行清洗處理,包括:將突變值和恒定值區(qū)段對應的數(shù)據(jù)點賦值為空值;對連續(xù)空值長度小于閾值n1的數(shù)據(jù)段,采用線性插值、前向填充、后向填充或樣條插值進行補全;對連續(xù)空值長度大于等于n1且小于閾值n2的數(shù)據(jù)段,采用滑動平均、指數(shù)加權(quán)平滑或加權(quán)回歸預測進行補全;對連續(xù)空值長度大于等于n2或相鄰已知數(shù)據(jù)點不滿足模型構(gòu)建條件的數(shù)據(jù)段,直接剔除。
16、通過基于統(tǒng)一時間粒度的插值或重采樣實現(xiàn)電力負荷與多維度氣象數(shù)據(jù)的高精度對齊,并綜合運用3σ標準差法、四分位距法及邏輯判斷法,有效檢測并處理突變值與連續(xù)恒定值等異常數(shù)據(jù);針對不同長度的缺失數(shù)據(jù)段,自適應地采用線性插值、滑動平均、指數(shù)平滑乃至剔除等差異化清洗策略,顯著提升了數(shù)據(jù)的連續(xù)性與一致性,為后續(xù)時序預測模型提供了高質(zhì)量、高可靠性的數(shù)據(jù)基礎(chǔ)。
17、優(yōu)選的,步驟s4所述的統(tǒng)一格式包含的特征字段包括:
18、必含特征字段:
19、目標字段target,用于記錄待預測的核心時序變量,其值為經(jīng)過清洗后的連續(xù)數(shù)據(jù)序列;
20、開始時間字段start,用于表示所述連續(xù)數(shù)據(jù)序列的起始時間戳,采用統(tǒng)一時間格式編碼;
21、時序數(shù)據(jù)頻率字段freq,用于標識數(shù)據(jù)采樣頻率,表示時間步長;
22、數(shù)據(jù)編號字段item_id,用于唯一標識數(shù)據(jù)源或樣本實體;
23、可選特征字段,包括以下零種、一種或兩種:
24、動態(tài)協(xié)變量字段feat_dynamic_real,用于表示與時間同步變化的外部輸入變量;
25、靜態(tài)協(xié)變量字段feat_static_real,用于表示在整個時間序列過程中保持不變的背景特征。
26、通過定義包含目標變量、起始時間、采樣頻率及數(shù)據(jù)編號的必含字段,并引入動態(tài)與靜態(tài)兩類可選協(xié)變量字段,構(gòu)建了一種高度結(jié)構(gòu)化且靈活可擴展的統(tǒng)一數(shù)據(jù)格式;該格式不僅確保了多源異構(gòu)電力時序數(shù)據(jù)在語義和維度上的一致性,為后續(xù)大規(guī)模數(shù)據(jù)處理與模型訓練提供了標準化輸入,還通過動態(tài)協(xié)變量融合外部時變特征(如氣象、節(jié)假日因子)以及靜態(tài)協(xié)變量嵌入不變背景信息,顯著增強了數(shù)據(jù)集的信息密度與模型的特征感知能力,為提升時序預測的準確性和泛化性奠定了堅實基礎(chǔ)。
27、優(yōu)選的,所述節(jié)假日特性因子基于時間戳信息構(gòu)建,用于反映不同日期類型對電力負荷的影響,包括節(jié)假日的獨立編碼、節(jié)假日前后的偏移量標識、節(jié)假日天數(shù)的周期編碼及法定假日標識。
28、通過構(gòu)建包含獨立節(jié)假日編碼、前后偏移量標識、持續(xù)天數(shù)周期編碼及法定假日標識等多維度特征的節(jié)假日特性因子,該方案能夠精細化捕捉不同日期類型(如法定假期、調(diào)休日)及其前后過渡期對電力負荷的差異化影響,從而顯著增強了時序數(shù)據(jù)中對周期性人類活動模式的表征能力,為預測模型提供了關(guān)鍵的時間語義信息,有效提升了模型在復雜節(jié)假日場景下的負荷預測精度與泛化性能。
29、優(yōu)選的,所述氣象特性因子用于刻畫氣候條件對負荷波動的影響,包括:
30、對溫度變量t進行區(qū)間劃分,設(shè)定若干溫度閾值t1,t2,…,tn,將溫度變量離散化為不同溫區(qū)段,采用樣條插值法構(gòu)造溫度-負荷響應函數(shù)f(t)表示不同溫區(qū)段對負荷的非線性影響關(guān)系,響應函數(shù)形式如下:
31、
32、其中,bi(t)為樣條基函數(shù),βi為對應系數(shù);
33、構(gòu)建基于溫度tmp、相對濕度rh和風速ws的體感溫度指標:
34、
35、采用主成分分析pca方法對體感溫度及其相關(guān)變量進行降維,提取最具代表性的氣象因子組合;
36、構(gòu)建基于相對濕度rh、干球溫度tmpwb、含濕量d、水蒸氣飽和氣壓psb和大氣壓p的濕焓指標h:
37、;;
38、構(gòu)建包含滯后效應的多維氣象特征矩陣,包括短期溫度變化率、累積溫差指標、滑動窗口統(tǒng)計特征、滯后變量特征及組合交互特征。
39、通過將溫度離散化并利用樣條插值構(gòu)建非線性溫度-負荷響應函數(shù),精確刻畫了不同溫區(qū)對電力負荷的差異化影響;綜合溫度、濕度、風速等多維氣象要素構(gòu)建體感溫度和濕焓指標,并采用主成分分析提取代表性氣象因子組合,有效量化了復雜氣候條件對負荷波動的綜合作用;進一步引入包含滯后效應、變化率、累積統(tǒng)計及交互特征的多維氣象特征矩陣,全面捕捉了氣象因子的動態(tài)演變規(guī)律與延遲影響,顯著提升了數(shù)據(jù)集對氣象-負荷耦合關(guān)系的表征深度與預測模型的解釋能力。
40、優(yōu)選的,所述構(gòu)建包含滯后效應的多維氣象特征矩陣包括以下特征:
41、短期溫度變化率,用于描述溫度在相鄰時間點間的波動趨勢,計算公式為:,其中tt+1和tt分別表示當前時刻與上一時刻的溫度值;
42、累積溫差指標,用于刻畫當前氣候狀態(tài)相對于基礎(chǔ)溫度的歷史偏離程度,計算公式為:,其中n表示累計時長對應的步數(shù),表示在t-i?時刻的實際觀測溫度,為基礎(chǔ)溫度;
43、滑動窗口統(tǒng)計特征,用于在給定時間窗口內(nèi)提取移動平均溫度、滑動最大值和滑動最小值;其中,移動平均溫度:;滑動最大值:;滑動最小值:,k為滑動窗口長度;
44、滯后變量特征,用于直接引入歷史時刻的氣象變量作為模型輸入;
45、組合交互特征,用于通過構(gòu)造當前值與歷史統(tǒng)計值之間的差異特征表征溫度偏差程度。
46、通過構(gòu)建包含短期溫度變化率、累積溫差指標、滑動窗口統(tǒng)計、滯后變量及組合交互特征的多維氣象特征矩陣,該方案能夠精細化捕捉溫度波動的瞬時趨勢、歷史累積偏差效應以及不同時間尺度下的統(tǒng)計規(guī)律;滯后變量直接引入歷史氣象狀態(tài),而交互特征則量化了實時值與歷史背景的偏差程度,從而全面表征了氣象條件的動態(tài)演變過程及其對電力負荷的延遲影響,顯著增強了數(shù)據(jù)集對復雜氣象-負荷關(guān)聯(lián)關(guān)系的刻畫能力,為模型提供了更深層次的時間依賴性信息,有效提升了負荷預測的時序感知精度與穩(wěn)健性。
47、優(yōu)選的,所述負荷特性因子用于刻畫電力負荷自身的歷史行為模式與統(tǒng)計特性,包括:
48、時序動量因子,用于衡量負荷在過去一段時間內(nèi)的變化趨勢;
49、負荷波動因子,用于度量負荷在過去一段時間內(nèi)的波動程度;
50、節(jié)假日效應因子,用于量化節(jié)假日對負荷的影響;
51、負荷年同比因子,用于衡量當前負荷與歷史同期負荷的相對變化。
52、通過構(gòu)建時序動量因子、負荷波動因子、節(jié)假日效應因子及負荷年同比因子,該方案能夠從多維度深度刻畫電力負荷自身的內(nèi)在行為模式:時序動量因子有效捕捉負荷的短期變化趨勢,負荷波動因子量化其歷史波動強度,節(jié)假日效應因子精準分離特殊日期的影響,而年同比因子則揭示負荷的長期周期性規(guī)律,從而全面增強了數(shù)據(jù)集中負荷序列的時序特征表征能力,為預測模型提供了豐富的歷史依賴與周期先驗信息,顯著提升了模型對負荷動態(tài)演化規(guī)律的學習能力與預測精度。
53、優(yōu)選的,步驟s5包括:
54、從電力數(shù)據(jù)集中挑選n組時序數(shù)據(jù)作為參考源,對電力負荷時序數(shù)據(jù)和公共數(shù)據(jù)集中的目標時序數(shù)據(jù)進行標準化處理,得到歸一化的目標序列、,計算公式如下:
55、
56、
57、其中,表示第j個電力負荷數(shù)據(jù)目標序列t時刻均一化后的值,表示第i個公開數(shù)據(jù)目標序列t時刻均一化后的值, 、分別為第j個電力負荷時序數(shù)據(jù)的均值和標準差, 、分別為第i個目標時序數(shù)據(jù)的均值和標準差;
58、分別計算第j個電力負荷時序數(shù)據(jù)與第i個目標時序數(shù)據(jù)之間的相似度指標,所述相似度指標包括動態(tài)時間規(guī)整相似度、皮爾遜相關(guān)系數(shù)相似度、余弦相似度和傅里葉譜相似度:
59、
60、其中,表示動態(tài)時間規(guī)整距離,為可調(diào)縮放因子;
61、
62、
63、其中,、分別對應第j個電力負荷時序數(shù)據(jù)和第i個目標時序數(shù)據(jù)歸一化后的均值;、分別對應第j個電力數(shù)據(jù)和第i個公開數(shù)據(jù)目標序列t時刻歸一化后的值;
64、
65、其中,和分別為目標序列、快速傅里葉變換后在頻率f處的頻譜值,f為頻率分量個數(shù);
66、對各相似度指標的計算結(jié)果取中位數(shù),并采用加權(quán)融合方式構(gòu)建統(tǒng)一的相似度指標:
67、
68、其中,α、β、γ、δ為各相似度指標權(quán)重,且α+β+γ+δ=1,各權(quán)重為預設(shè)或通過訓練學習得到。
69、通過采用標準化處理消除數(shù)據(jù)量綱影響,并綜合運用動態(tài)時間規(guī)整、皮爾遜相關(guān)系數(shù)、余弦相似度和傅里葉譜相似度等多維度度量方法,能夠全面捕捉電力負荷序列與多源公共時序數(shù)據(jù)之間在時域波形、線性相關(guān)性、向量夾角及頻域特征等多個層面的復雜關(guān)聯(lián)模式;通過中位數(shù)統(tǒng)計與自適應加權(quán)融合策略構(gòu)建的統(tǒng)一相似度指標,有效增強了相似度度量的魯棒性與判別能力,從而精準篩選出與電力負荷具有潛在物理機制關(guān)聯(lián)或統(tǒng)計規(guī)律相似的跨域數(shù)據(jù),顯著擴充了訓練數(shù)據(jù)的多樣性與代表性,為后續(xù)構(gòu)建高性能電力時序預測模型提供了豐富且高質(zhì)量的多源異構(gòu)預訓練數(shù)據(jù)基礎(chǔ)。
70、優(yōu)選的,步驟s7所述的計算所述待處理數(shù)據(jù)集中每一條時序數(shù)據(jù)的權(quán)重,形成權(quán)重映射集weight_map包括:
71、計算待處理數(shù)據(jù)集中每一個數(shù)據(jù)子集bn的目標字段長度,若目標字段是多維數(shù)組,將其第一行展平后的長度計為該數(shù)據(jù)子集長度,若為一維結(jié)構(gòu),則直接提取長度;
72、依據(jù)數(shù)據(jù)子集名稱的前綴信息或來源將其劃分為預設(shè)的多個數(shù)據(jù)來源組,對同屬一個數(shù)據(jù)來源組的所有目標字段長度向量進行拼接,構(gòu)成每個組dk的總體長度向量并對各數(shù)據(jù)子集進行歸一化處理,得到各數(shù)據(jù)子集在組內(nèi)的采樣權(quán)重:
73、
74、式中,表示dk數(shù)據(jù)組中第n個數(shù)據(jù)子集長度,表示dk數(shù)據(jù)組中所有數(shù)據(jù)子集長度之和;
75、對每個數(shù)據(jù)來源組計算其目標字段長度總和并進行歸一化處理,得到組采樣權(quán)重:
76、
77、式中,表示dk數(shù)據(jù)組總長度,表示di數(shù)據(jù)組總長度,k表示共有k個數(shù)據(jù)組;
78、對所述組采樣權(quán)重進行裁剪處理,使其最大值不超過設(shè)定閾值ε,并對裁剪后的比例向量再次歸一化,得到標準化采樣權(quán)重:
79、
80、式中,表示dk數(shù)據(jù)組采樣權(quán)重與設(shè)定閾值ε的最小值,表示di數(shù)據(jù)組采樣權(quán)重與設(shè)定閾值ε的最小值,k表示共有k個數(shù)據(jù)組;
81、所述閾值ε滿足:
82、
83、其中,min(bn)表示數(shù)據(jù)子集bn的最小值,max(bn)表示數(shù)據(jù)子集bn的最大值,median(bn)表示數(shù)據(jù)子集bn的中位數(shù);
84、基于每個數(shù)據(jù)來源組中包含的數(shù)據(jù)子集個數(shù),對標準化采樣權(quán)重進行反比例抽樣,得到各組的再加權(quán)因子:
85、
86、式中,表示統(tǒng)計dj數(shù)據(jù)組中數(shù)據(jù)子集個數(shù),k表示共有k個數(shù)據(jù)組,表示統(tǒng)計dk數(shù)據(jù)組中數(shù)據(jù)子集個數(shù),為標準化采樣權(quán)重;
87、根據(jù)數(shù)據(jù)子集所屬分組的再加權(quán)因子及該數(shù)據(jù)子集在組內(nèi)的采樣權(quán)重,分配生成每個數(shù)據(jù)子集的最終加權(quán)系數(shù),形成權(quán)重集weight_map:
88、
89、式中,為各組的再加權(quán)因子,為各數(shù)據(jù)子集在組內(nèi)的采樣權(quán)重。
90、通過計算數(shù)據(jù)子集長度并依據(jù)來源分組,實現(xiàn)了從個體到組群的多層級精細化權(quán)重分配;通過組內(nèi)長度歸一化與組間總長歸一化相結(jié)合的雙重加權(quán)機制,既考慮了單個時序數(shù)據(jù)的信息含量,又平衡了不同數(shù)據(jù)來源組的整體貢獻;引入閾值裁剪與再加權(quán)因子有效抑制了極端長度或樣本數(shù)量失衡帶來的偏差,確保了采樣權(quán)重的公平性與穩(wěn)定性;最終生成的權(quán)重映射集能夠精準量化異構(gòu)數(shù)據(jù)集中每條時序數(shù)據(jù)的相對重要性,為動態(tài)采樣提供了科學依據(jù),從而顯著提升了預訓練數(shù)據(jù)集的均衡性與代表性,增強了模型從多源數(shù)據(jù)中學習通用規(guī)律的能力。
91、第二方面,本發(fā)明所述的電力時序預測數(shù)據(jù)集構(gòu)建系統(tǒng),包括:
92、多源數(shù)據(jù)采集模塊,用于獲取來自電力傳感器、調(diào)度中心、用戶終端及天氣預報系統(tǒng)的電力負荷數(shù)據(jù)與天氣數(shù)據(jù),構(gòu)成電力數(shù)據(jù)集;從公開數(shù)據(jù)源獲取涵蓋能源、氣象、交通及金融領(lǐng)域的多源時序數(shù)據(jù),構(gòu)成公共數(shù)據(jù)集;
93、數(shù)據(jù)對齊與清洗模塊,用于對所述電力數(shù)據(jù)集中的時序數(shù)據(jù),依據(jù)時間戳對齊電力負荷數(shù)據(jù)與天氣數(shù)據(jù),檢測其中的突變值及連續(xù)恒定值,通過填充或丟棄完成數(shù)據(jù)清洗;
94、統(tǒng)一格式轉(zhuǎn)換模塊,用于將清洗后的電力數(shù)據(jù)集中的數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一格式,所述統(tǒng)一格式包含的特征字段包括:目標target、開始時間start、時序頻率freq及數(shù)據(jù)編號item_id;可選特征字段包括:動態(tài)協(xié)變量feat_dynamic_real和靜態(tài)協(xié)變量feat_static_real中的零種、一種或兩種;所述的動態(tài)協(xié)變量包括以下三類特性因子:節(jié)假日特性因子、氣象特性因子和負荷特性因子;
95、特征提取與融合模塊,用于對所述電力數(shù)據(jù)集與公共數(shù)據(jù)集的數(shù)據(jù)的目標值進行歸一化處理,提取其時頻特征,包括均值、方差及傅里葉變換系數(shù);對多源數(shù)據(jù)進行特征融合,包括節(jié)假日特性因子、氣象特性因子和負荷特性因子,形成多維度、時序關(guān)聯(lián)性強的特征集。
96、相似度計算與篩選模塊,用于計算電力數(shù)據(jù)集與公共數(shù)據(jù)集中各時序數(shù)據(jù)序列之間的相似度指標;依據(jù)所述相似度指標,基于預設(shè)的相似度閾值從公共數(shù)據(jù)集中篩選出與電力負荷具有顯著相關(guān)性的數(shù)據(jù),與電力數(shù)據(jù)集共同組成待處理數(shù)據(jù)集;
97、動態(tài)采樣加權(quán)模塊,用于采用動態(tài)采樣加權(quán)方法,計算所述待處理數(shù)據(jù)集中每一條時序數(shù)據(jù)的權(quán)重,形成權(quán)重映射集weight_map;
98、異構(gòu)數(shù)據(jù)集生成模塊,用于依據(jù)所述權(quán)重映射集設(shè)定采樣頻率,最終構(gòu)建得到用于電力時序大模型預訓練與微調(diào)的異構(gòu)電力時序數(shù)據(jù)集。
99、第三方面,本發(fā)明還提供一種計算機設(shè)備,包括存儲器和處理器,所述存儲器上存儲有能夠被處理器加載并執(zhí)行所述的電力時序預測數(shù)據(jù)集構(gòu)建方法的計算機程序。
100、第四方面,本發(fā)明還提供一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)所述的電力時序預測數(shù)據(jù)集構(gòu)建方法。
101、有益效果:與現(xiàn)有技術(shù)相比,本發(fā)明具有如下顯著優(yōu)點:1、通過整合多源異構(gòu)數(shù)據(jù),構(gòu)建統(tǒng)一的標準化數(shù)據(jù)格式,并基于時間戳對齊與多源數(shù)據(jù)融合,顯著提高了數(shù)據(jù)的一致性和可用性,提升了數(shù)據(jù)融合效率與模型泛化能力;2、結(jié)合多種統(tǒng)計方法與邏輯判斷機制(如3σ法、四分位距法、滑動窗口檢測等)進行異常值識別與分級清洗,并通過插值、平滑、預測等多種方法處理缺失數(shù)據(jù),有效增強數(shù)據(jù)的完整性與準確性;3、通過多指標融合的相似度計算篩選出與電力負荷高度相關(guān)的公共數(shù)據(jù),并采用動態(tài)采樣加權(quán)策略,實現(xiàn)對不同來源數(shù)據(jù)的合理加權(quán)與均衡采樣,避免訓練過程中的偏差,提升模型的泛化能力和預測穩(wěn)定性;4、通過引入動態(tài)與靜態(tài)協(xié)變量字段,涵蓋氣象、節(jié)假日、負荷特性等多類特征因子,并結(jié)合頻域與時域特征提取,形成結(jié)構(gòu)統(tǒng)一、信息豐富、便于擴展的預訓練與微調(diào)數(shù)據(jù)集,支持電力時序大模型的高精度訓練與應用。