少妇精品无码一区二区免费视频_69堂亚洲国产日韩精品无码专区成人妻中文字幕一区二区三区在线久久久久_无套内谢少妇毛片A片樱花

浙江國檢檢測

首頁 檢測百科

分享:基于Apriori算法的失效分析案例文本挖掘方法

2025-08-29 14:07:26 

失效分析是對產(chǎn)品故障進行系統(tǒng)化分析和研究的過程,涉及工程學、材料科學、計算機科學等多個領(lǐng)域[1]。失效分析工程師通過對失效部件的服役環(huán)境、工藝類型及斷口特征等多種關(guān)鍵因素進行綜合分析,找到失效的根本原因,并制定有效的預防和改進措施[2]。有效的失效分析對提高產(chǎn)品的可靠性和安全性具有重要意義,其廣泛應用于航空、航天、航海、汽車制造、電子設(shè)備和醫(yī)療器械等多個領(lǐng)域。近年來,對產(chǎn)品的可靠性要求日益提高,同時產(chǎn)品的功能、結(jié)構(gòu)、受力、服役環(huán)境等越來越復雜,傳統(tǒng)的人工失效分析方法難以從大量數(shù)據(jù)中找到失效的關(guān)鍵因素,以及因素間的耦合關(guān)系,且人工法受專家經(jīng)驗的影響較大[3],分析過程須耗費大量精力。

為了應對失效分析不斷增大的復雜性,自然語言處理和數(shù)據(jù)挖掘等技術(shù)成為提高失效原因診斷效率的有效手段,近年來該技術(shù)在失效分析領(lǐng)域得到廣泛應用。隨著失效分析工作的逐年開展,失效分析案例逐漸增多,蘊含的數(shù)據(jù)價值不斷顯現(xiàn)。應用自然語言處理技術(shù)對大量失效分析文檔進行文本挖掘,提取文本特征,并結(jié)合各類數(shù)據(jù)挖掘方法對文本特征進行分析,對識別失效模式和潛在失效風險等極具應用價值[4]。LIU等[5]應用自然語言處理技術(shù)對管道事故敘述文本數(shù)據(jù)進行文本挖掘,并結(jié)合K-means聚類分析方法,識別造成管道事故的影響因素,為管道系統(tǒng)的維護和安全管理提供了科學依據(jù)。HALIM等[6]綜合分析了多個管道事故數(shù)據(jù)庫,開發(fā)了一種基于大數(shù)據(jù)和機器學習技術(shù)的因果模型,揭示了不同因素之間的復雜關(guān)系,研究成果在提高管道事故風險預測準確性等方面具有重要作用。CHOKOR等[7]對建筑領(lǐng)域大量事故報告進行文本挖掘,采用聚類分析方法對建筑事故報告類別進行劃分,提高了事故報告的處理效率。楊曉等[8]設(shè)計并建立了船舶系統(tǒng)典型材料失效分析案例數(shù)據(jù)庫,通過對船舶系統(tǒng)失效案例的多層級分類,提高了失效分析工程師獲取信息的效率。

關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘領(lǐng)域中的重要研究課題之一,其在發(fā)現(xiàn)事物間隱藏關(guān)聯(lián)關(guān)系的數(shù)據(jù)挖掘場景下具有良好的表現(xiàn)。失效原因排查及診斷過程涉及的失效因素種類多,各因素間相互影響[9]。應用關(guān)聯(lián)規(guī)則對失效分析案例數(shù)據(jù)進行分析、挖掘,形成失效分析關(guān)聯(lián)知識并保存,對產(chǎn)品失效原因的推理具有重要意義。

然而,自然語言處理和數(shù)據(jù)挖掘等技術(shù)在失效分析領(lǐng)域起步較晚,且聚焦在具體的領(lǐng)域,如管道事故、換流站故障[10],以及軌道電路故障等,缺少可以覆蓋不同類型應用場景的統(tǒng)一模型框架,且現(xiàn)有研究對失效文本的挖掘方法通常為聚類分析、神經(jīng)網(wǎng)絡等,這些方法對分析結(jié)果的可解釋性較差,不利于對產(chǎn)品失效原因進行推理[11]。與此同時,現(xiàn)有的關(guān)聯(lián)規(guī)則挖掘研究大多與算法效率提升有關(guān),較少研究失效案例分析與應用的改進方法[12]。因此,在失效分析領(lǐng)域,如何根據(jù)失效案例數(shù)據(jù)的實際特點及結(jié)構(gòu),結(jié)合自然語言處理技術(shù),應用關(guān)聯(lián)規(guī)則挖掘方法實現(xiàn)失效分析案例的分析挖掘,建立失效因素關(guān)聯(lián)路徑,輔助提高失效原因排查的效率、準確性,成為亟待解決的問題。

針對在復雜應用場景下,傳統(tǒng)失效分析技術(shù)難以在大量數(shù)據(jù)中發(fā)現(xiàn)失效因素和失效原因間潛在關(guān)系的問題,筆者提出了一種結(jié)合自然語言處理技術(shù)、關(guān)聯(lián)規(guī)則挖掘算法的失效分析案例文本挖掘方法,同時發(fā)明了基于Apriori算法的兩階段失效分析案例文本關(guān)聯(lián)規(guī)則挖掘方法,建立了失效分析案例文本挖掘方法框架;對某船舶單位的失效案例文本進行了有效驗證,研究結(jié)果對產(chǎn)品失效原因診斷和故障作用機制解釋方面具有重要的輔助借鑒作用。

結(jié)合失效分析工程師的實際工作過程、失效分析案例的數(shù)據(jù)特征及其結(jié)構(gòu),提出失效分析案例挖掘方法(見圖1)。該方法用于提取失效因素、失效模式,以及失效原因間的關(guān)聯(lián)規(guī)則,挖掘失效因素至失效原因間的傳播路徑,可為現(xiàn)場設(shè)備失效分析輔助診斷及預防提供決策支持。

圖 1失效分析案例文本挖掘方法框架示意

首先,對失效分析案例文本數(shù)據(jù)進行預處理,結(jié)合構(gòu)建的失效分析行業(yè)領(lǐng)域的專業(yè)詞典,采用分詞處理方法初步去除無意義詞項,得到分詞處理后的失效分析案例文本數(shù)據(jù)。其次,對于分詞處理后的失效分析案例文本數(shù)據(jù),基于TF(詞頻)-IDF(逆文檔頻率)算法進行文本特征提取,轉(zhuǎn)換為詞項文本矩陣,獲取案例文本的關(guān)鍵詞及其對應的權(quán)重。然后,基于Apriori算法分兩個階段對詞項文本矩陣進行關(guān)聯(lián)分析,挖掘頻繁項集及關(guān)聯(lián)規(guī)則。最后,基于失效分析案例文本關(guān)聯(lián)分析結(jié)果,建立失效因素及失效原因間的傳播路徑,輔助失效分析人員現(xiàn)場診斷。

構(gòu)件的失效是多種因素共同或耦合作用的結(jié)果[13],因此案例中對失效原因的描述涉及多種類型的因素,且不同案例中同一類型失效原因相關(guān)聯(lián)的因素特征不盡相同。

結(jié)合失效分析領(lǐng)域?qū)I(yè)知識及失效原因排查分析邏輯,對失效分析案例的知識結(jié)構(gòu)進行結(jié)構(gòu)化,建立“失效因素-失效模式-失效原因”三級知識結(jié)構(gòu)(見圖2)。其中,失效模式可由一組失效因素確定,基于確定的失效模式,結(jié)合其他失效因素的特征,可推斷出構(gòu)件的失效原因。不同失效案例涉及的失效因素、失效模式、失效原因不同。

圖 2“失效因素-失效模式-失效原因”三級知識結(jié)構(gòu)示意

為了減小失效案例文本記錄不規(guī)范及同義詞對特征提取的影響,降低文本表示后的特征向量維度,提高關(guān)聯(lián)規(guī)則挖掘質(zhì)量,筆者結(jié)合各類構(gòu)件的失效案例,對其失效因素、失效模式、失效原因3個類別下的具體特征進行標準化特征分類,結(jié)果如表1所示。

Table 1.失效分析案例標準化特征分類

以失效因素為例,部分標準化的特征名稱如表2所示。

Table 2.失效因素部分標準化特征名稱

針對失效分析案例文本特點,主要進行以下預處理工作。

(1)文本清洗。通過分析失效分析案例文本結(jié)構(gòu),發(fā)現(xiàn)案例一般由前言、背景、來樣情況、試驗儀器、試驗結(jié)果(宏觀分析、微觀分析、化學成分分析及力學性能測試等)、分析與討論、結(jié)論等部分組成,各部分內(nèi)容具有半結(jié)構(gòu)化的特點,人工編寫正則表達式,對其進行清理,例如來樣情況的提取,范式為:\n\d{0,1}.{0,3}( :來樣|前言|背景).+\n2.{0,4}\n。

(2)文本分詞及去停用詞??紤]到失效分析案例文本包含大量專業(yè)詞匯,為避免專業(yè)詞匯無法被準確識別導致的分詞結(jié)果不滿足后續(xù)文本挖掘需求情況,構(gòu)建失效分析專業(yè)詞庫及停用詞詞庫(見圖3)。其中失效分析專業(yè)詞庫主要包含各專業(yè)部門設(shè)備名稱及專業(yè)術(shù)語,通用詞庫包含了用于去除文本中無意義項的停用詞庫及語義詞庫。

圖 3失效分析專業(yè)詞庫及停用詞詞庫結(jié)構(gòu)示意

基于失效分析案例文本的分詞結(jié)果,應用TF-IDF算法進行文本特征提取,建立失效分析案例文本特征向量。

失效分析案例可被表示為一個規(guī)范化的特征向量,該特征向量由特征項及其對應的權(quán)重構(gòu)成,其計算方法如式(1)所示。

式中:wi為文檔d的特征項,i=1,2,3,…;n為特征項的數(shù)量;αi為特征項wi在文檔d中的權(quán)重。

其中需要注意的是,對于失效案例文本,特征項wi由失效因素集A、失效模式集B、失效原因集C構(gòu)成,其計算方法如式(2)所示。

??={?a?,[?[1,?),?[1,?)]?b?,[?[?,?),?[1,?-?+1)]?c?,[?[?,?],?[1,?-?+1)] (2)

式中:waj∈A,wbj∈B,wcj∈C,j=1,2,3,…;m為常量;k為常量。

對于構(gòu)成失效分析案例文本特征向量的特征項,關(guān)注失效因素、失效模式與失效原因在每篇文檔中的權(quán)重表現(xiàn),其中失效原因和失效模式在每篇案例中是二值變量,權(quán)值為{0,1},即當該案例的失效原因為wcq時,該特征項對應的權(quán)值計算方法如式(3)所示。

??=?a?={1,?=?0,?? (3)

式中:q為常量。

失效模式集B中的特征項權(quán)值取值原則與失效原因相同。

對于構(gòu)成失效分析案例特征項的失效因素集,其對應的權(quán)值可采用TF-IDF方法獲得。傳統(tǒng)TF-IDF包含詞頻和逆文檔頻率兩部分,該方法得到的TI值越大,說明詞項攜帶的信息量越大,對于所在文本可認為該詞項越關(guān)鍵,因此所有詞項及其TI值可構(gòu)成所在文檔特征向量。

傳統(tǒng)TF-IDF方法是以所有案例文本為基數(shù)計算逆文檔頻率I,然而對于不同失效模式,各失效因素對其影響的程度不同,以所有案例文本為基數(shù)計算各失效因素的I值無法體現(xiàn)其在某種失效模式下的重要性。因此對于失效分析案例,首先按失效模式對文檔進行分類,分別計算在不同失效模式下失效因素的TI值,將其作為其在每篇文檔中的權(quán)值,計算方法如式(4)所示。

式中:T(i,j)為文本j中第i個詞的詞頻,反映詞語在某文檔中的出現(xiàn)頻率,出現(xiàn)頻率越高,其值越大;I(ib)為第i個詞在失效模式為b的案例集中的逆文檔頻率,反映是否對文檔具有區(qū)分性,詞語在不同文檔中出現(xiàn)的次數(shù)越多,I值越小。

I值的計算方法如式(5)所示。

式中:nb為失效模式b的案例集中文本總數(shù);D(ib)為失效模式b的案例集中包含詞i的文本數(shù)。

關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘最為關(guān)鍵的分支之一,關(guān)聯(lián)規(guī)則挖掘是指在大量的數(shù)據(jù)集中識別和挖掘出事物間隱含的關(guān)聯(lián)關(guān)系及依存規(guī)律[14]。通過對歷史失效分析案例的挖掘,可以進一步發(fā)現(xiàn)失效因素、失效模式,以及失效原因之間的關(guān)聯(lián)關(guān)系,輔助分析失效因素與失效原因之間的傳播路徑,實現(xiàn)產(chǎn)品失效原因推理的解耦。

常見的關(guān)聯(lián)規(guī)則挖掘算法包括Apriori、FP-Growth及Eclat等。其中,Apriori算法是最常見的基于頻繁項集的關(guān)聯(lián)規(guī)則挖掘算法,其遞歸地生成候選項集,并利用剪枝策略來減少計算量[15]。相較于其他關(guān)聯(lián)規(guī)則算法,Apriori算法簡單易懂,且適合于中小型數(shù)據(jù)集或?qū)山忉屝砸筝^高的應用場景。因此,考慮到失效分析案例挖掘數(shù)據(jù)規(guī)模和關(guān)聯(lián)路徑解耦的應用需求,筆者采用Apriori算法實現(xiàn)對失效分析案例的分析挖掘。

基于失效分析案例文本挖掘方法框架,結(jié)合失效分析實際應用場景,提出了基于Apriori算法的兩階段失效分析文本關(guān)聯(lián)規(guī)則挖掘方法,并以某船舶單位的失效分析案例為應用場景,對該方法進行了應用驗證。

由失效原因、失效模式、失效因素及其對應權(quán)重構(gòu)成的失效分析案例特征矩陣具有高維、稀疏的數(shù)據(jù)特征,直接應用Apriori算法對其進行關(guān)聯(lián)規(guī)則挖掘,挖掘出的關(guān)聯(lián)規(guī)則多為本身即具有強關(guān)聯(lián)特性的失效分析領(lǐng)域知識,如關(guān)聯(lián)規(guī)則“疲勞裂紋→疲勞斷裂”,不能挖掘出更多潛在的關(guān)聯(lián)關(guān)系。因此,結(jié)合實際的失效分析問題排查邏輯,基于“失效因素-失效模式-失效原因”三級的知識結(jié)構(gòu),可以分兩個階段對失效分析詞項文本矩陣進行頻繁集檢索,實現(xiàn)降低每個階段特征維度,提高挖掘效果。

建立了兩階段失效分析文本關(guān)聯(lián)規(guī)則挖掘方法,通過“失效因素→失效模式”關(guān)聯(lián)規(guī)則挖掘、“失效模式+失效因素→失效原因”關(guān)聯(lián)規(guī)則挖掘兩個階段,對失效分析文本特征矩陣進行關(guān)聯(lián)規(guī)則分析,輔助挖掘建立失效因素和失效原因間的傳播路徑。

步驟1:按失效模式對失效分析文本進行分組,分別計算各失效因素在不同分組下的I值,以及各失效因素在不同文本中的I值,得到不同失效模式下各失效文本中失效因素的TI值,將其作為各文本的特征向量。

步驟2:對于獲得的不同失效模式下各文本的失效因素特征值矩陣,對其進行二值化處理,即設(shè)定特征閾值αmin,當失效因素特征值αi>αmin時,特征值α1取為1;當失效因素特征值αi<αmin時,特征值α1取為0。

步驟3:設(shè)定支持度閾值Smin,應用Apriori算法分別挖掘各失效模式下頻繁項集及其支持度。其中,頻繁項集是失效因素集合的子集。

步驟4:對于步驟3生成的頻繁失效因素集,計算各失效模式下,頻繁失效因素集的置信度,即失效因素集中所有失效因素發(fā)生時,該失效模式發(fā)生的概率。設(shè)定置信度閾值Cmin,置信度大于Cmin的失效因素集與失效模式構(gòu)成一組強關(guān)聯(lián)規(guī)則,即關(guān)聯(lián)規(guī)則為失效因素集→失效模式。

步驟1:對于各失效模式,建立剩余失效分析特征矩陣,該矩陣元素由剩余失效因素集、失效原因集及對應權(quán)重構(gòu)成。其中,剩余失效因素集為失效因素全集與該失效模式的頻繁失效因素集的差集。

步驟2:設(shè)定支持度閾值Smin,應用Apriori算法分別挖掘剩余失效分析特征矩陣中的頻繁項集及其支持度。其中,頻繁項集由3個部分組成,即{失效模式wa,剩余失效因素集Bothers,失效原因wc}。

步驟3:對于步驟2生成的頻繁項集,計算失效模式與剩余失效因素集對于失效原因的置信度,即在失效模式wa下,特定剩余失效因素Bothers發(fā)生時,構(gòu)件的失效原因是wc的概率。設(shè)定置信度閾值Cmin,置信度大于Cmin的失效因素集與失效模式構(gòu)成一組強關(guān)聯(lián)規(guī)則,即關(guān)聯(lián)規(guī)則為{失效模式wa,剩余失效因素集Bothers}→失效原因wc。

基于“失效因素→失效模式”關(guān)聯(lián)規(guī)則挖掘、“失效模式+失效因素→失效原因”關(guān)聯(lián)規(guī)則挖掘兩個階段生成的關(guān)聯(lián)規(guī)則,可繪制失效因素-失效模式-失效原因影響路徑及權(quán)重的可視化圖,輔助進行失效原因診斷。

分析數(shù)據(jù)來源于某船舶公司2016—2024年的失效案例文本。由于失效原因、失效模式及失效元素涉及范圍較廣,筆者僅以失效模式為疲勞斷裂的554個失效分析案例為例,進行關(guān)聯(lián)規(guī)則挖掘。試驗模型采用Python3.2語言及scikit-learn庫實現(xiàn)。

首先,對失效分析案例數(shù)據(jù)進行標準化,建立包含表1表2內(nèi)容的失效分析特征分類和特征標準化的專業(yè)詞庫,詞庫包含16個特征分類,以及184個標準化特征,結(jié)果如表3所示。

Table 3.失效分析案例特征分布

基于以上標準化詞庫,使用正則表達式對失效分析案例文本進行提取、分詞,并對分詞后的失效分析案例文本數(shù)據(jù),應用TF-IDF算法進行文本特征提取,獲得疲勞斷裂失效模式下各案例文本的詞項文本矩陣,獲取各失效因素在不同案例文本中的特征權(quán)重。

基于權(quán)重矩陣,使用前述基于Apriori算法的兩階段失效分析文本關(guān)聯(lián)規(guī)則挖掘方法進行關(guān)聯(lián)規(guī)則挖掘。進行挖掘前,需要設(shè)定合適的最小支持度,其設(shè)定值關(guān)系到挖掘得到的關(guān)聯(lián)規(guī)則是否具有實際意義和應用效果。選擇最小支持度有多種方法,采用以項集平均支持度為基準,在支持度標準偏差允許的范圍內(nèi),通過若干次最小值支持度閾值調(diào)整的方法,選擇能得到適中頻繁項集的結(jié)果[16]

對于第一階段“失效因素→失效模式”關(guān)聯(lián)規(guī)則挖掘,在本算例中首先將特征閾值αmin設(shè)定為0.01,對特征矩陣進行二值化處理,并將最小支持度Smin設(shè)定為0.025,最小置信度Cmin設(shè)定為0.35,對二值化處理后的特征矩陣進行關(guān)聯(lián)規(guī)則挖掘,并篩選出后項中各個狀態(tài)置信度最高的“失效因素-失效模式”強關(guān)聯(lián)規(guī)則,結(jié)果如表4所示。

Table 4.“失效因素-失效模式”強關(guān)聯(lián)規(guī)則

對于得到的“失效因素-失效模式”強關(guān)聯(lián)規(guī)則,以“失效因素-確定-失效模式”三元組為基本組成單位,建立失效分析知識圖譜。“失效因素-確定-失效模式”知識圖譜如圖4所示,其中淺色圓形實體為失效因素,深色圓形實體為失效模式,箭頭方向及對應權(quán)重代表失效因素發(fā)生時,其對所指向的失效模式發(fā)生的支持度和置信度。

圖 4“失效因素-確定-失效模式”知識圖譜

對于第二階段“失效模式+失效因素→失效原因”關(guān)聯(lián)規(guī)則挖掘,在本算例中將最小支持度Smin設(shè)定為0.025,最小置信度Cmin設(shè)定為0.35,對特征矩陣進行關(guān)聯(lián)規(guī)則挖掘,并篩選出后項中各個狀態(tài)置信度最高的“失效模式+失效因素→失效原因”強關(guān)聯(lián)規(guī)則,結(jié)果如表5所示。

Table 5.“失效模式+失效因素→失效原因”強關(guān)聯(lián)規(guī)則

對于得到的“失效模式+失效因素→失效原因”強關(guān)聯(lián)規(guī)則,以“失效模式+失效因素-推斷-失效模式”三元組為基本組成單位,在已建立的失效分析知識圖譜中引入新數(shù)據(jù)、補充實體關(guān)系和屬性。“失效模式+失效因素-推斷-失效模式”知識圖譜如圖5所示,其中淺色小圓形實體為失效因素,深色大圓形實體為失效模式,深色小圓形代表箭頭關(guān)聯(lián)的失效因素、失效模式的組合;淺色大圓形為失效原因,深色小圓形箭頭方向及對應權(quán)重代表其對應失效因素、失效模式同時發(fā)生時,對所指向失效原因發(fā)生的支持度和置信度。

圖 5“失效模式+失效因素-推斷-失效模式”知識圖譜

通過上述試驗,獲得了疲勞斷裂模式下由失效因素、失效模式、失效原因構(gòu)成的頻繁項集及關(guān)聯(lián)規(guī)則,并采用知識圖譜的方式,對關(guān)聯(lián)規(guī)則進行存儲,建立了失效因素及失效原因間的可視化傳播路徑。將失效分析知識圖譜應用于失效原因輔助診斷場景,可輔助產(chǎn)品失效原因推理的解耦,提高診斷效率。

針對產(chǎn)品失效分析復雜性高、分析效率低且過于依賴專家經(jīng)驗的問題,應用自然語言處理及數(shù)據(jù)挖掘等技術(shù),提出了一種基于Apriori算法的失效分析案例文本挖掘方法,該方法中包含失效分析案例文本預處理方法、基于TF-IDF算法的失效分析案例文本特征表示模型,以及基于Apriori算法的兩階段失效案例關(guān)聯(lián)分析方法3個主要部分。該方案通過對失效案例數(shù)據(jù)的實際特點及結(jié)構(gòu)進行深度分析,并應用關(guān)聯(lián)規(guī)則挖掘方法,分兩個階段實現(xiàn)了失效因素、失效模式、失效原因間的關(guān)聯(lián)路徑挖掘,建立了一種產(chǎn)品失效原因診斷和故障作用機制解釋的方法,該方法在輔助提高失效原因排查效率、準確性方面具有重要作用。

應用該方法對某船舶單位2016—2024年失效分析案例進行關(guān)聯(lián)規(guī)則挖掘,建立了失效分析領(lǐng)域標準化特征及疲勞斷裂失效模式下各特征在不同案例下的特征矩陣,并應用Apriori算法分兩個階段挖掘獲得疲勞斷裂模式下由失效因素、失效模式、失效原因構(gòu)成的頻繁項集及關(guān)聯(lián)規(guī)則。將挖掘獲得的關(guān)聯(lián)規(guī)則存儲在知識圖譜中,建立了失效因素及失效原因間的可視化傳播路徑。該方法對輔助產(chǎn)品失效原因推理的解耦、提高診斷效率具有良好的技術(shù)支撐作用。

關(guān)聯(lián)規(guī)則挖掘在發(fā)現(xiàn)數(shù)據(jù)中的模式方面具有強大的能力,但存在計算復雜度高,不適合處理高維、稀疏數(shù)據(jù)的問題。隨著失效分析案例的逐年增多,為了克服這些缺點,未來將結(jié)合神經(jīng)網(wǎng)絡等方法來提高其效果和效率。




文章來源——材料與測試網(wǎng)