(12)发明专利申请
(10)申请公布号 CN 110569867 A(43)申请公布日 2019.12.13
(21)申请号 201910636302.0(22)申请日 2019.07.15
(71)申请人 山东电工电气集团有限公司
地址 250101 山东省济南市高新开发区崇
华路16号
申请人 北京国网富达科技发展有限责任公
司
国网山东省电力公司青岛供电公司 国家电网有限公司(72)发明人 张万才 王毅 王兴勋 王健一
张坤 孙旭日 (74)专利代理机构 济南圣达知识产权代理有限
公司 37221
代理人 李琳
权利要求书2页 说明书7页 附图1页
(51)Int.Cl.
G06K 9/62(2006.01)G06Q 10/00(2012.01)G06Q 50/06(2012.01)
(54)发明名称
基于决策树算法的输电线路故障原因判别方法、介质及设备(57)摘要
本公开提供了一种基于决策树算法的输电线路故障原因判别方法、介质及设备,本公开在自动诊断基础上引入专家支持和人工干预对诊断结论进行核实及确认,实现线路故障诊断自动化和故障诊断全过程的可视化,从而减少运维工作人员工作量,解决了输电线路故障时人工判别故障原因的局限性以及数据样本少导致的人工智能应用不充分的问题。
CN 110569867 ACN 110569867 A
权 利 要 求 书
1/2页
1.一种基于决策树算法的输电线路故障原因判别方法,其特征是:包括以下步骤:(1)获取输电线路的用电数据,构建训练集和测试集,确定异常分析决策树的判定属性类别与特征属性,树以单个节点为根;
(2)对特征属性进行初步处理,使连续特征属性分段计算其信息增益,将连续特征属性离散化,在不同分类下,根据数量的聚集情况,取若干最佳分割点;
(3)以信息增益率的熵度量作为特征属性的启发信息,计算连续属性与离散属性的信息增益率;
(4)选择信息增益率最大的特征属性作为样本分类的特征属性,该特征属性成为节点的判定属性,对判定属性的每个已知的值创建一个分支,并据此将训练集进行分类;
(5)判断决策树是否满足停止生长条件,如果不满足则返回步骤(1),递归自上而下地形成每个归类上的样本决策树分枝,一旦一个属性出现在一个节点上,则该节点的子节点则消除这一特征属性,直至所有节点满足停止生长条件;
(6)对完全生长的决策树基于代价复杂性剪枝算法进行剪枝优化,依次剪去表面误差率增益值最低的子树;
(7)产生被剪枝的树后,使用测试集评估该决策树的准确率,若仍然有较多噪声数据存在,则返回步骤(6),最终获得到满足模型评估需求的一组剪枝决策树;
(8)利用该枝决策树对输电线路采集的用电数据进行处理,得到输电线路故障原因。2.如权利要求1所述的一种基于决策树算法的输电线路故障原因判别方法,其特征是:输电线路的用电数据来自用电信息采集系统,包括历史运维数据、设备台账数据和告警信息。
3.如权利要求1所述的一种基于决策树算法的输电线路故障原因判别方法,其特征是:在训练集中的异常运行与正常运行电能表的数量分别为p和n,以线路不同电压等级分类A作为决策树的根,假设子集Hi中含有Pi个故障输电线路和Ni个无故障的输电线路,计算子集Hi的信息熵,以属性A为根分类的信息熵,得到以A为根的信息增益以及信息增益率,遍历所有特征属性的信息增益率,选择使信息增益率最大的特征属性作为根节点,对根节点的不同取值对应的子集递归调用上述过程,生成决策树的子节点。
4.如权利要求1所述的一种基于决策树算法的输电线路故障原因判别方法,其特征是:对于特征属性的处理过程包括分割,计算相应的息增益率,采取分段多点进行分割,选取若干最佳点。
5.如权利要求1所述的一种基于决策树算法的输电线路故障原因判别方法,其特征是:基于信息增益率检验所有的特征属性,选择信息增益率最大的特征属性产生决策树节点,由该树节点的不同取值建立树分枝,对各分枝的训练子集递归,建立决策树的各节点与分枝,直到满足决策树生成停止条件。
6.如权利要求1所述的一种基于决策树算法的输电线路故障原因判别方法,其特征是:采用复杂性剪枝算法,对完全生长的决策树进行剪枝处理,通过删除节点的分枝,逐步剪去不可靠分枝。
7.如权利要求1所述的一种基于决策树算法的输电线路故障原因判别方法,其特征是:对通过特征属性分割策略生成的完全生长的决策树,计算树中的每一个子树的表面误差率增益值,选取表面误差率增益值最小的子树,将其生成的分支进行剪枝优化,当多个子树的
2
CN 110569867 A
权 利 要 求 书
2/2页
表面误差率增益值同时达到最小时,取子树生长的叶子节点数最大的进行剪枝,直到达到模型的评估需求为止。
8.如权利要求1所述的一种基于决策树算法的输电线路故障原因判别方法,其特征是:判断决策树的停止生长条件包括:
定节点的所有训练样本子集属于同一类;
没有剩余特征属性对训练样本子集进一步分类,则将该节点作为叶节点,并用训练样本子集中最多的类判为该叶节点的类。
9.一种计算机可读存储介质,其特征是:其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行权利要求1-8中任一项所述的一种基于决策树算法的输电线路故障原因判别方法。
10.一种终端设备,其特征是:包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行权利要求1-8中任一项所述的一种基于决策树算法的输电线路故障原因判别方法。
3
CN 110569867 A
说 明 书
1/7页
基于决策树算法的输电线路故障原因判别方法、介质及设备
技术领域
[0001]本公开属于电力系统故障诊断技术领域,涉及一种基于决策树算法的输电线路故障原因判别方法、介质及设备。背景技术
[0002]本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
[0003]输电线路故障类型识别对电力系统故障分析、故障定位以及继电保护有着重要的意义。目前,输电线路常见的故障类型主要包括雷击、覆冰、外力破坏、污闪等。电力物联网技术的发展提高了电网各个环节信息感知的深度和广度,数据多源且异构。传统的线路故障排查主要以人工巡视确定方式为主,跳闸发生时信息分散且无法及时汇总,大量的告警信息或异常信息难以确定是何种因素或多方面因素耦合效应引起的事故,仅凭运行人员的经验进行故障诊断,其快速性和正确性有所局限。[0004]近年来,将人工智能算法应用于输电线路故障识别中成为了国内外研究人员的研究热点,通过机器学习可自主训练出故障识别的模型。但由于故障样本很少,反映故障发生过程数据变化的样本更少,很难利用少量样本训练深度学习模型,制约了人工智能技术在输电线路设备状态评价和故障诊断中的应用。
发明内容
[0005]本公开为了解决上述问题,提出了一种基于决策树算法的输电线路故障原因判别方法、介质及设备,本公开在自动诊断基础上引入专家支持和人工干预对诊断结论进行核实及确认,实现线路故障诊断自动化和故障诊断全过程的可视化,从而减少运维工作人员工作量,解决了输电线路故障时人工判别故障原因的局限性以及数据样本少导致的人工智能应用不充分的问题。[0006]根据一些实施例,本公开采用如下技术方案:
[0007]一种基于决策树算法的输电线路故障原因判别方法,包括以下步骤:[0008](1)获取输电线路的用电数据,构建训练集和测试集,确定异常分析决策树的判定属性类别与特征属性,树以单个节点为根;[0009](2)对特征属性进行初步处理,使连续特征属性分段计算其信息增益,将连续特征属性离散化,在不同分类下,根据数量的聚集情况,取若干最佳分割点;[0010](3)以信息增益率的熵度量作为特征属性的启发信息,计算连续属性与离散属性的信息增益率;[0011](4)选择信息增益率最大的特征属性作为样本分类的特征属性,该特征属性成为节点的判定属性,对判定属性的每个已知的值创建一个分支,并据此将训练集进行分类;[0012](5)判断决策树是否满足停止生长条件,如果不满足则返回步骤(1),递归自上而下地形成每个归类上的样本决策树分枝,一旦一个属性出现在一个节点上,则该节点的子
4
CN 110569867 A
说 明 书
2/7页
节点则消除这一特征属性,直至所有节点满足停止生长条件;[0013](6)对完全生长的决策树基于代价复杂性剪枝算法进行剪枝优化,依次剪去表面误差率增益值最低的子树;[0014](7)产生被剪枝的树后,使用测试集评估该决策树的准确率,若仍然有较多噪声数据存在,则返回步骤(6),最终获得到满足模型评估需求的一组剪枝决策树;[0015](8)利用该枝决策树对输电线路采集的用电数据进行处理,得到输电线路故障原因。
[0016]作为进一步的限定,输电线路的用电数据来自用电信息采集系统,包括历史运维数据、设备台账数据和告警信息。[0017]作为进一步的限定,在训练集中的异常运行与正常运行电能表的数量分别为p和n,以线路不同电压等级分类A作为决策树的根,假设子集Hi中含有Pi个故障输电线路和Ni个无故障的输电线路,计算子集Hi的信息熵,以属性A为根分类的信息熵,得到以A为根的信息增益以及信息增益率,遍历所有特征属性的信息增益率,选择使信息增益率最大的特征属性作为根节点,对根节点的不同取值对应的子集递归调用上述过程,生成决策树的子节点。[0018]作为进一步的限定,对于特征属性的处理过程包括分割,计算相应的息增益率,采取分段多点进行分割,选取若干最佳点。[0019]作为进一步的限定,基于信息增益率检验所有的特征属性,选择信息增益率最大的特征属性产生决策树节点,由该树节点的不同取值建立树分枝,对各分枝的训练子集递归,建立决策树的各节点与分枝,直到满足决策树生成停止条件。[0020]作为进一步的限定,采用复杂性剪枝算法,对完全生长的决策树进行剪枝处理,通过删除节点的分枝,逐步剪去不可靠分枝。[0021]作为进一步的限定,对通过特征属性分割策略生成的完全生长的决策树,计算树中的每一个子树的表面误差率增益值,选取表面误差率增益值最小的子树,将其生成的分支进行剪枝优化,当多个子树的表面误差率增益值同时达到最小时,取子树生长的叶子节点数最大的进行剪枝,直到达到模型的评估需求为止。[0022]作为进一步的限定,判断决策树的停止生长条件包括:[0023]定节点的所有训练样本子集属于同一类;
[0024]没有剩余特征属性对训练样本子集进一步分类,则将该节点作为叶节点,并用训练样本子集中最多的类判为该叶节点的类。[0025]一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行所述的一种基于决策树算法的输电线路故障原因判别方法。[0026]一种终端设备,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行所述的一种基于决策树算法的输电线路故障原因判别方法。[0027]与现有技术相比,本公开的有益效果为:[0028]本公开利用决策树算法良好的分类效果,实现输电线路故障原因的识别,提高缺陷判别效率,降低了诊断算法的复杂性。[0029]本公开基于决策树算法,建立输电线路缺陷原因判别知识库,修正由于样本信息不完全造成的知识偏差,在自动诊断基础上引入专家支持和人工干预对诊断结论进行核实
5
CN 110569867 A
说 明 书
3/7页
及确认,实现线路故障诊断自动化和故障诊断全过程的可视化,从而减少运维工作人员工作量。
附图说明
[0030]构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。[0031]图1是本公开的系统流程图。
具体实施方式:
[0032]下面结合附图与实施例对本公开作进一步说明。[0033]应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本实施例使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。[0034]需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。[0035]如图1所示,一种基于决策树算法的输电线路故障原因判别方法,包括建立的决策树异常诊断模型的具体过程,在每次特征属性分割选择时,采取贪心算法,即每次选择分类时,只考虑当前利益最大化,并以递归法自顶而下的生成决策树,本实施例采取的决策树异常诊断模型主要针对输电线路故障类别进行诊断,具体步骤如下所示:[0036](1)确定异常分析决策树的判定属性类别与特征属性,树以单个节点为根开始;[0037](2)对特征属性进行初步处理,使连续特征属性分段计算其信息增益,取n处最大值作为其最佳分割点,从而将连续特征属性离散化,在不同分类下,根据数量的聚集情况,取若干处最佳分割点;[0038](3)以信息增益率的熵度量作为特征属性的启发信息,计算连续属性与离散属性的信息增益率;[0039](4)选择信息增益率最大的特征属性作为样本分类的特征属性,该特征属性成为节点的判定属性,对判定属性的每个已知的值创建一个分支,并据此将训练集进行分类;[0040](5)判断决策树是否满足以下停止生长条件[0041]①判定节点的所有训练样本子集属于同一类;
[0042]②没有剩余特征属性对训练样本子集进一步分类,则将该节点作为叶节点,并用训练样本子集中最多的类判为该叶节点的类;[0043]若判定节点不满足上述任意条件,则算法返回(1),递归自上而下地形成每个归类上的样本决策树分枝,一旦一个属性出现在一个节点上,则该节点的子节点则消除这一特征属性,直至所有节点满满足以上停止生长条件;[0044](6)对完全生长的决策树基于代价复杂性剪枝算法进行剪枝优化,依次剪去表面误差率增益值最低的子树;[0045](7)产生被剪枝的树后,使用一个的测试集评估该决策树的准确率,若仍然有
6
CN 110569867 A
说 明 书
4/7页
较多噪声数据存在,则返回步骤(6),最终获得到满足模型评估需求的一组剪枝决策树。[0046]具体的,决策树群异常诊断模型构建的关键是结点问题,即选取合适的特征属性将数据集进行分类。针对用电信息采集系统所提供的用电数据,其涉及的特征属性中含有大量的连续特征,故采用信息增益率来选择分割特征。假设在训练集中的异常运行与正常运行电能表的数量分别为p和n,通常一棵决策树能对一类异常状况做出类别分类所需的信息量为:
[0047]
如以线路不同电压等级分类A作为决策树的根,A具有V个值(v1,v2,…,vv),由此将
训练集分为v个子集(H1,H2,…,Hv),假设子集Hi中含有Pi个故障输电线路和Ni个无故障的输电线路,子集Hi的信息熵E(Hi)为:
[0049]
[0048]
[0050][0051][0052][0053][0054][0055][0056][0057]
以属性A为根分类的信息熵为:
故以A为根的信息增益为:
Gain(A)=I(p,n)-E(A) (4)信息增益率为:
其中,分割信息率Split(A)为:
决策树如上所述遍历所有特征属性的信息增益率,选择使Gain-Ratio(A)最大的
特征属性作为根节点,对根节点的不同取值对应的子集递归调用上述过程,生成决策树的子节点。
[0059]以连续特征属性投运年数和离散特征属性天气为例,采取如下流程实现特征属性分割:[0060](1)计算连续特征投运年数的信息增益率,对于较大数值区间的连续特征属性,本实施例采取分段多点计算其信息增益并作为其信息增益,同理分割信息率,进而获得其信息增益率,由于本例取部分较少数值,故仅取一个最佳点。[0061]①对投运年数的取值进行排序,如表1所示;[0062]表1投运年数部分排序
[0058]
7
CN 110569867 A
说 明 书
5/7页
[0063]
②投运年数对应的正常与故障类型之间的中点作为可能的点(即13和14.5),
以此将数据集分成四部分,计算每个可能的点的信息增益;[0065]③如表1所示,本表所呈现的最佳点为14.5,计算参见式(1)~式(5),以13为点的信息增益为0.41,以14.5点的信息增益为0.55;
[0066]
[00]
④对每个点的信息增益进行修正,即减去其中N为可能的点个
数即为2,|D|是数据集大小即为6,故修正值为-3.6,由于两个点修正值相等,故以13为点的修正信息增益为3.01,以14.5点的修正信息增益为3.05;[0067]⑤通过比较可得,投运年数的最佳点为14.5,计算最佳点的信息增益率作为投运年数的信息增益率,其中,按照公式(5)所示,分割信息率为0.,故连续特征属性投运年数的信息增益率为3.4。[0068](2)计算离散特征天气[0069]如上表所示,由式(1)~式(5)可得,天气分类信息量为0.,信息熵为0,信息增益为0.,分割信息率为0,故此时获得的信息增益率正无穷;[0070](3)将连续特征属性同离散特征计算所得的信息增益率相比较,选择信息增益率最大的特征作为特征,由上述数值比较选择天气作为根节点。[0071]构建决策树模型首先基于信息增益率检验所有的特征属性,选择信息增益率最大的特征属性产生决策树节点,由该树节点的不同取值建立树分枝,对各分枝的训练子集递归调用上述算法,用该方法建立决策树的各节点与分枝,直到满足决策树生成停止条件。[0072]决策树生成后,由于采集数据中存在噪声以及输电线路运维的特殊情况,所建立的决策树的许多分枝反映的是训练集中的异常。采用复杂性剪枝算法,对完全生长的决策树进行剪枝处理,通过删除节点的分枝,逐步剪去不可靠分枝,由此可实现较快分类,提高决策树正确筛选的能力。
[0073]对通过特征属性分割策略生成的完全生长的决策树,计算树中的每一个子树Tt的表面误差率增益值α。
8
CN 110569867 A[0074]
说 明 书
6/7页
式中|NTt|是子树生长的叶子节点数,R(t)是叶子节点t的误差代价,其值如下:
[0076]R(t)=r(t)p(t) (8)[0077]r(t)是叶子节点t的误差率,p(t)是叶子节点t归类的数据占所有数据的比例,R(Tt)是子树Tt的误差代价,其值为子树Tt所包含的所有叶子节点的误差代价之和。[0078]选取α值最小的子树,将其生成的分支进行剪枝优化,当多个子树的α值同时达到最小时,取|NTt|最大的进行剪枝,直到达到模型的评估需求为止。[0079]根据特征属性分割策略计算,将决策属性分类定义如下:[0080](1)决策c1为雷击故障;[0081](2)决策c2为正常。
[0082]按照式(7)~式(8)所示,计算各枝节点的表面误差率增益值,对本决策分支的a4枝节点的表面误差率增益值α最小,故剪枝优化时首先令a4左右孩子为0,根据实际样本数据,所建立的决策树相对于训练数据而言过渡拟合,不切合实际数据,故通过剪枝优化策略可减少过拟合现象。[0083]相应的,提供一种存储介质或终端设备,以运行上述过程。[0084]本领域内的技术人员应明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
[0085]本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。[0086]这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0087]这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0088]以上所述仅为本公开的优选实施例而已,并不用于本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
[00]上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范
[0075]
9
CN 110569867 A
说 明 书
7/7页
围的,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。
10
CN 110569867 A
说 明 书 附 图
1/1页
图1
11
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- 7swz.com 版权所有 赣ICP备2024042798号-8
违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务