900字范文,内容丰富有趣,生活中的好帮手!
900字范文 > 工业数据分析技术与实战之设备管理——昆仑数据田春华培训听课记录

工业数据分析技术与实战之设备管理——昆仑数据田春华培训听课记录

时间:2020-03-12 01:02:55

相关推荐

工业数据分析技术与实战之设备管理——昆仑数据田春华培训听课记录

昆仑数据田春华老师在微信公众号的专栏培训:工业数据分析与实战。培训给出了一些实际的数据分析例子,包括“设备管理”、“运作优化”和“营销服务”三类;然后讲了数据分析的基本框架、方法和技术;最后给出了大数据时代,数据分析的认识误区和挑战。田老师发音不标准啊,好多词听好几遍,再关联上下文,连猜带蒙的才勉强能明白,不过有的也不一定对。记录以反复学习。

视频链接

————————————————

接上篇:工业数据分析技术与实战之入门

介绍第一个案例。在设备运维里面经常有预测性维护或预防性维修。这个案例是讲的城市官网的预防性维修。在预防性维修场景中,就是我们在做季度计划时,高风险的网段有哪些。如果有针对性的维修的话,可以提高维修的效率。这里涉及到的数据,首先是管网本身的拓扑结构,它的管材、管径、管龄,包括一些周边信息,周边土地使用状况,包括天气信息、车流量信息等,包括内部的水压,水质信息比如PH值等。考虑这些信息,就是希望能通过尽可能多的数据得出一个比较好的风险等级。过去的手段使用风险矩阵,讲的直白一点就是打分,管龄占多少总分的零点几,管径占多少比例,用专家打分的方式,把风险矩阵做出来。这个用了两年之后呢,发现这风险矩阵不好使,发现这个维修准确率和盲猜差不多。是不是各种因素的综合没有考虑到,所以准确率比较低。后来发现这个矩阵为什么不好使了,是因为把全部管子替换掉以后呢,肯定在新的管子上其确定性不高了。那就想说用数据分析的方法,把这些因素之间的相关性、关联关系,包括非线性关系,都考虑到。一个很简单的例子,比如交通流量,对地下管网的失效到底影响是大还是小,是正向还是反向。从专家的角度,这个其实很难讲。一方面,车流量大,外部压力大,失效风险就高,但是从另一方面讲,交通流量大的地方,我们开挖性施工的概率就小,不可能在高速路旁天天挖沟,那不均匀沉降的概率就比较小。所以这个因素的影响,一个是正向的一个是反向的。如果让人去打分,这个交通流量到底是正向还是反向,就很难给出。而我们通过机器学习的简单统计就可以发现,这两个作用很有意思,交通流量高的地方,失效率特别低,交通流量低的地方,失效率也特别低,就是那些交通流量既不高也不低的中间的地方,路边的地方,失效风险反而高。这是两个风险因素相互作用的结果。这样的结果,在传统的专家打分或风险矩阵上很难表达出来。所以我们综合考虑这么多因素,最后用数据挖掘的结果,准确率提高不到12倍,比人好一些。这里面最大的挑战就是事故率太低。大家知道,在正常的工况,在正常的影响下,失效率不可能特别高,这种情况在技术上叫不均衡的数据集,失效率不到1%,100根管子一年坏不了1根。这种情况下怎么做,数据算法在技术上提供了一些方法,比如说生存分析,怎么来保证样本均衡性,做了一些工作。从这里面我们发现另外一个问题,大家都说的数据质量的问题,我们做的这个客户在国际上算是比较领先的,对于大多数企业来说他的信息化水平至少领先到左右,他们从九几年开始就做GIS地理信息系统,做MRO(Maintenance维护、Repair维修、Operation运行 )这些系统,所以他们自认为他们的工单管理,以及所有细节管理非常完备,数据质量问题不用担心,但是当我们真正的深入进去,把管段数据、交通流量数据等各种数据都考虑进去,就会发现缺失特别严重。这是大数据分析遇到的普遍问题。也就是当看一个特征的数据,它的质量还可以,缺失率只有10%到20%,但是当我们把所有的因素都综合考虑进去,那5个数据源或6个数据源数据合并后,严格意义上的数据完整率不到30%。这也是让客户非常吃惊,说我们做了这么多年,数据质量还是这么差。这其实在大数据分析中是个常态。以为大数据分析是多数据源的融合,每个数据源是80%,那多个80%乘起来以后,其完整率就非常低了。这就是我们在实际分析中遇到的情况,数据整合的问题,在传统操作数据库中不明显,但在数据分析里面会凸显些问题。而且好多数据质量问题不只是数值上的,或者说类型上面的,通常都是业务语义上的一些缺失。这些就需要我们数据分析时反复注意,比如我们在分析的过程中,发现有一段管道的预测特别差特别差,我们的预测水平还不如乱猜,基本上和实际结果是相反的。后来我们专门拿这一块儿去请教业务专家,专家看了一眼说,这块儿在提供数据的时候没有告诉我们,这块是围海造田区,它的不均匀沉降非常严重,它的风险,它的管道失效模式与别的地方完全不一样。这种只要把围海造田区域数据提供,就立马能看出来。这种情况,不是说客户可以忘记,我们也不可能知道这种围海造田区的情况,而且即使这个城市有,或这次知道了,下次也可能有新的状况,也不知道还会有多少其它这种情况存在,我们不可能穷举出所有的情况。这就要求我们在做数据分析的时候,要多去跟业务专家进行迭代,拿我们最差最不好的结果跟业务部门去碰,这样就发现,很多时候,是由于其它原因,这个原因不在我们当前数据集中间,这也是给我们数据分析一个提醒:我们拿到的数据不一定是全的数据,很多因素可能不在我们的数据集里面,我们要反复确定这个数据的事情。

下面介绍第二个案例。第一个案例还是偏计划性,预测性维修的例子,第二个例子我们来介绍一下石油管道里面管道泄露检测。这个检测的重要性大家应该都能理解。比如当石油管道泄露的时候,油会先往下渗,地面发现的时候一般都比较晚了。另外油气管道还有爆炸风险。所以问题就是当有泄露后能不能及时检测到。泄露检测的方法有很多种,有使用压力传感器的,还有用光纤的。本例中使用的压力传感器来检测,原理也很简单。就是当有泄露的时候,压力就会下降,形成负压涡。负压涡在油里面以每秒1.2公里的速度传播,两边传感器感知到压力下降之后呢,如果泄漏点不在中间的话,它会有一个时间差,再根据管道长度,就变成小学五年级的数学题,求两个相对行走的人相遇时的位置。这个问题看起来特别简单,简单到都不值得使用数据分析来做。但是当我们拿到数据以后,就发现真的难的地方在几个方面。一是压力数据,我们以为的压力数据是光滑的数据,但现实中我们拿到的数据是带有强噪声的数据。因为它是进行油气输送,有油有气,油气混合,它本身的压力波动非常大,另外压力传感器也存在压力噪声。所以在这种强噪声情况下怎么做压力下降的定位,本身就很难。这就需要我们考虑去做滤波,如果滤狠了,那精度就受影响,如果滤轻了,就会有很多虚假预警。其实定位信号这个问题还不是很难,虽然我们的算法还是要精心调整。更难的一个是虚假预警,虚假预警包括什么呢,比如泄露会造成压力下降,其它一些正常情况也会造成压力下降。比如我换油品了,从煤油换成柴油了,换成航空用油了。不同油品,本身传送压力就相差很多,这时候输油泵就会调压,输油泵造成的压力下降,比泄露造成的压力下降要大得多;还有其它情况,比如中间有很多阀门开关,要倒灌,比如一个罐满了,要倒到另一个空油罐的时候,都会造成压力下降。还有假如油中间有空气,当这个气泡破裂时也会造成压力下降。有这么多正常因素造成压力下降,我们需要识别哪些是泄露,哪些不是泄露。这个问题非常重要,否则我们的报警系统会天天报警。那这个系统就不可用。因为报警后检测人员要带着仪器到报警位置开挖检测定位,系统反而给检查人员造成很多困扰。这种情况在工程中间经常遇到,检测到一个异常不难,但是要判断这个异常的来源是故障造成的还是其它正常因素造成的,是我们面临的很大的问题。更难的一点是我们这里只有压力信号,那我们该怎么做呢?好的一点是,一个泄露会有多个压力传感器测到,60公里内的,压力下降信号没有衰减到一定程度时,我们的传感器都能检测到,可以进行多点匹配。可以用时域,查看形状,比较好的一点就是泄露造成的压力下降有一个比较好的形状,到底部会有有规律的波动,会有毛刺。而调泵调压,在中间会有毛刺,但是到底部会很光滑。通过这些模式匹配,我们也可以把它们区别开来。有这些以后,我们就把系统的预警从每天的几十起,降到一两天一起,但是这样没有到我们理想的结果。我们还是想进一步优化。但是这时候我们发现,我们的数据都用尽了,特征都用尽了。再想进一步解决呢,我们跟客户商量,一方面是引入不同传感器,用光纤测量温度、震动,看声波,看各种方面,用多传感器融合去预警。这样基本上干扰这个的不惑干扰那个,这样是从根本上解决办法。从这个例子我们看出,我们的干扰源其实是非常多的。对于数据分析最难的东西,就是怎么区别开,怎么降低虚假预警。

第三个案例,是关于抽油机的。抽油机就是油田里的磕头机。它的工作原理非常简单,就是4个冲程,它中间有一个标准的传感器,叫示功仪。示功仪是测量位移与力矩的关系。横轴是位移,纵轴是力矩。理想情况下是一个平行四边形。一个周期大概采120个点,这里面有一个显著的问题,就是原来的抽油机都没有联网,现在中石油以及一些国内的油田实现加入互联网之后,这些数据能够实时的跑到监控中心来。这样一个自然的问题就是,能不能通过这些数据自动判别抽油机的故障。抽油机的原理非常简单,正常情况下抽油机的示功图是平行四边形,当出现故障时这个图形就会发生变化,有的变成刀把型,有的变成圆形。需要根据这个形状反过来研判到底出了什么故障。这个从算法角度也挺简单的,我们把一个实际的图,做平滑,向多边形逼近,再根据图形的特征,包括角度,边长,很容易的做到匹配成功率92%左右。但是,这并没有解决客户的问题。采油厂做这个课题的原因是,想要降低工作量。原来的工作是天天看着屏幕上的图形,来判断有没有故障。那我们做了一个92%的模型,还讲不清楚那8%是错的。但是这减少不了客户的工作量,模型对一个图的判断,92%是有故障,8%是没有故障,那所有的图还是得全部看一遍才能确定究竟是不是有故障。客户想要的是,要么能完全准确的判断有或没有故障,要么就打个标签说判断不了。那么完全准确判断的客户就不用再看了。对于模型无法判断的,再由业务专家人工干预。这样就能够减少工作量了。客户要的是一个完全对的东西。后来我们就把这个92%的模型做明示化的规则提取,做成决策树,跟业务专家反复讨论,制定一个非常保守的,但是100%对的模型。这个模型只能判断30%——40%的图形,但是判断的结果是完全正确的。这样客户的工作量就降低了。另外40%的样本,可以打一个85%正确率的标签,给一个建议,客户也觉得有意义,虽然帮助不大。剩下10%——20%的疑难杂症就交给业务专家来解决。从这个例子我们看到,数据分析只是一个技术,我们要把这个技术应用到实际的业务流程里面,才会发挥作用。其实有的时候客户看起来对数据分析要求苛刻,其实也是合理的,不能说你模型精度99%,但是那1%哪里错了不知道,那这个东西是没法用的。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。