浅析什么是数据分析的特征提取
在机械故障诊断及寿命预测中,我们都会提到设备的特征频率提取,那么通俗的讲特征提取是什么意思呢?
机械故障诊断以及寿命预测中的特征提取是实现故障诊断和寿命预测的重要环节。不论是故障诊断还是寿命预测,都是根据一定的特征进行的判断,而这些特征提取是指的是什么就需要先从故障以及寿命预测的基本定义上寻找源头。
根据JISC的定义,所谓故障,即对象(系统及其零部件)丧失规定功能的状态。
一般而言,故障包含两种状态:
第一、 引起对象(系统及其零部件)马上丢失其性能的破坏性故障;
第二、 与设备性能降低有关的性能性故障。
第一种故障状态是设备功能的丢失,即设备完全失去性能,不能用了;第二种故障状态是指设备功能的部分丧失,或者说是功能的降低,但依然可以使用。用健康管理的常用名词来讲就是“亚健康”状态。
综上,第一种状态是设备生命周期的终结,也就是设备到达寿命了。此时的寿命可能是正常寿命(大于等于预期寿命),也可能是非正常寿命(提前失效等);
第二种故障是“病态”或者是“病而未死”的状态,如果不处理可能就会发展到第一种状态。
因此当我们察觉到第二种状态,并通过这种状态来“预测”设备未来还有“多久”达到第一种状态,就是常说的寿命预测,而这个“多久”则是“剩(残)余寿命”。
阐明机械故障以及寿命预测的含义,有助于了解如何提取特征。
不论是故障还是对故障的预判(寿命预测),首先都需要对设备当前的状态进行观察。此处的观察不仅是“可感知的”视觉、触觉、听觉的感官观察,还包括“数据”的观察。尤其在引用数据分析技术之后,即便是对视觉、触觉、听觉得观察也最终需要转化成数据来进行所谓的“观察”。
这种将“状态”转化为“数据”的过程就是特征提取的过程。这种通过数据进行的“观察”过程就是数据分析。
在分析中,目标是某个设备的“状态”。
因此,将设备状态进行数据描述的过程,就是设备建模的一部分。之所以说是一个部分,是因为这个建模具有清楚的目标指向“故障诊断”和“寿命预测”。
因为对设备的建模,还有出于其他分析目的更多方式。将所有不同分析目的的设备建模进行综合,就完成了整个“物理设备”映射到虚拟空间的“数字设备”,这就是“数字孪生”。
那么到底应该“观察”哪些“状态”呢?从数据分析专业的术语来说,就是“要提取哪些特征”呢?
这就是一个设备故障诊断与寿命预测中的特征选择的问题。
对于数据工程师而言,可以通过各种数据特征比对的工具,例如:相关性分析等,在众多数据中寻找与诊断目标具有最大相关性的参数作为特征。
注意:“数据特征”和“设备故障特征”不是一回事儿。在工业领域中,对故障的特征参数选择更加依赖于“机理”本身而非数据的特征。
用一个通俗的比方来说,就是工业机理可以指明与故障状态相关或者可能相关的数据有哪些,而数据工程师可以以此找到最相关的参数,对“故障状态”和“数据特征”的相关性进行研究。
当然,数据工程师也可以不考虑“工业机理”,而直接从数据的汪洋大海中,“海底捞针”式的捞取,从而找到与故障最相关的特征及数据。只是这样的方法的效率是极低的,而且付出的是数据工程师的大量“无效”劳动。
因此,合并“机理”与“数据”,就是一个更省事儿的原则。所谓“数据工程师”经过大量工作发现牛顿第二定律的案例,其实就是这个环节出了问题。
当然,在机理不是非常明确的“灰色”地带,通过纯数据的手段发现可能存在的某种关系,是数据分析方法对机理关系有益的补充和拓展。