【技术】DTEmpower核心功能技术揭秘(4）- MDI/MDA特征选择技术

天洑软件 2022年6月15日浏览：1333

概述

“DTEmpower核心功能技术揭秘”系列文章分享了天洑软件多年来工业数据实战所遇到的难题挑战和针对性的技术解决方案，如HierarchicalStratify分层分类技术、AIOD智能异常点检测技术和HDDV高维数据可视化技术。

本系列的第四篇主题将介绍“特征工程”，正所谓“数据和特征决定了机器学习模型的上限，算法则是在不断逼近这个上限”，数据建模分析中，设计数据问题的输入输出特征是非常关键的环节。DTEmpower集成了互信息、灰度矩阵、皮尔逊积矩相关系数、MRMR熵增益分析等常见的特征分析手段。除此之外，为了降低用户特征选择所需的专业要求，天洑进一步针对性地研发出低门槛的MDI/MDA特征重要性功能，用户可以清晰的看到每个特征对输出变量的“贡献”，通过自由设置重要性阈值，可以轻松筛选出对建模增益贡献最大的特征子集。

【技术】DTEmpower核心功能技术揭秘(4）- MDI/MDA特征选择技术的图1

图1 MDI（Mean Decrease in Inpurity）属于嵌入类方法，适用于大规模数据集，MDA（Mean Decrease in Accuracy）属于包装类方法，计算成本稍高但可以找到性能优秀的特征子集。重要性评分结果以水平柱状图的形式显示每个的重要性，用户可以自由设置重要性阈值进行特征子集截取

基于DTEmpower的MDI/MDA特征选择实战

1. 电厂水处理系统参数预测(MDI)

① 数据集介绍：来源于某电厂污水处理系统的流量、压差、浊度等时序数据，含有50+特征变量，共21000个样本，目标是预测水处理设备未来一段时间内的出口浊度。

② 建模和实验方法：采用图2所示的建模流程，选取MDI节点作为特征选择工具，并使用ExtraTrees极限随机树算法用以训练出口浊度预测模型。

【技术】DTEmpower核心功能技术揭秘(4）- MDI/MDA特征选择技术的图2

图2 基于DTEmpower软件平台的水处理设备出口浊度的参数预测建模方案，选取MDI节点作为特征选择工具。利用MDI节点，通过简单的参数配置即可选取不同的特征进行建模

③ 实验分析：考察不同的MDI重要性阈值截断选择对于建模的影响，设定不同的MDI重要性阈值，选取模型的R2和MAPE指标观测模型效果。每组MDI阈值参数做20次独立重复计算，取指标统计值得到分析图3。实验结果表明，随着无用特征的不断剔除，模型精度在不断提高。

【技术】DTEmpower核心功能技术揭秘(4）- MDI/MDA特征选择技术的图3

图3 设备出口浊度预测模型的精度指标随MDI阈值的变化趋势，当不进行特征选择（MDI重要性阈值为0）时，R2≈0.90，MAPE≈0.08；MDI重要性阈值设置为0.010时，剔除明显的无用特征，此时的模型精度显著提高，R2提高到0.92，MAPE下降至接近0.07；进一步增大MDI重要性阈值，模型精度也有了进一步的提高。但是当阈值设置过大时（本实验中设置为0.020），部分对预测结果有贡献的特征也会被剔除，这会导致模型精度下降

2. 风机测点结构应力快速评估(MDA)

① 数据集介绍：某头部风机制造商提供的结构应力评估数据集，含有15维输入特征，含有2400个样本，目标是快速评估测点的结构应力。

② 建模方法：采用图4所示的建模流程，采用Random Forest随机森林、GBDT（Gradient Boosting Decision Tree）梯度提升树、ExtraTrees极限随机树和Bagging共4种算法进行对比实验。

③ 实验分析：设定不同的MDA重要性阈值，对不同阈值对应模型的R2和NRMSE指标进行统计对比，分析结果见图6、图7。