M-L 和 FEM 的数学联系
摘要:FEM,有限单元法。笔者是结构专业出身。就结构有限元而言,在数学原理上和M-L model(机器学习模型)有着非常显著的相似。笔者才疏学浅,大胆猜测,也许他们都可以归类为最优解问题。
00 结构FEM的数学原理
利用最小势能原理建立有限元表达格式:
1. 构造单元的位移形函数(以坐标为变量,以节点位移为待定系数),加上一些力学理论,建立势能表达式,比如:
2. 很显然,上式无法求解待定系数,所以额外引入最优解的约束条件:
这样就得到了有限元表达格式(有限元方程):
根据K,P,求解出a。
02 线性模型的数学原理
1. 构造线性表达式(以特征值为变量,以w为待定系数),比如:
2. 很显然,上式无法求解待定系数,所以额外引入最优解约束条件:
这样就可以求解出w了。
还可以引入其它最优解约束条件,Ridge回归:
Lasso回归:
ElasticNet回归:
Logistic(逻辑)回归:
or
or
Logistic回归算法选择:
03 决策树的数学原理
1. 构造表达式,比如:
H可以有不同的表达式,
gini:
entropy:
mean squared error:
2. 很显然,上式无法求解待定系数,所以额外引入最优解约束条件:
然后就可以求解了。
04 朴素贝叶斯的数学原理
表面上看,朴素贝叶斯的数学原理在叙述上和上述思想有所不同,其实有同有不同:
根据贝叶斯定理:
得出最优解约束条件:
这是我们首次提到,最优解约束条件是有根据的;前文中,我们提到的线性模型,决策树,都没有阐述引入约束条件的根据。这是不同之处。
相同之处在:
1. 构造表达式,比如
假设条件概率分布符合高斯分布:
假设条件概率分布符合多项式分布:
假设条件概率分布符合伯努利分布:
等等形式,不一一列举。
2. 很显然,上式无法求解待定系数,所以额外引入最优解约束条件:
05 K-NN的数学原理
表面上看,K-NN的数学原理和以上有所不同,其实有同有不同:
不同之处在于,没有提及构造表达式,其实最优解约束条件已经包含了构造表达式。所以数学原理在思想还是一样的。
06 总结
01 上文所有的数学原理都是先构造表达式,在额外加最优解约束条件。很显然表达式不是随意构造的,在结构有有限元中,我们的形函数很丰富,有三角形,四边形,四面体,六面体等,有一次,有二次等;最优解约束条件其实是有根据的,即最小势能原理和变分原理。
02 在线性模型中,我们构造了线性表达式,所以称为线性模型,如果我们构造的是二次的表达式,则属于非线性模型;而最优解约束条件(最小二乘),我们并没有指出根据,所以最小二乘与其说是约束条件,不如说是评价准则,评价数据符合线性模型的程度,越符合,则最小二乘结果越小;如果构造的是二次表达式,最小二乘则是评价数据符合二次模型的程度。
03 在决策树模型中,同样构造了表达式,那么它的最优解约束条件是原理性的,还是人为赋予的评价准则呢?笔者认为是人为赋予的评价,该约束条件评价了数据适合切分的程度,切得越细,则表示数据越不适合切分。
04 在上文中,已经指明,朴素贝叶斯的最优解约束条件是有根据的,即贝叶斯定理。而高斯分布,伯努利分布等即使构造表达式的不同方式。这里的最优解约束条件不是为了评价数据符合各种假设分布的程度。就像在有限元中,最小势能原理并不是评价形函数的准则,只是不同的形函数在最小势能原理下最终会得到不然的答案。
05 在K-NN模型中,笔者认为,最优解约束条件是人为赋予的评价准则,该约束条件评价了测试特征接近训练特征的程度,越接近,则标签值越接近。
06 由此我们可以看出,不同情况下,需要使用不同的机器学习模型,就像不同的结构问题,需要不同的单元,不同的网格划分一样,具备一定的灵活性 。这从原理上,已经决定了这个属性。