流形学习(一)

流行学习入门-基本概念

Posted by HK on May 14, 2019

流形

流形:局部具有欧几里得空间性质的空间(流形不是形状哦)。

直观上来讲,一个流形好比是一个d维的空间,在一个m维的空间中(m>d)被扭曲之后的结果。比如说一块布,可以把它看成一个二维的平面,这是一个二维的空间,现在我们把它扭一扭(三维空间),它就变成了一个流形,当然不扭的时候,它也是一个流形,欧式空间是流形的一种特殊情况。

背后的故事:黎曼认为,几何对象应该是一些多度延展的量,体现出各种可能的度量性质。而我们生活的空间只是一个特殊的三度延展的量,因此欧几里德的公理只能从经验导出,而不是几何对象基本定义的推论。欧氏几何的公理和定理根本就只是假设而已。但是,我们可以考察这些定理成立的可能性,然后再试图把它们推广到我们日常观察的范围之外的几何,比如大到不可测的几何,以及小到不可测的几何。接着,黎曼开始了关于延展性,维数,以及将延展性数量化的讨论。他给了这些多度延展的量(几何对象)一个名称,德文写作 mannigfaltigkeit, 英文翻译为 manifold,英文字面意思可以理解为 “多层”,中国第一个拓扑学家江泽涵把这个词翻译为 “流形”,取自文天祥《正气歌》,“天地有正气,杂然赋流形”,而其原始出处为《易经》,“大哉乾元,万物资始,乃统天。云行雨施,品物流形。” 这个翻 译比英文翻译更加符合黎曼的原意,即多样化的形体。

黎曼定义的 “n 维流形” 大概是这个样子的:以其中一个点为基准,则周围每个点的位置都可以用 n 个实数来确定。即:流形的局部与 n 维欧氏空间的局部具有相同的拓扑性质。

流行学习

流形学习假设所处理的数据点分布在嵌入于外维欧式空间的一个潜在的流形体上,或者说这些数据点可以构成这样一个潜在的流形体。流形学习就是从高维采样数据中恢复低维流形结构,即找到高维空间中的低维流形,并求出相应的嵌入映射,以实现维数约简或者数据可视化。全称是流形学习方法(Manifold Learning),是机器学习、模式识别中的一种方法,在维数约简方面具有广泛的应用。

流形学习的目的:是将高维数据映射回低维空间中,揭示其本质。

流行学习的分类:分为线性的和非线性的两种,线性的流形学习方法如我们熟知的主成份分析(PCA),非线性的流形学习方法如等距映射(ISOMAP)、拉普拉斯特征映射(Laplacian eigenmaps,LE)、局部线性嵌入(Locally-linear embedding,LLE)。