当前位置 博文首页 > 文章内容

    高维数据分析的困难

    作者: 栏目:未分类 时间:2020-08-07 16:03:21

    本站于2023年9月4日。收到“大连君*****咨询有限公司”通知
    说我们IIS7站长博客,有一篇博文用了他们的图片。
    要求我们给他们一张图片6000元。要不然法院告我们

    为避免不必要的麻烦,IIS7站长博客,全站内容图片下架、并积极应诉
    博文内容全部不再显示,请需要相关资讯的站长朋友到必应搜索。谢谢!

    另祝:版权碰瓷诈骗团伙,早日弃暗投明。

    相关新闻:借版权之名、行诈骗之实,周某因犯诈骗罪被判处有期徒刑十一年六个月

    叹!百花齐放的时代,渐行渐远!



    在实际应用过程中人们经常会碰到各种类型的海量数据,如各种贸易交易数据 基因表达数据 文档词频数据 用户评分数据 WEB使用数据及多媒体数据等,它们的维度(属性)通常可以达到成百上千维,甚至更高,这些数据在统计处理中通常称为高维数据。

    我们所处的空间是3维的,在3维或以下空间人类可以有比较直接的认知,例如,一个点是0维,一条直线是1维的,一个正方形是2维的,一个立方体是3维的,但到了4维以上就很难用简单直观的图来表示,不能用直接感知的普通方式对其思考,因此直观描述高维数据是一件比较困难的事情。

    在分析高维数据时,存在以下两个主要困难:

    一是欧氏距离问题 在2~10维的低维空间中欧氏距离是有意义的,可以用来度量数据之间的相似性,但在高维空间就没有太大意义了 由于高维数据的稀疏性,将低维空间中的距离度量函数应用到高维空间时,随着维数的增加,数据对象之间距离的对比性将不复存在,其有效性大大降低。

    二是维数膨胀问题 在分析高维数据过程中,碰到最大的问题就是维数的膨胀,也就是通常所说的 维数灾难 当维数越来越多时,数据计算量迅速上升,所需的空间样本数会随维数的增加而呈指数增长,分析和处理多维数据的复杂度和成本也是呈指数级增长的,因此就有必要对高维数据采用降维处理。