第287章 衣裙(3 / 3)

离语 semaphore 2051 字 2个月前

处理

工作的顺利完成完整的数据基础

在数据集成过程中Y需要考虑解决以下几个问题X

??0??5

1??0??6模式集成问题

??0??5

2??0??6冗余问题

??0??5

3??0??6数据值冲突检测与消除问题。

常见的数据转换策略包括X

??0??5

1??0??6平滑处理帮助除去数据中的噪声Y常用的方法包括分箱回归

和聚类等

??0??5

2??0??6聚集处理对数据进行汇总操作例如Y每天的数据经过汇总操

作可以获得每月或每年的总额这一操作常用于构造数据立方体或对数

据进行多粒度的分析

??0??5

3??0??6数据泛化处理用更抽象的概念来取代低层次的数据对象例如Y

街道属性可以泛化到更高层次的概念Y如城市国家Y再比如年龄属性

可以映射到更高层次的概念Y如青年中年和老年。

规范化处理将属性值按比例缩放Y使之落入一个特定的区间Y

比如0~1常用的数据规范化方法包括MMax规范化ZSre规范化

和小数定标规范化等

??0??5

5??0??6属性构造处理根据已有属性集构造新的属性Y后续数据处理直

接使用新增的属性例如Y根据已知的质量和体积属性Y计算出新的属

性密度。

我怎么又困了。

<