新闻中心

Python与SPSS对比:连续数据离散化(分箱分组)

作者:雷速体育  来源:雷速体育  时间:2020-09-28 04:34  点击:

  连续数据和类别数据是数据分析中常见的数据类型,连续数据比如销售额、工资收入、身高体重等,类别数据比如学历、性别、年龄段、病情严重等级等。

  有时候因为数据分析方法的需要,会将连续数据转换为类别数据。比如年龄转换为年龄段(20岁以下、21-40岁、41岁以上),工资收入转换为收入水平(低、中、高),此过程也称作连续数据离散化,或分箱操作,Excel中通常理解为转换为分组数据。

  该文简要介绍了什么是连续数据离散化,通过具体案例展示python实现等宽法离散化、等频法离散化,并提供原始代码和案例数据下载,有需要动手练习的可以下载数据对照学习。

  该文通过具体案例演示SPSS实现可视离散化操作过程,特点是无编码,所见即所得,不懂软件不懂数据分析的也较容易接受。

  本号给大家提供一组含有“年龄”数据的SPSS数据文件,在【SPSS统计训练营】微信公号后台回复【分箱】,获取百度网盘下载链接,下载后可对照上面这篇文章进行学习。

雷速体育

上一篇:python基于卡方值分箱算法的实现示例

下一篇:華為輪值董事長胡厚�:隨時準備好為美國建线G綱絡