对数据分析、机器学习、数据科学、金融风控等感兴趣的小伙伴,需要数据集、代码、行业报告等各类学习资料,可关注微信公众号:风控圏子(别打错字,是圏子,不是圈子,算了直接复制吧!)   关注公众号后,可联系圈子助手加入我们的机器学习风控讨论群和反欺诈讨论群。(记得要备注喔!)   相互学习,共同成长。 脚本介绍:   1...

作者:lgd Feature Engineering for Numerical Data(1)分箱(Binning) 数据分箱的价值,意义以及对后续学习器的影响: 现实的许多数值属性的分布往往是倾斜的,也就是说,某个范围的数值大量的出现,而其他范围的出现频率确很低。除此之外,数值属性的区间过大还会带来其他问题。例如,以音乐和视频数据为例, 有的音频或者视频的观赏量相当大,而有的音视频的播放量确少...

特征组合学习目标:学习FTRL优化算法的使用,理解独热编码,风箱和特征组合,并用之创建新的特征组合。 第1步:设置:加载必要的库+加载数据+数据预处理 第2步:预览检查数据 第3步:创建特征列和回归模型 第4步:创建训练模型 这次训练模型用的优化算法为FTRL优化算法 第5步:调整训练模型参数并输出RMSE 由于经度对房价的影响并不是连续的,所以我们对经度特征进行分箱,以得到更好的结果 第6步:对...