方法一:场景神经网络 思路:训练一个包含所有特征的模型,得到auc,在batch中采用shuffle,得到auc’,记特征的importance为auc-auc’ 验证方法:先验+经验结合的方式,…
分类:数据科学
做一名数字化世界的挖矿工
皮尔逊相关系数(Pearson Correlation Coefficient)
概述 Pearson相关系数是最常用的相关系数,又称和差相关系数,取值-1到1,绝对值越大,说明相关性越强。该系数的计算和检验为参数方法,适合做连续变量的相关性分析,适用的条件如下: 两个变量呈直线相关关系或正态分布,非…
经验风险最小化与结构风险最小化
机器学习本质上就是一种对问题真实模型的逼近(我们选择一个我们认为比较好的近似模型,这个近似模型就叫做一个假设),但毫无疑问,真实模型一定是不知道的(如果知道了,我们干吗还要机器学习?直接用真实模型解决问题不就可以了?对吧…
Python3爬虫系列(一):爬取整本小说内容
IDE:jupyter version:Python3.5 Lib:requests、re、pyquery 最近恰巧看到斗罗大陆3尚在连载,作为斗罗1的忠实粉丝,看到斗罗3自然是兴奋不已。但无奈在网上一页页的翻看实在是太…
信息熵之通俗易懂的理解
作者:滴水 链接:https://www.zhihu.com/question/22178202/answer/49929786 来源:知乎 著作权归作者所有,转载请联系作者获得授权。 让我们说人话!好的数学概念都应该是…
Kaggle-Titanic competition solution
This document is a thorough overview of my process for building a predictive model for Kaggle’s Titanic …