机器学习和编程面试题笔试题
应用介绍
## 1) 缺失值较多
缺失值较多.直接将该特征舍弃掉,否则可能反倒会带入较大的噪声,对结果造成不良影响。
## 2) 缺失值较少
缺失值较少,其余的特征缺失值都在10%以内,我们可以采取很多的方式来处理:
- 方式1: 把NaN直接作为一个特征,假设用0表示;
```python
data_train.fillna(0)
```
- 方式2: 用均值填充;
> 均值填充可能需要取条件均值,例如某训练集中患癌症和不患癌症的数据中,该值的差距很大,那么就应当填充label相同的数据的均值。
```python
data_train.fillna(data_train.mean())
```
- 方式3:用上下数据进行填充;
```python
# 上一个数据填充
data_train.fillna(method='pad')
# 下一个数据填充
data_train.fillna(method='bfill')
```
- 方式4:插值法
```python
# 即估计中间点的值
data_train.interpolate()
```
- 方式5:用随机森林等算法拟合
> 将数据分为有值和缺失值2份,对有值的数据采用随机森林拟合,然后对有缺失值的数据进行预测,用预测的值来填充。
。。。。。。。。想了解更多请下载附件。
©版权声明:本文内容由互联网用户自发贡献,版权归原创作者所有,本站不拥有所有权,也不承担相关法律责任。如果您发现本站中有涉嫌抄袭的内容,欢迎发送邮件至: www_apollocode_net@163.com 进行举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
转载请注明出处: apollocode » 机器学习和编程面试题笔试题
文件列表(部分)
名称 | 大小 | 修改日期 |
---|---|---|
sklearn-cluster-compare.ipynb | 50.98 KB | 2020-09-06 |
1.md | 0.82 KB | 2020-09-06 |
10.md | 0.87 KB | 2020-09-06 |
11.md | 0.79 KB | 2020-09-06 |
12.md | 1.17 KB | 2020-09-06 |
13.md | 1.19 KB | 2020-09-06 |
14.md | 1.64 KB | 2020-09-06 |
2.md | 2.30 KB | 2020-09-06 |
3.md | 1.94 KB | 2020-09-06 |
4.md | 0.98 KB | 2020-09-06 |
5.md | 2.17 KB | 2020-09-06 |
6.md | 2.26 KB | 2020-09-06 |
7.md | 1.31 KB | 2020-09-06 |
8.md | 2.19 KB | 2020-09-06 |
9.md | 0.41 KB | 2020-09-06 |
10.svm.png | 17.63 KB | 2020-09-06 |
11.accuracy.png | 3.68 KB | 2020-09-06 |
11.confusion_matrix.png | 14.16 KB | 2020-09-06 |
11.F1.png | 3.59 KB | 2020-09-06 |
11.precision.png | 1.57 KB | 2020-09-06 |
11.recall.png | 1.87 KB | 2020-09-06 |
13.laplace.png | 79.83 KB | 2020-09-06 |
13.naive.bayes.formula.png | 34.21 KB | 2020-09-06 |
14.decision_tree_eg.gif | 56.09 KB | 2020-09-06 |
14.entropy.jpg | 23.11 KB | 2020-09-06 |
14.gain.jpg | 45.46 KB | 2020-09-06 |
14.gain.ratio.jpg | 43.22 KB | 2020-09-06 |
14.splitInfo.jpg | 39.63 KB | 2020-09-06 |
4.cosine.png | 104.85 KB | 2020-09-06 |
6.nlp.jpg | 8.79 KB | 2020-09-06 |
发表评论 取消回复