人工智能,机器学习是目前最火的岗位,这次非常荣幸请到了高大师入驻我们的工作圈,他目前在国内某著名安全产品公司工作,从事机器学习方向的开发研究,能力非常强,可以说是全能选手,而且对机器学习在安全产品领域的研究非常深入!下面来听听大牛对机器学习的一些实战干货总结!
1.训练数据
直觉:训练数据越多,模型越好
事实:
-
一些情况下,太多的训练数据可能会在某一类别中引入矛盾的样本
-
机器学习算法很难从中总结出知识
案例:
某反垃圾邮件引擎,用了300多万的样本,耗时3天多得到的模型并不好,当减少到样本5万的时候,却得到了更好的模型
2.样本标注
直觉:样本标注大部分是正确的就可以了
事实:
-
错误标注是决定一个机器学习项目成功与否的关键
-
我们需要纠正错误的样本标注
案例:
200多个万的样本中仅有8个标注错误。因为这8个非常小的标注错误,导致模型的准确率是60%左右,纠正了这极其小的8个标注错误,模型准确率达到了80%左右
3.特征值越多越好
直觉:选的特征值越多,模型效果一定会越好
事实:很多情况下,少数相对独立的特征值效果反而更好
4.特征排序
直觉:特征排序和筛选不必要,Xgboost能搞定一切
事实:
Xgboost实际效果受到相互矛盾的特征,低质量的特征和过多的特征的影响
基本的特征排序和选择方法对改善模型同样有用
案例:
模型一:
Feature amount: 233
Precision:99.29%
Recall:94.14%
FPR:0.02%
模型一:
Feature amount: 41
Precision:99.54%
Recall:96.23%
FPR:0.01%
5.一切数据驱动
直觉:使用专家知识选取特征已经过时,一切数据驱动
事实:
-
很多情况下机器学习能够知道那些特征是否重要,但领域知识能告诉我们属性或者特征对达标是否有用,是不是噪声!机器学习本身是很难去除它们的。
-
很少属性不适合做为特征让机器去学
6.测试集好就好
直觉:测试集表现越好,模型越好
事实:测试集和真实世界有gap,很多时候测试集训练出来的好的模型,上了真实数据并不一定效果很好,需要优化特征工程。不要太相信测试集的效果。
限于篇幅,内容没有完全展开,机器学习未来还是一个非常火的方向,在一线城市很多AI的岗位30-50w年薪是非常正常的价格。所以多听听大牛说,认识一些大牛很重要。找工作内推也好,搭建人脉也好对自己的发展很重要。
近100个公司的200名Python小伙伴
都在Python工作圈
本篇文章来源于: 菜鸟学Python
本文为原创文章,版权归知行编程网所有,欢迎分享本文,转载请保留出处!
你可能也喜欢
- ♥ sys在Python中属于什么库09/29
- ♥ 什么是python构造函数?09/17
- ♥ 如何在 Python 中调用 random() 函数10/05
- ♥ 如何使用python析构函数11/27
- ♥ python中如何判断字典是否有键08/16
- ♥ 如何在python中使用变量11/06
内容反馈