知行编程网知行编程网  2022-03-21 01:00 知行编程网 隐藏边栏 |   抢沙发  0 
文章评分 0 次,平均分 0.0

大牛说|机器学习的一些经验总结

人工智能,机器学习是目前最火的岗位,这次非常荣幸请到了高大师入驻我们的工作圈,他目前在国内某著名安全产品公司工作,从事机器学习方向的开发研究,能力非常强,可以说是全能选手,而且对机器学习在安全产品领域的研究非常深入!下面来听听大牛对机器学习的一些实战干货总结!


1.训练数据

直觉:训练数据越多,模型越好

事实:

  • 一些情况下,太多的训练数据可能会在某一类别中引入矛盾的样本

  • 机器学习算法很难从中总结出知识

案例:

某反垃圾邮件引擎,用了300多万的样本,耗时3天多得到的模型并不好,当减少到样本5万的时候,却得到了更好的模型


2.样本标注

直觉:样本标注大部分是正确的就可以了

事实: 

  • 错误标注是决定一个机器学习项目成功与否的关键

  • 我们需要纠正错误的样本标注

案例:

200多个万的样本中仅有8个标注错误。因为这8个非常小的标注错误,导致模型的准确率是60%左右,纠正了这极其小的8个标注错误,模型准确率达到了80%左右


3.特征值越多越好

直觉:选的特征值越多,模型效果一定会越好

事实:很多情况下,少数相对独立的特征值效果反而更好


4.特征排序

直觉:特征排序和筛选不必要,Xgboost能搞定一切

事实:

Xgboost实际效果受到相互矛盾的特征,低质量的特征和过多的特征的影响

基本的特征排序和选择方法对改善模型同样有用

案例:

模型一:

Feature amount: 233

Precision:99.29%

Recall:94.14%

FPR:0.02%


模型一:

Feature amount: 41

Precision:99.54%

Recall:96.23%

FPR:0.01%


5.一切数据驱动

直觉:使用专家知识选取特征已经过时,一切数据驱动

事实:

  • 很多情况下机器学习能够知道那些特征是否重要,但领域知识能告诉我们属性或者特征对达标是否有用,是不是噪声!机器学习本身是很难去除它们的。

  • 很少属性不适合做为特征让机器去学


6.测试集好就好

直觉:测试集表现越好,模型越好

事实:测试集和真实世界有gap,很多时候测试集训练出来的好的模型,上了真实数据并不一定效果很好,需要优化特征工程。不要太相信测试集的效果。


限于篇幅,内容没有完全展开,机器学习未来还是一个非常火的方向,在一线城市很多AI的岗位30-50w年薪是非常正常的价格。所以多听听大牛说,认识一些大牛很重要。找工作内推也好,搭建人脉也好对自己的发展很重要。



近100个公司的200名Python小伙伴

都在Python工作圈

本篇文章来源于: 菜鸟学Python

本文为原创文章,版权归所有,欢迎分享本文,转载请保留出处!

知行编程网
知行编程网 关注:1    粉丝:1
这个人很懒,什么都没写

发表评论

表情 格式 链接 私密 签到
扫一扫二维码分享