知行编程网知行编程网  2022-03-21 09:00 知行编程网 隐藏边栏 |   抢沙发  4 
文章评分 0 次,平均分 0.0

这次我请到了在数据挖掘岗位的一位美女工程师Cathy,程序员本来就是一个比较少的群体,男的居多,女的工程师很少,美女就更少了!这次非常荣幸请到了Cathy,她原来是海外从事海量数据挖掘工作,目前在上海一家大型的互联网公司工作,她从数据挖掘岗位内部人士的角度来解读,什么是数据挖掘,需要那些技能,那些注意事项,希望对大家有帮助


分享主要分为四个方面:

  • 什么是数据挖掘?

  • 工作中我们是怎么做的呢?

  • 想入行?

  • 如何提升?



1
什么是数据挖掘


机器学习和人工智能可能是这几年最火的话题了,但其实不论是人工智能还是机器学习,是战胜李世石的阿尔法狗还是各种深度学习模型算法,都是数据挖掘的一个分支。所以每当别人问我是做什么的时候,我也不想说的很玄乎,通常就说我是一只数据挖掘攻城狮了。


数据挖掘的方法有很多种,除了上面讲到的深度学习,和各种算法模型,任何能从数据中挖掘,总结出有用结果的,都叫数据挖掘。所以说,可视化,数据分析,看分布,哪怕是一拍屁股定下来的rule base,都可以算。


自学Python入行数据挖掘,听听数据挖掘美女工程师怎么说



2
工作中我们是怎么做的


我在这里指的工作主要还是指在工业界,学术界可能就是另一种模式,我就不在这里不懂装懂了。在上班的时候,我们算法模型组里经常自黑,其中有一张图很好解释了我们的日常工作……


自学Python入行数据挖掘,听听数据挖掘美女工程师怎么说


其实现在大多数模型都开源了,并且也有了很多现成的包,我们的工作就变成了将一堆数据整一整,丢进模型,有时候就能得到一个不错的结果。如果结果不好呢?也不着急……调调参数,多增加几轮迭代,或者换个模型…… (哭笑不得)。。


我说这些其实不光是为了自黑,目的是为了告诉大家,其实机器学习也好,深度学习也好,重要的永远不是在模型本身,而是在特征工程


如何做特征,如何变幻特征,体现了你对业务的理解,也体现了你经验的积累,和你的灵光一现。有时候做了很久的模型,AUC 总在一个地方上不去,但突然有天想到一个牛逼的特征,于是就一下子拉上了一个台阶。


而且,在使用每个模型之前,阅读一下模型相关的paper也是一个很好的习惯。这会帮助你更好的选择最合适的模型,而不是每个万精油模型都用一遍。


所以,即使是在万物开源的年代,急于求成,也是很难做好一个模型,特征工程是需要智慧、耐心和积累的,也是机器学习中最最重要的一环。



3
想入行


我记得去年有一篇获奖的paper和当时作者获奖的视频,名字具体是啥我忘了,当时在圈子里火了好一阵,说的就是希望大家不要一入门就直接深度学习,因为效果好就一股脑儿的都丢进去,不用管背后的逻辑,也不用feature engineering。作者还说到在他们那个年代,大家都是认认真真的推倒svm的公式,而现在大家都浮躁到只管结果,过程是黑盒也没关系。


其实我很认同作者的说法,想要入门确实是要认真的从最原汁原味的machine learning开始学起,学习每一个经典的模型和背后的逻辑。其实我的专业是金融经济,编程和算法完全是我自学的。


跟大部分人不同的是,我是先在youtube上看完了stanford的machine learning算法公开课的录像,跟着老师推导了所有的公式,图示,笔记,记了厚厚一本。然后才开始学Python,一路自学起来,这样上手也很快!


接着我就开始设计自己的量化交易模型,直接0基础开始写代码(之前没有任何其他语言基础),这样盲写的代价就是几乎每写一行都要在Stack Overflow上查半天,但是好处就是记忆特别深刻,一个星期以后,我就直接从0基础的小白,写出了一个能选股,有几个关键指标的简单量化交易模型。相信我直接上手的这种方式,过程特别痛苦,但是效果特别好!


4
如何提升


我们老板经常跟我们说,现在做算法缺的不是算力,而是脑力。所以想提升我觉得有以下几种途径:

  • 比较基础的话,就要多看youtube视频,stanford 的名师的课程,都是有全程录像,基础打扎实很重要。

  • 光说不练假把式,不光要练习写代码,也要练习自己思考和解决问题的能力,因为代码永远只是工具,你不能不会写,也不能只会写。可以尝试写点自己想实现的算法,或者多去Kaggle

  • 多看paper,关注顶级学术会议的获奖论文,让自己能紧跟前沿,知道现在最流行,最有效的解决问题的方法和模型。

如果是已经在工作的,就多尝试拓宽思路,试着用多重方法解决问题,看看能不能找到最优解!



Python工作圈

目前加入Python工作圈的有来自苹果,腾讯,爱奇艺,百度,Nokia,顺丰三胞集团,商汤科技,万矿等各行各业的小伙伴。还在邀请趋势科技的AI产品负责人,新浪微博的自然语言处理的大牛。有爬虫岗位,有Web开发后端岗位,有机器学习岗位,有自动化测试,有数据分析,有自动化测试,有运维,有金融量化等几乎涉及了Python各个岗位。


BTW:如果有很牛的同学,欢迎私信我,我会邀请你做嘉宾。


现在只要78元

一天2毛钱就能接触各行各业的大牛

了解岗位的动态和面试技巧

每月抽奖送福利


近期热门:

给力!数据分析岗位内部人的建议,可以少走很多弯路

3大利器推荐,帮你写出规范漂亮的python代码

分享几道Google的Python入门题


本篇文章来源于: 菜鸟学Python

本文为原创文章,版权归所有,欢迎分享本文,转载请保留出处!

知行编程网
知行编程网 关注:1    粉丝:1
这个人很懒,什么都没写

发表评论

表情 格式 链接 私密 签到
扫一扫二维码分享