香港腕表价格交流群

2017年顶级数据科学与机器学习方法排名

2020-11-01 12:11:44

根据统计,目前受访者选择的最常用方法包括回归、聚类、可视化、决策树/规则以及随机森林; 只有20%的受访者使用深度学习方法; 我们同时对各种方法在“行业”与“学术”层面的普及度进行了汇总。

本次调查的问题非常简单: 

您在过去十二个月中曾在实际应用当中选择哪些数据科学/机器学习方法与工具?


根据732名受访者提供的结果,得出以下论断:

2017年应用范围最广的十大数据科学与机器学习方法

本次调查的受访者平均使用7.7种工具/方法。


接下来,我们比较了今年调查当中使用范围最广的前16种方法,并将其与去年的结果进行了比对,如下图。


 


我们注意到,随机森林、可视化与深度学习的使用比例显著增加,而K-nn、PCA以及Boosting则有所下降。梯度推进机今年则首次上榜。

尽管取得了令人瞩目的成功,但根据此次调查,仅有20%的受访者实际使用深度学习方法。


与去年相比,今年增长幅度最大的工具/方法包括:


  • 贝叶斯方法,增长49%,由2016年的11.7%增长至2017年的17.5%。

  • 随机森林,增长32%,由2016年的35.1%增长至2017年的46.2%。

  • 深度学习,增长20%,由2016年的17.2%增长至2017年的20.6%。

  • 生存分析,增长13.5%,由2016年的7.5%增长至2017年的8.5%。

  • 可视化,增长9%,由2016年的46.7%增长至2017年的51.0%。


2017年的榜单还迎来一众全新方法,具体包括:


  • 梯度推进机, 20.4%

  • 卷积网络, 15.8%

  • 递归神经网络(简称RNN), 10.5%

  • 隐马尔可夫模型 (简称HMM), 4.6%

  • 强化学习, 4.2%

  • 马尔可夫逻辑网络, 2.5%

  • 生成对抗网络 (简称GAN), 2.3%


使用比例下降最显著的包括:


  • 奇怪值分解(简称SVD),下降48%,由2016年的15.4%下降至2017年的8.1%

  • 图形/链结/社交网络分析,下降42%,由2016年的14.0%下降至2017年的8.1%

  • 遗传算法/进化方法,下降42%,由2016年的8.3%下降至2017年的4.8%

  • EM,下降36%,由2016年的6.4%下降至2017年的4.1%

  • 优化,下降26%,由2016年的23.2%下降至2017年的17.2%

  • Boosting,下降20%,由2016年的30.6%下降至2017年的24.6%

  • PCA,下降14%,由2016年的40.5%下降至2017年的34.7%


行业归属


各行业的方法/工具使用情况为:


  • 行业/个人,63%,平均工具使用量为8.3款

  • 学生,15%,平均工具使用量为5.7款

  • 研究人员/学术人员,11%,平均工具使用量为7.8款

  • 其它,11%,平均工具使用量为7.1款


备注:只有35名受访者选择了政府/非营利性组织——由于样本规模太小,因此这里我将其纳入“其它”类别当中。


下面为16种排名靠前的方法及其偏差倾向结果

具体计算方法为:偏差(方法,归属)=比例(方法,归属)/比例(方法)-1


如果偏差值为正,则意味着该方法的使用频率高于平均水平。如果为负值,则代表该方法的使用频率低于平均水平。

举例来说,支持向量机(简称SVM)拥有28.7%的受访者使用比例,但在研究人员群体内则拥有44.4%的使用比例,因此偏差(SVM,研究人员)=44.4%/28.7% - 1 = 54.9%. 


     


接下来,我们将考察各项数据科学方法在行业/学术界之间的吸引力。


以下图表所示为各项数据科学方法在各行业与学术界(学术界定义为学生+研究人员群体)中的吸引力排名:行业吸引力(方法)=比例(方法,行业)/比例(方法,学术界)-1


其中“行业”使用频率最高的方法为:


  • 增量建模(连续第二年登顶)

  • 异常/偏差检测

  • 梯度推进机

  • “学术界”最青睐与深度学习相关的先进议题:

  • 生成对抗网络 (简称GAN)

  • 强化学习

  • 递归神经网络(简称RNN)

  • 卷积网络


      数据科学方法及其行业/学术界吸引力 


条状图形的宽度对应其使用比例,颜色则对应行业/学术界吸引力。

最后,全球各区域的参与度为:


  • 欧洲, 39%

  • 美国/加拿大, 33%

  • 亚洲, 14%

  • 南美洲, 6.0%

  • 澳大利亚/新西兰, 4.8%

  • 非洲/中东, 3.8%


下表所示为所有方法的具体数据,按总体使用比例排序。

表中各列分别为:


  • 方法:数据科学方法

  • 2017年与2016年变化百分比:与2016年相比的使用比例变化情况

  • 总体使用情况百分比:受访者使用该方法的百分比

  • 行业使用情况百分比:行业类受访者使用该方法的百分比

  • 学生使用情况百分比:学生受访者使用该方法的百分比

  • 研究人员使用情况百分比:研究人员受访者使用该方法的百分比


表一:数据科学方法使用情况


由核子可乐编译

点击“阅读原文”

友情链接

Copyright © 2023 All Rights Reserved 版权所有 香港腕表价格交流群