HI,下午好,新媒云不收取任何费用,公益非盈利机构
24小时服务热线: 4000-162-302
请扫码咨询

新媒易动态

NEWS CENTER

哪些场景下需要用到机器学习算法

2021-02-22


  1. 对算法的一些理解
  2. 哪些场景下需要用到机器学习算法
  3. 算法的产出物及形态,如何应用于业务
  4. 为什么数据分析师需要会机器学习
  5. 数据分析师与算法工程师的职责差异
  6. 实际业务中如何分工配合可以效用最大化
  7. 数据分析师应该掌握的程度

一、对算法的一些理解

在讲分析师与算法之前,先来理解一下什么是算法(Algorithm),专业术语在很多书籍、文章里面都有分别的定义,通俗一点理解,大致上可以认为算法是为了解决某个问题的固定化计算方法与步骤。

拆解一下上面这句话:

  • 目的:为了解决某个/某类问题,需要在这之前了解到背后的业务背景、关联场景;
  • 方法:通过计算来实现,也就意味着需要具备具体的、可量化的信息输入,且可计算,而非不可执行的概念体;
  • 步骤:有先后顺序,先做什么然后做什么最后做什么,每个过程之间还必须具备可行性,执行次数也一定是有限的;
  • 结论:是否能够解决这个问题,效果如何,最终必须得有一个产出物。在算法之外,还有几层扩展;
  • 决策:根据一个或者多个结论进行判断,这个过程是不是符合预期的,如何调整优化,是否可直接应用于业务;
  • 应用拓展:除了解决最初的那个问题外,还有哪些同质类型的问题也可以得到解决,也就是场景的拓展。

具体的算法搭建过程就不说了,在不少工具书、专业书、案例书里面都有非常详细的讲解。回到问题上,什么场景下需要用到算法去解决问题。举几个生活里面的例子:

  • 譬如说做菜:为了能吃的更好点,选择一本合适的食谱来准备食材、辅料,根据步骤和技巧“小火炖、中火炸、大火炒”,“一炒、二炖、三焖、四涮”,起锅装盘;
  • 譬如上学:从家门出发,直走50米,第一个十字路口右转,继续直行100米,到达公交站,乘402路车,5站后下车,沿人行道继续行走200米,左转,再直行150米,最终到达校门。

这些都可以理解为算法,生活里面比比皆是,不过多数情况下成为了我们习惯的一种方式罢了。

二、哪些场景下需要用到机器学习算法

在很多场景下都需要用到机器学习算法,换一个角度,来说说我对应用场景的理解。本质上说,我过去的一些项目里面通过算法解决的问题大致上可以分为这么几类

1. 供需匹配的问题

量变产生质变,过去的十年时间,无论是在B2C,还是B2B、S2B、B2G,我们去建立用户画像做精准营销、做好推荐系统实现千人千面、对用户进行分层分类打标签、给用户的评价信息划分情绪好坏等等,都是为了更好的去做供需关系管理匹配。

视频个性化推荐是供需管理,商品个性化推荐是供需管理,网约车是供需管理,供需管理即“ 谁可以找谁消费到一件相对比较合适的东西(内容、物品、信息、线索、商机),在这个过程中还可能需要通过哪几个谁才能打通彼此之间的联系。”

衍生出的问题立马就出现了,如何从千万级甚至亿级的商品里面去做匹配召回,如何从万亿级的会话内容信息中定位线索,如何明确哪些人才是我们目标的特定人群,如何把相应的信息通过什么渠道push到最合适的人,如何去做到好的触达,又如何去回收这些人收到信息之后的反馈效果。

如果只有几千条数据,一个团队里面10来个人,每个人分个百来条逐一去确认,则不需通过分析也能实现,耗费的只不过是人力上的一些时间投入。

所以日常对接需求过程中,接到一个需求时,一般会先进行资源匹配评估,这个事情能不能通过叠人力的方式解决,如果通过线下大概需要花多少人力成本,用一些小样本数据的归纳总结能不能得出通用的规则。做调研然后去推行的成本有多少,产出有多少。

再之后才是通过算法方案去解决,投入的工程师要几人月,设备资源性能上的要求,能够持续多久,可以影响的层面,以及最后的产出估测。最后再综合考虑,这个投入产出比的情况下,到底是通过小数据分析去形成规则,还是需要通过算法去挖掘特征,以及方案的可持续性。

大公司里面资源较丰富,往往这两者会并行。从某种程度也就严格的区分了数据分析和数据算法间的职责边界;而中小企业资源有限,可能造成分析即算法的现象。

我们发现,供需匹配过程中涉及的算法,基本都是有监督算法,不论是人群分类、商品召回、需求匹配,都可以通过过去的经验进行一个初步标签建立,然后逐步去对划分的准确性进行校验和优化。

值得一谈的是,在供需的某些场景过程中会并存很多涉及物联网的知识,譬如物流调度、配送匹配、路线优化、仓库建设等等供应链优化方面的事情,这些场景下除了算法外,还需要去了解下运筹学的内容。

2. 异常识别和诊断

异常检测,在前几年p2p还没有暴雷的时候,金融领域里面遍地都是,主要的场景就是风控,风控的场景细分:

  • 信用卡交易反欺诈:分类任务,GBDT算法 / XGBT算法+LR逻辑回归;
  • 信用卡申请反欺诈:分类任务,GBDT算法 / XGBT算法+LR逻辑回归;
  • 贷款申请反欺诈:分类任务,GBDT算法 / XGBT算法+LR逻辑回归;
  • 反洗钱:分类任务,GBDT算法 / XGBT算法+LR逻辑回归。

金融领域涉及到风控的几乎都是GBDT / XGBT+LR,因为在金融行业有一个非常特别的属性:监管。

对于算法结果必须有非常好的模型解释,对于LR模型来说,这是天然的优势,特征可解释,特征工程清晰,每个特征的贡献度、相关程度也可以被统计出来。

换了其他深度学习的模型,从最终的模型效果上来看,roc/auc/ks的表现没差,但是解释性极差,也就造成了很多应用上的壁垒。换一个通俗点说法,你很高级,然而并不实用,华而不实。

3. 排序

排序之所以单拎出来,它的应用场景其实有一定的局限性,但是怎么做好排序,客观、合理,却是一个值得去考究的事情。常见的排序应用场景有热点榜单、搜索排序、推荐排序等。

知乎的问题回答排序是一个经典的排序应用场景,既要保证优质高赞内容可以排在前面被用户浏览,又要保证新增内容有一定曝光量,同时需要综合考虑话题热度及社区调性等多重因素。

故需要将回答赞/踩数量、回答用户该领域权威性、赞/踩用户领域权威性、回答时间、回答争议性、回答用户的历史画像特征等综合权重进行算法排序。

4.  预测

数值预测与分类预测都属于预测场景。销售预测、股票预测、流量预测,这些都是常见的预测场景。11、12年的时候清一色的都会用arima,spss在手天下我有,没有什么是时序不能解决的,到后面就变成xgboost、LightGBM了。

5. 知识图谱

2012年的时候google推出了一个叫Knowledge Graph的产品,能够直观的看到词和其背后知识的关系。

很多大公司都已经在知识图谱的建设上进行布局了,知识图谱最早的应用是提升搜索引擎的能力,随后在辅助智能问答、自然语言理解、大数据分析、推荐计算、物联网设备互联、可解释性人工智能等多个方面展现出丰富的应用价值,这几年推广比较成功的应该是AI辅助司法进行案件判决。

  • 信息检索/搜索:搜索引擎中对实体信息的精准聚合和匹配、对关键词的理解以及对搜索意图的语义分析等;
  • 自然语言理解:知识图谱中的知识作为理解自然语言中实体和关系的背景信息;
  • 问答系统:匹配问答模式和知识图谱中知识子图之间的映射;
  • 推荐系统:将知识图谱作为一种辅助信息集成到推荐系统中以提供更加精准的推荐选项,知识图谱+推荐系统;
  • 电子商务:构建商品的知识图谱用于精准匹配用户的购买意愿和商品候选集,知识图谱+推荐系统;
  • 金融风控:利用实体之间的关系分析金融活动的风险以提供在风险触发后的补救措施(如反欺诈等);
  • 公安刑侦:分析实体和实体之间的关系获取案件线索等;
  • 司法辅助:法律条文的结构化表示和查询用于辅助案件的判决等;
  • 教育医疗:提供可视化的知识表示,用于药物分析、疾病诊断等;
  • 社交类业务:社交类业务具备高度连接的特点,比如好友关系等,<用户1,关注,用户2>。
相关推荐