订阅

首页

在最理想的情况下,自学习算法可能成为“三赢”

财富中文 2023-03-28 12:23:15

当新冠疫情来袭时,塞巴斯蒂安·马丁正在Lyft公司担任博士后研究员。突然之间,使用Lyft应用程序的乘客与司机的数量发生了重大的变化,公司也试图迅速因应。

Lyft过去一直使用一种算法来匹配司机与乘客,因此公司以为或许将这个算法稍做调整便可以变成有效的新冠疫情方案。然而事与愿违,这项工作比预料的困难许多。“它证明了这套系统的局限性。”如今是凯洛格学院运营学助理教授的马丁说道。


(资料图片)

马丁解释,主要问题在于简单的算法,例如将距离最近的司机指派给乘客,事实上效果不是那么好。

于是马丁开始思考如何能够改善这种匹配算法,甚至在共乘服务从新冠疫情中复苏之后。如果算法可以教自己更好地调度司机然后做出实时调整会怎样呢?

马丁和一个Lyft团队实现了这样的假设。他们用了一年多的时间创造出了一个能够进行“强化学习”的算法,这在科技公司简直就是永生,马丁表示。而设计这个算法虽然困难,但要说服公司上下去试用一样很难。

毕竟,强化学习会要你“让出一大部分的掌控权。”马丁说。“一台可以做决定而不告诉你的机器?试想如果它做的决定关乎你赖以维生的工作呢?”

然而结果是值得的:Lyft公司开始赚更多的钱,司机有了更多的工作,乘客给出了更多的五星评价。此外,他们的项目被提名为2023年弗兰兹·厄德曼奖(Franz Edelman Award)的六名决赛者之一,这是分析与运营研究领域里最负盛名的奖项。如果你在过去一两年内用过Lyft,那么这个算法就帮助过你匹配给某个司机,而你的出行数据反过来又帮助改进算法。

在对自学习算法越来越忧惧的氛围下(想想ChatGPT),Lyft的故事显示在这些工具中,有些确实能够改善每一个人的生活,马丁表示。

“它不总是零和游戏”,输与赢不是处于此消彼长的状态。他说道。“乘客更满意,司机更忙碌,平台赚钱更多。基本上是百利而无一害。”

为什么最近的并不总是最好的

对大多数人而言,尤其是下雨天站在街头等候共乘的我们来说,派出距离最近的司机似乎是最符合逻辑的做法。但实际上却不总是如此。

当生意繁忙而司机人手不足时,问题就出现了,马丁解释道。在这种情况下,离乘客最近的司机或许还相当远。要是派遣这名司机,他就要花很多时间“开空车”,让乘客苦苦等候,说不定司机还在途中,乘客就已经取消叫车。还有很关键的一点是这意味着试图叫车的新乘客会需要等候更长的时间,因为有空的司机正在花很多时间试图开车到下一个乘客那里,因此有空载客的司机越来越少。

“它像是平台的死亡螺旋。”马丁说道。

因此,理想的解决方案会是一个可以预测接下来几分钟情况如何演变的匹配算法。会有一个新的、更近的乘客出现吗?某条堵车的道路会变的通畅而缩短开车时间吗?如果司机去接载某个乘客,下车地点的附近是否会有另一个乘客,使得转换到下一个乘客的效率更高吗?

总之,这个算法要能够预测接下来会发生什么事情。马丁和Lyft的团队成功地教算法去做这样的工作。

他们着重于在任何时间有空的司机的“价值”,这个价值是司机工作当天收入的估计值。然后,他们训练算法不间断地分析实时情况,以便算法训练自己预期接下来最可能发生什么事情。

这类似于会下棋的强化学习算法,马丁说道。下棋算法接受数百万个实际棋局的训练,然后便可以用那些知识来预测对手的下一步走法。

该团队通过建立实验时段和对照时段来测试他们的算法。在实验时段,Lyft用强化学习算法来匹配司机与乘客,在对照时段,则用Lyft的一般算法进行匹配。

在经过一年多的调整改进后,他们找到了一个在所有重要功能上都胜过旧算法的新算法。它一年为公司多增加相当于超过3,000万美元的收益,司机的收入也相应提高。乘客取消叫车的可能性减少了3%,叫车后没有司机能够接单的情况减少了13%。同时,乘客的五星评价数量也变多。

马丁说:“使用Lyft的人没有增加。这些改善是由于司机获得了更好的运用。”

超越数学

他们的成功是共乘公司使用强化学习的第一个记载案例。不过,设计算法不是唯一的困难点。

“比数学更重要的,是如何在公司内做这件事情。”马丁表示。

强化学习意味着涉及其中的人未必对事情的现况一清二楚。对一家公司而言,这变得有些棘手,马丁说道。比如,假设负责定价的团队想要进行自己的实验,那么他们就希望将所有其他因素保持不变以便了解实验数据。但如果与此同时,一个匹配算法自行改变,要知道如何解读定价实验的数据就变得很困难。

“它让其他许多情况变得错综复杂。”马丁说道。

此外,它使研发该算法的团队难以了解如何继续创新。“如果人们对正在发生的事情一无所知,他们如何能够继续创新?”马丁问道。马丁目前和一名博士生黄玉笛(音译)合作,后者正在与Lyft合力研究这个问题。

此外,在Lyft,这个算法的研发花费了一年多的时间。“一年对科技公司是很长的时间,两个月就已经很长了!在一件效期不长的事情上花一年时间是非常少见的。”他说道。

最终,该团队保持士气,终于说服公司的其余部门让他们继续实验。他说,这不涉及高科技策略。“用的是任何地方都适用的相同方式,也就是去找合适的人商量,取得人家的信任。组织一个兴致高昂的团队,然后证明东西有效。在研究领域里,通常认为构想本身就已足够,但对公司而言,真正可以带来成果的是过程。”

事实是,至少在这个案例上,过程带来“三赢”的情况,马丁对此特别兴奋。

每一次团队测试修改后的算法时,他们会看着仪表板上各项重要指标的颜色变化,红色代表实验结果比现况糟,绿色代表比现况好。

“团队找到致胜算法的那一天,仪表板上出现了一整片绿色。”他说,“这就是运营优化真正要做到的事情:找出全绿的东西。”(财富中文网)

相关稿件

最近更新

在最理想的情况下,自学习算法可能成为“三赢”

马斯克嘲讽比尔·盖茨:他对AI的理解“有限”

环球简讯:这些地铁站站名只有一字之差,但距离相差甚远,你都了解吗?

全球快消息!* 同花顺抛高管大规模减持计划,预计套现约90亿

当前滚动:诺普信:公司在云南布局种植的蓝莓采用了以色列耐特菲姆和荷兰Priva 智能灌溉系统

当前视讯!恒铭达:公司的定增工作正在有序推进中,相关的投资者调研活动,请关注公司披露的调研活动表

刚宣布,沙特阿美爆买A股千亿龙头

每日聚焦:一汽奥迪补贴经销商清库存,主销车型降价近10万元

全球时讯:胡锡进:马云回国了,这原本不该是新闻

财富之上 诺亚遇见国际时装周|Noah Art

环球速讯:两年实现“万店加盟”的九州通,3年半被罚近千万

热门看点:天利科技:公司与百度有业务往来,与阿里、字节暂时无业务往来

天天要闻:煌上煌:截至2023年3月20日公司股东人数为43,177人

观想科技:如有相关重大进展,公司将会严格按照相关法律法规及时进行信息披露

当前报道:ST新城:目前正在推进,力争今年有所突破

今日韦斯利约翰逊老婆(韦斯利·约翰逊)

环球今日报丨沙特国家银行董事长宣布辞职

环球热头条丨万润股份:公司具体生产所需要的原料情况属于公司商业信息,请您理解

环球消息!亚光股份:这位公司生产的MVR系统主要用途为蒸发和提纯

华塑科技:公司储能锂电业务主要包括大型储能和家储领域

世界热头条丨岭南股份:腾讯是一家优秀的互联网公司,在非常多的领域,将产品与服务做到极致,成为行业的标杆

3月28日盘前重要产业新闻

观天下!关于人工智能技术,科技部重磅部署!

世界播报:全球最大交易所币安及赵长鹏被起诉!本人回应

研究发现,美国银行的未实现损失高达1.7万亿美元,这可能是一枚“定时炸弹”

每日热文:萃华珠宝:关于去年6月份的协议转让,正在办理中,待中登过户完成后,会第一时间在巨潮资讯网披露相关公告

每日信息:ST中捷因信披违规领150万元罚单 这类投资者有索赔资格

【全球聚看点】特变电工:公司2022年度利润分配方案尚未制定,请您持续关注公司公告

全球视点!快速通过上市聆讯,港股白酒第一股来了!

3家上市险企披露年报 投资端普遍承压