基于博弈和多智能体的汽车共享服务联盟协同策略研究

危小超，范玉瑶

武汉理工大学经济学院，湖北武汉430070

汽车共享对于缓解交通拥堵、降低温室气体排放具有重要意义[1].近年来，国家相继出台了很多相关监管要求及鼓励政策以推动汽车共享服务的可持续发展.当前汽车共享的运营主要以自营模式为主，即车企或服务商独自构建服务运营体系，投入自有汽车，运用自有资金进行服务网点、充电设施、停车位等服务资源的建设.但自营模式资金投入高、服务资源不足导致用户满意度低、短期盈利困难等问题.

服务联盟的运营模式给汽车共享服务商带来转机.通过构建汽车共享服务联盟实现加盟服务商车辆、车位、充电桩等资源共享，能够极大提高用户满意度，同时为联盟汽车服务商短期内收回运营成本、实现盈利提供可能.目前国内汽车共享服务联盟的建设仍处于探索初期，存在部分加盟服务商拒不执行联盟决定、拒绝与联盟内其他服务商合作的情况.因此，研究汽车共享服务联盟协同策略对于加强联盟管理、提升联盟凝聚力具有重要理论和现实意义.

汽车共享服务联盟能够带来显著的经济效益和社会效益，因此关于汽车共享服务联盟的研究和探讨逐渐引起了行业和学术工作者的关注.文献[2]从服务商选择、利益分配、协作机制3方面研究汽车共享服务联盟，设计了一种服务联盟运行管理体系；
文献[3]提出了一种基于区块链和车联网的汽车共享租赁服务联盟模式，通过区块链系统加快了可信数据的流通；
文献[4]研究了创新网络动态演化过程中企业的结盟行为，对企业的网络位置与联盟伙伴的选择进行了讨论；
文献[5]提出一种汽车共享服务联盟的平台模式，以实现联盟内部客户数据、技术和车位的共享；
文献[6-8]研究了汽车共享企业与政府、社会组织合作和结盟的可能性，并提出公私合作的商业模式；
文献[9]提出了分散决策、集中决策、收益共享与成本共担等多个场景下的汽车共享企业和政府之间的博弈模型，研究了汽车共享企业与政府的合作协调机制.

上述文献从宏观层面探讨了联盟的发展趋势，但鲜少涉及联盟管理水平不断完善下联盟成员的各类动态和复杂决策问题.如联盟内成员数量对联盟收益的影响，合作成本与惩罚力度对联盟内服务商群体的作用效果.博弈论具有简洁高效、分析能力强等特点，已成为行为决策分析的主要框架[10].多Agent 仿真常用于复杂系统建模，是一种自下而上的建模方法，擅长研究个体微观互动产生的宏观涌现现象，在个体博弈研究领域得到了广泛应用[11].

综上所述，本文将演化博弈理论引入多Agent 仿真模型，以Agent 代表汽车共享服务联盟中的加盟服务商，从演化博弈视角构建服务联盟仿真模型，设计综合考虑服务商自身与邻居历史信息的学习规则，研究不同Agent 之间的演化博弈收益互动决策问题.

汽车共享服务联盟的初衷是希望通过资源共享实现合作互赢，合作本质上是联盟服务商相互牵制的过程，强调了对共同利益的追求[12].服务商单方面将合作或竞争放大都是危险的，过分合作会导致自身优势的丧失、造成对联盟的依赖、忽视核心能力的培养等一系列负面效应，因此联盟内存在服务商在加入联盟之后对联盟事务拒绝合作的问题.

在汽车共享服务联盟的运行过程中，加盟服务商可能对联盟事务持“合作”或“拒绝”两种态度，分别表示汽车共享服务商合作或拒绝合作，例如服务商是否参与平台为推广用户所发起的折扣优惠活动等.可用对称博弈描述竞争场景，其博弈收益矩阵如表1所示.

由表1可知，该博弈存在两个纯策略纳什均衡，即（合作，合作）和（拒绝，拒绝），在这两个均衡中前者明显优于后者，对于动态变化的汽车共享服务联盟来说，这也是最希望看到的结果.但在实际场景中有可能达不到这种均衡.事实上，在联盟互动协作的过程中，部分服务商认为合作风险过高，持拒绝合作态度，并期望其他服务商持合作态度，从而自身能够获得最大收益b.但如果其他服务商也采取此种拒绝策略，则双方获得的收益均为0.

表1 服务商交互行为博弈矩阵Table 1 Game matrix of service provider interaction behavior

为避免部分服务商此种投机行为，同时调动联盟内成员积极性，服务联盟可以采取惩罚措施.构建含惩罚参数的服务商交互行为的收益博弈矩阵，如表2所示.

表2 含惩罚参数的交互行为博弈矩阵Table 2 Interactive behavior game matrix with penalty parameters

结合现实背景，汽车加盟服务商对联盟事务持合作时的收益一定是大于合作所需要的成本，即b > c；
汽车加盟服务商对联盟事务持合作时的收益也一定是大于拒绝合作所付出的惩罚，即b > d.具体地，下文将对含惩罚参数的交互行为矩阵进行演化博弈分析，研究竞合策略的演化平衡点及其稳定性，为进一步研究汽车共享服务联盟协同策略提供理论支撑.首先令p为合作概率，表示邻居中状态为合作的服务商数与邻居总数之比，p伴随着服务商以及其邻居状态变化而变化，则服务商采取合作策略时的期望收益E1为

服务商采取拒绝合作策略时的期望收益E2为

群体平均收益E为

分别把复制动态方程用于两个位置博弈方群体，得到合作方比例的复制动态方程为

同上推导，拒绝方的比例复制动态方程为

由此可得该复制动态的博弈均衡点为

根据进化稳定策略的性质，一个稳定状态必须对微小扰动具有稳健性.即作为进化稳定策略的均衡点x∗，当博弈方因偶然错误偏离均衡点时，复制动态仍然会使x回到x∗.也即为当扰动x出现低于x∗时，dp/dt=F(x)必须大于0；
当扰动x出现高于x∗时，dp/dt=F(x)必须小于0.

将汽车共享联盟抽象成一个信息不完全对称的网络，联盟是为互利共赢而存在，联盟内的服务商可以看作网络中的节点，服务商之间的联系可看作网络的边.网络中的服务商个体能够了解邻居服务商的行为，但是不能完全了解全局的网络信息.因此，汽车共享联盟的动态演化不能简单地用式(1)∼(6)描述.

因此，本文在演化博弈的基础上，构建汽车共享服务联盟的多智能体仿真模型.基于演化博弈简洁高效、分析能力强的特点，对汽车共享服务联盟这一复杂系统中的多个服务商及其交互行为进行建模，提高了仿真模型与真实联盟环境的相似度.同时，多智能体仿真擅长研究个体微观互动产生的宏观涌现现象，在演化博弈中联盟的服务商数量众多且行为动态变化、传统解析方法难以适用，可以利用多智能体进行仿真与建模，量化和求解演化博弈的结果.

2.1 智能体设计

用Agent 表示具有独立决策能力的服务商，用网络表示Agent 决策环境.单个服务商协同策略受个体偏好和历史策略（邻居和自身）的影响，网络中单个Agent 根据个体偏好以及周围邻居交互可以建立信息传播关系.

定义1 Agent={Ω,S,Y,F,T}其中

1)Ω为服务商群体，为Agent 集合，有Ω={Agent1,Agent2,···,Agentn}.一个Agent对应1个联盟服务商.

2)S为状态空间，S={Co,De}，Co为合作状态，De为拒绝状态.本系统中用Agent 上的颜色区分其工作状态.

3)Y为Agent 邻居集合，有Y={Y1,Y2,···,Yn}，其中，Yi={Agenti →Agentj}，即Y由与该Agent 相连的智能体组成.

4)F为状态转移函数，即个体当前状态与上一时刻的自身状态和邻居状态有关.

5)T为系统时钟，有T={1,2,3,···}，是模拟系统的基础.

2.2 规则设定

1）网络构建规则

在随机网络模型下，每个个体以一定的概率连接网络节点.

2）联盟服务商收益分配规则

现令p为合作概率，表示邻居中状态为合作的服务商数与邻居总数之比，则持拒绝合作的服务商比例为1−p.当合作数大于0 时，合作收益为b −c(1−p/2)，而拒绝合作的收益为p(b −d)，若所有服务商均选择拒绝合作，则每个服务商的收益都为0.

3）演化规则

与传统网络中扩散行为不同，本系统考虑网络中所有服务商在某时刻受自身和邻居行为的影响，为下一时刻是否合作提供决策依据.由于服务商只能了解自身和周围邻居的行为，而不能获知联盟内所有服务商的行为，因此，系统中加盟服务商表现出一种学习行为.关于学习算法的研究较多，本文借鉴文献[13]提出了模仿概率，公式为

式中，Ui为服务商自身效用值；
Ujmax为该服务商最大邻居收益值；
k为信息噪声，其值越大，模仿概率P越小.当k取值趋于∞时，p趋近于1/2，此时式(7)是一种抛硬币模仿方式，而当k取值趋于0 时，p趋近于1，此时式(7)是高概率模仿方式.在该服务商的个体邻域中，以概率方法选出最大收益的邻居为模仿对象.

4）状态转变规则

初始时刻，通过随机方式选取等比例的合作者与拒绝者；
在演化过程中，个体状态选择取决于自身决策和邻居策略，即由自身效用值Ui和最大邻居收益值Ujmax决定，其状态转变规则如下：

本文利用Anylogic 6.4.1 软件开发多Agent 仿真系统，设计并运行多组仿真实验，通过调整服务商效用参数，观察汽车共享服务联盟中服务商协同策略演化规律.由于仿真数据较多，受篇幅限制，本文将采用典型图示和数据进行说明.服务商规模对平均收益影响较小的结论可见文献[14]，此处不再赘述.为了便于计算和分析，实验设定Agent 数目为100.其他仿真初始参数设置如表3所示.

表3 系统初始参数设置Table 3 System initial parameter setting

3.1 单一参数变化对协同策略的影响

1）合作收益b对服务商协同策略的影响

研究采取合作策略所带来的收益对汽车共享联盟服务商采取协同策略的影响.分别设置不同收益参数b，观察联盟协同策略演化过程.如图1所示，控制成本c和惩罚d恒定，当b分别为37、40 和43 时，合作者比率呈上升趋势.

图1 b 对合作者比率的影响Figure 1 b impact on partner ratio

表4更清晰地说明了收益参数b变化时两类服务商的平均收益和方差的变化.可以看出，b增大，服务商的平均收益增加，方差减小.即随着收益的增大，服务联盟协同策略合作概率增加，服务商合作意愿加强，且服务商合作行为更稳定.说明在有利可图的情形下，联盟内多数服务商会选择合作.

表4 不同环境参数下服务商的收益Table 4 Revenue of service providers under different environmental parameters

2）联盟惩罚d对服务商协同策略的影响

研究联盟惩罚对汽车共享联盟服务商采取协同策略的影响.分别设置不同惩罚参数d，观察联盟协同策略演化过程.如图2所示，控制收益b和成本c恒定，当d分别为12、15 和18 时，合作者概率上升趋势明显，联盟趋于合作占优.可见，在汽车共享服务联盟的管理中，管理者通过加大惩罚力度可以在一定程度上加强服务商的合作意愿.

3）合作成本c对服务商协同策略的影响

研究合作策略所付出的成本对汽车共享联盟服务商采取协同策略的影响.分别设置不同成本参数c，观察联盟协同策略演化过程.如图3所示，控制收益d和惩罚d恒定，当c分别为37、40 和43 时，合作者概率先呈现增长趋势后出现下降.可见，在汽车共享服务联盟的管理中，管理者可以通过合理控制成本，提高行业壁垒，一定程度上能够加强服务商合作意愿，但是合作成本一旦超过多数服务商的承受水平，就会出现全部服务商拒绝合作，那么联盟就没有了意义.

从宏观趋势来看，收益b和惩罚d的合作和拒绝合作趋势一致，随着b或d的增加，群体合作概率占优，说明在汽车共享服务联盟中，提升加盟服务商的收益水平和加大对不合作服务商的惩罚力度均有助于提升联盟的合作水平.相反，随着成本c的增加，合作概率下降，拒绝合作概率增加，这种现象与现实博弈场景一致.因而为提升联盟合作水平，联盟的管理者应采取措施，尽可能地降低加盟服务商执行联盟政策决定的合作成本.

图2 d 对合作者比率的影响Figure 2 d impact on partner ratio

图3 c 对合作者比率的影响Figure 3 c impact on partner ratio

3.2 不同参数等幅度变化对协同策略的影响

大量实验表明，当合作收益b=40，合作成本c=40 和联盟惩罚d=15 时，合作与拒绝合作的收益处于均衡状态，如图4所示，后续实验均在此基础上进行参数调整.

1）b和d等幅度变化对协同策略的影响

图4 参数b=40, c=40, d=15 时策略者比率变化图Figure 4 Change chart of the ratio of strategists with parameters b=40, c=40, d=15

研究等幅度的合作收益与联盟惩罚的变化对汽车共享联盟服务商采取协同策略的影响程度.分别减小3 个单位参数b和d，如图5(a)∼(b)所示，观察联盟协同策略演化过程.当b=37 时，联盟内的平均合作概率约为0.36；
当d=12 时，联盟内的平均合作概率约为0.42.可见，合作收益减小，拒绝合作概率增加更显著.说明相比于降低惩罚，降低收益对联盟内服务商的效用更加明显，在期望收益降低的情况下，服务商更容易趋于拒绝合作.汽车共享服务属于重资产型运营模式，服务商前期投入成本高，因此汽车服务商在很长一段时间内都会更加看重合作收益.

图5 b 和d 等幅度减小的协同影响Figure 5 Synergistic effect of equal amplitude reduction of b and d

但是增大等幅度的合作收益与联盟惩罚，如图6(a)∼(b)所示，联盟内的平均合作概率约为0.52∶0.76.可见联盟惩罚增加，合作概率短时间内增加，呈现合作占优.说明相比于增加收益，增加惩罚对联盟内供应商的效用更加明显，服务商为避免承担更高的惩罚，使得自己的预期收益受到更大的损失，短时间内更趋于合作.说明在汽车共享服务联盟的管理中，相比“胡萝卜”政策，“大棒”政策的效果更好，联盟管理者应该更多利用惩罚手段，来规范联盟的发展.

图6 b 和d 等幅度增大的协同影响Figure 6 Synergistic effect of equal amplitude increase of b and d

2）c和b等幅度变化对协同策略的影响

研究等幅度的合作成本与合作收益的变化对汽车共享联盟服务商采取协同策略的影响程度.分别减小3 个单位的b和增加3 个单位的c，如图7(a)∼(b)所示，观察联盟协同策略演化过程.当b=37 时，联盟内的平均合作概率约为0.01；
当c=43 时，联盟内的平均合作概率约为0.36.可见，合作成本对服务商的决策影响更显著.增加等幅度合作成本后，汽车共享联盟内服务商在极短时间内全部选择拒绝合作.因此，等幅度下成本增大对群体选择拒绝合作的决策影响更大.对于汽车共享服务联盟内的服务商而言，控制成本能够获得更大的盈利空间，而选择合作的成本是先期发生的，合作后能够获得的收益则存在不确定性，因而更倾向于拒绝合作.说明在联盟的管理过程中，相比于提升服务商的预期收益水平，联盟的管理者更应着眼于做好平台的服务工作，降低加盟服务商的合作成本，以更显著地提升服务商的合作意愿.GoFun 出行采取的“降本增效”策略即是较好的例证，通过车源平台化、集采及分时保险的方式，降低了加盟服务商的合作成本，从而筑建了专业化网格管理体系，提升了加盟服务商的合作意愿.

图7 c 与b 等幅度变化对协同策略的影响Figure 7 Influence of c and b equal amplitude changes on cooperative strategy

3）c和d等幅度变化对协同策略的影响

研究等幅度的合作成本与联盟惩罚的变化对汽车共享联盟服务商采取协同策略的影响程度.分别增加3 个单位的d和减小3 个单位的c，如图8（a）∼（b）所示，观察联盟协同策略演化过程.当d=18 时，联盟内的平均合作概率约为0.81；
当c=43 时，联盟内的平均合作概率约为0.65.因此，等幅度下加大惩罚有利于群体选择合作.说明相比于减少合作成本，增加惩罚对联盟内服务商的决策效果更加明显，服务商为避免承担更高的惩罚，短时间内更趋于合作.因而为在短期内迅速提升联盟合作水平，联盟的管理者应采取更强硬的态度，加大对联盟内不合作行为的惩罚力度.

3.3 结果与建议

综合上述实验可知：1）在汽车共享服务联盟中，收益b和惩罚d的合作和拒绝合作趋势一致，随着b或d的增加，群体合作概率占优.相反，随着成本c的增加，合作概率下降，拒绝合作概率增加.2）同等程度地减小合作收益或联盟惩罚，仿真结果显示合作收益的减小能够更直接地对联盟协同策略产生影响，拒绝合作概率会显著增加；
相反，同等程度地增大合作收益或联盟惩罚，联盟服务商对联盟惩罚的增加更加敏感，为避免遭受更高惩罚，联盟服务商会倾向于合作.3）同等程度地增加合作成本与同等程度地减小合作收益相比，高成本比低收益对汽车服务联盟协同策略的影响更显著，合作成本越高，联盟服务商会在越短的时间内达到拒绝合作占优；
4）同等程度地减小合作成本与同等程度地加大联盟惩罚相比，等幅度加大惩罚有利于群体选择合作.

基于上述实验结果，针对汽车共享服务联盟的管理提出如下对策与建议.

图8 c 与d 等幅度变化对协同策略的影响Figure 8 Influence of c and d equal amplitude changes on cooperative strategy

1）“胡萝卜+大棒”调控机制提升合作意愿：为提升联盟内服务商的合作意愿，联盟的管理者应采取措施提升服务商的收益水平，降低服务商之间合作的成本，加大对联盟内服务商采取不合作态度时的惩罚力度；

2）可优先采用降低成本提升合作意愿：相比于提升联盟内服务商的预期收益，联盟服务商的管理者更应采取措施降低合作成本，从而提升服务商合作意愿；

3）长短期合作目标下采用不同策略：联盟的管理者在采取多种措施提升服务商合作意愿时，相对比于增加预期收益水平和降低合作成本，采取加大惩罚力度的措施在短期内更容易使联盟内服务商趋于合作，但为实现长期稳定合作，联盟的管理者仍应致力于提升预期收益、降低合作成本.

本文从演化博弈视角构建汽车共享服务联盟多智能体仿真模型.通过集成演化博弈，设计综合考虑自身与邻居历史信息的学习规则，实现不同参数下汽车共享服务联盟的多Agent 仿真模型，从而研究不同参数对联盟协同策略的影响.

研究发现，为加强汽车共享服务联盟管理，推动加盟服务商参与联盟合作，联盟应降低加盟服务商参与合作的成本，提升服务商采取合作策略的收益，增加服务商拒绝合作的惩罚.而在面临双因素影响的复杂场景时，联盟可采取以下措施：1）同等程度地增大合作收益或联盟惩罚时，选择增大联盟惩罚更能使联盟服务商倾向于合作；
2）同等程度地降低合作成本或同等程度地增加合作收益时，选择降低合作成本更能够使联盟服务商倾向于合作；
3）同等程度地减小合作成本或同等程度地加大联盟惩罚时，选择等幅度加大惩罚有利于群体选择合作.

本文模拟实验和研究成果能够为汽车共享服务联盟的管理者进行合作收益、合作成本以及联盟惩罚等重要参数的设置提供理论基础与决策依据.后续研究工作将主要聚焦于对不同类型的汽车共享联盟服务商进行讨论，研究不同参数对具有个性特征的服务商协同策略的影响，从而提高该模型的普适性.

猜你喜欢服务商惩罚收益航天卫星领域专业服务商军民两用技术与产品(2022年3期)2022-06-05论IaaS云服务商的著作权侵权责任福建江夏学院学报(2021年6期)2021-08-10螃蟹爬上“网” 收益落进兜今日农业(2020年20期)2020-12-15神的惩罚小读者(2020年2期)2020-03-12Jokes笑话阅读（快乐英语高年级）(2019年11期)2019-09-10惩罚趣味(语文)(2018年1期)2018-05-25怎么设定你的年化收益目标海峡姐妹(2017年6期)2017-06-242015年理财“6宗最”谁能给你稳稳的收益金色年华(2016年1期)2016-02-28真正的惩罚等学苑创造·A版(2015年6期)2015-07-01期刊展示宣传服务商中国期刊年鉴(2015年0期)2015-01-19

推荐访问:博弈协同策略