
黄光球,魏芳
(西安建筑科技大学管理学院,西安 710055,huangnan93@sohu.com)
摘要:传统的电子商务推荐系统虽然考虑到个性化的推荐,但不能很好的描述用户行为,使得个性化的推荐略显不足。本文提出基于贝叶斯动态预测的模型,并结合Agent技术,很好地建立了用户行为预测模型。该方法以用户历史数据为基础,并结合用户的实时行为建立用户行为预测模型。本文将此方法运用于商品推荐系统中,实验证明此方法能高效地为客户产生个性化的商品推荐集合,优于某些传统方法。
关键字:贝叶斯动态预测模型,用户行为预测模型,个性化商品推荐
An Approach to Commodity Recommendation Based on Bayesian
Dynamic Forecasting Model
(Xian University of Architecture & Technology, Xian 710055,Shaanxi, China) Abstract:Although typical recommendation on E-commerce takes individual recommendation into consideration, it cannot describe users’ behavior very well so as to make individual recommendation to run poorly. This paper build a users’ behavior model based on Bayesian dynamic forecasting model with agent techniques, the model is built by learning from users’ history data and behaviors at present. This method is used in a commodity recommendation system, an experimental result demonstrates that this method can effectively generate an individual recommendation set of commodity, and it is better than some traditional methods.
Key words:Bayesian dynamic forecasting model, users’ behavior model, individual commodity recommendation
中图分类号:TP311 文献标识码:A
1 引言
近年来,随着计算机和网络的迅速发展,计算机用户不断被庞大芜杂的信息海洋淹没。因此人们在寻求一种将用户感兴趣的信息主动推荐给用户的服务模式。在电子商务环境下,网站的经营和管理者同样希望给顾客提供便捷优质的服务,以促进网站的浏览者转变为购买者,提高网站的销售业绩。所以,真正理解电子商务网站用户的访问行为,从中挖掘出有意义的模式,对于电子商务网站的生存和发展是非常重要的[1,2]。
电子商务中的推荐系统就是为了解决此问题建立的。目前,协同过滤是推荐系统中应用最广泛和最成功的技术[3]。给定目标用户的一个活动记录,通过最邻近算法等技术,发现与目标用户的兴趣最接近的k个用户,使用这个方法能够挖掘出隐藏的用户。但是协同过滤技术最大的缺陷是推荐有一定的盲目性,并未考虑不同用户所蕴含的个性化的行为习惯,而且可扩展性差和效率低下[4],因为在线生成近邻对于有很大数据集和用户数的情况会引起难以接受的推荐响应时间。基于关联规则的推荐以关联规则为基础,把已购商品作为规则头,推荐对象作为规则体,其中关联规则的发现最关键且最耗时,是算法的瓶颈,但可以离线进行,商品名称的同义性问题也是关联规则的一个难点[5-7]。
贝叶斯动态预测模型目前主要应用于天气预测、大坝监测、收益预测、器件的性能预测中以及入侵检测中。由于贝叶斯动态预测模型可预测突发事件,因此可以应用在用户的实时推荐中,从而更好的反映不同时期用户的不同喜好。因此本文将贝叶斯动态预测模型运用于用户行为的挖掘中,可以动态的建立和更新用户行为预测模型,满足了在线推荐的需要。贝叶斯预测模型通过对历史数据的学习以及专家的经验的总结,更好的挖掘用户的潜在行为。从而满足用户的个性化推荐需求。
2 贝叶斯动态模型
贝叶斯预测的一个基本方法是建立动态模型,将研究对象的过程通过状态方程与观测方程来描述,状态方程是反映系统的变化情况,表示系统内部的动态变化和随机扰动;观测方程是反映测量数据这个模型是由两个方程和一个初始条件所确定的一个系统。
贝叶斯动态预测模型基本特点是:①模型参数是随机变量,有初始的先验分布;②在每一指定时刻,模型参数的先验分布是过去所有信息的综合;③模型参数的后验分布是当前信息与先验分布的综合;④对未来的预测基于当前的后验分布。
**陕西自然科学基金项目(编号:2005F38),校基础研究基金项目(编号:JC0616)
其定义如下:
观测方程: t t t t y F v θ=+, ~[0,]t t v N V (1) 状态方程:
1t t t t G w θθ−=+, ~[0,]t t w N W (2)
初始先验: 0000(|)~[,]D N m C θ (3)
t θ为t 时刻的状态参量,是一个n ×1的矩阵;t F 是n ×r 的动态回归矩阵;t G 是n ×n 的状态转移矩阵;t v 和t w 分别为互相的观测误差和状态误差变量。在实践中,模型中的i
t W 一般不易确定,为了克服这一困难,在模型中引入折扣因子δ,通常01δ<<。带有折扣
因子的一阶多项式模型称为一阶多项式折扣模型[8],具体实现如下。
设观测序列为0t y ,1t y ,…,n t y ,其中01n t t t << 其中i t µ表示在时刻序列的水平,i t β表示从时刻1i t −到i t 序列水平的增长。 观测方程: i i i t t t y V µ=+,~[0,]i i t t V N V (4) 状态方程: 11,1 1,211(/)(/)i i i i i i i t t i i t t t i i t t r r w r r w µµβββ−−−−−⎧=++⎪⎨ =+⎪⎩ (5) 其中,1,2[,]i i i T t t t w w w =。 初始信息: 0000 ,t t t t t D N m C µβ⎛⎞⎡⎤⎡⎤⎜⎟⎢⎥⎣⎦⎜⎟ ⎢⎥⎣⎦⎝⎠: (6) 其中00.10.30000.30.2,t t t t t t t t m C C m C b C C ⎡⎤⎡⎤ ==⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦⎣⎦ ;为观测误差项,它服从均值为零,方差为i t V 的正态 分布;i t D 为i t 时刻及以前关于系统的信息集合。1(1)i i i i i r T t t t t W G G G δ−−=−,此模型中有 111/0,,0/1i i i i t i i t t i i t r r F G r r µθβ−−⎛⎞⎡⎤⎛⎞ ===⎜⎟⎜⎟⎢⎥⎜⎟⎝⎠⎣⎦⎝⎠ 。 假设模型在1i t −时刻的后验分布为: () 1111 1 111,1 ,3,3,2|,i i i i i i i i t t t t t t t t m C C D N b C C θ −−−−−−−−⎡⎤ ⎡⎤⎡⎤⎢⎥⎢⎥⎢ ⎥⎢⎥⎢⎥⎢⎥⎣⎦⎣⎦⎣⎦ : (7) 则有下列递推关系: (1)的先验分布为: () 1|,i i i i t t t t D N a R θ−⎡⎤⎣⎦: (8) 其中,111,11,21(/)(/)i i i i i i t t i i t t t i i t a m r r b a a r r b −−−−−+⎛⎞⎛⎞ ==⎜⎟⎜⎟⎜⎟⎜⎟⎝⎠⎝⎠,,1,3,3 ,2t t i i t i t t i i R R R R R ⎛⎞⎜⎟=⎜⎟⎝⎠, ( ) 111,1 21,31,22(/)(/)i t i i i i r t i i t i i t R C r r C r r C δ−−−−−−=++,1,2 21,2(/)i t i i r i i t R r r C δ−−−=, () 11,3 21 ,31,2(/)(/)i t i i i r i i t i i t R r r C r r C δ−−−−−=+。 (2)一步预测分布为: () 1|,i i i i t t t t y D N f Q −⎡⎤⎣⎦: (9) 其中,,1 ,i i t i i t t t f a Q R V ==+。 (3)i t 时刻的后验分布为: () ,1,3,3,2|,i i i i i i t t t t t t t t C C m D N b C C θ⎡⎤ ⎡⎤⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦⎣⎦⎣⎦ : (10) 其中,111,1(/)i i i i i t t i i t t t m m r r b A e −−−=++,11,2(/)i i i i t i i t t t b r r b A e −−=+,,1,1i i i t t t C A V =, ,2,2,2,3i i i i t t t t C R A R =−,,3 ,2i i i t t t C A V =,,1,1,2,3//i i i i i i i t t t t t t t A R Q A A R Q ⎛⎞⎛⎞ ==⎜⎟⎜⎟⎜⎟⎜⎟ ⎝⎠⎝⎠,i i i t t t e y f =−。 (4)初始值的选取 状态参数初始先验均值0t m ,0t b 与方差0t C 可以根据已有的经验确定,较好的方法是从量测样本中获取。我们是从观测数据样本中选取较完整、较有规律的若干个时间段,按常规的最小二乘法来求算θ。以所得结果的均值作为00,t t m b ,而它们的方差作为0t c 。 (5)量测误差t v 的计算 求解贝叶斯模型时,要确定量测噪声t v 。在用户兴趣的分析中,这种干扰或噪声可以看作是彼此的均值为0的白噪声,因此可以利用最小二乘法对噪声发差进行估计,求解公式如下: dim T L L t e e V L θ =− (11) 式中L 为所取数据长度,L e 为t 时刻以前所得的L 个一步误差组成的向量,dim θ为状态θ的 维数。 3 贝叶斯动态商品推荐系统 3.1 动态商品推荐系统结构 贝叶斯动态商品推荐系统是一种基于智能代理的系统。Agent 技术具有高度智能性和自主学习性,可以根据用户定义的准则,主动地通过智能化代理服务器为用户搜集感兴趣的信息,然后利用代理通信协议把加工过的信息按时推送给用户,并能够推测出用户的意图,自主制订、调整和执行工作计划。在模型复合中引入Multi-Agent 将会产生更好的效果。 商品推荐的基本思想是根据用户的历史以及实时行为挖掘用户的兴趣,从而将用户感兴趣的商品推荐给用户,避免了用户在庞杂的商品项目中的搜索行为,更好的方便用户。 图1 系统结构图 图1显示了贝叶斯动态商品推荐系统的模式,用户的实时行为通过交互Agent 传给数据处理Agent ,数据处理Agent 将其在历史行为数据库中数据与实时数据组合成一系列用于行为预测的数据项,将其传给用户行为预测Agent 。此时,用户行为Agent 运用动态贝叶斯预测模型进行预测。将结果传给推荐Agent ,推荐Agent 进行商品推荐给用户。 3.2 贝叶斯动态模型的建立 用户行为的观测数据主要由用户的历史行为以及实时行为得到。将用户的行为数据分为三类观测变量:购买量、购买频率、消费总金额。通过观察着三个变量实现对用户的行为预测。其中任意一个观测变量的增大和减小都可以反映用户行为的变化,可以预测用户登陆网站的目的,从而推荐相应的商品给客户。观测变量的增大表明客户对此商品可能感兴趣,可以推荐给客户。而观测变量的减小则表明近期内用户对此类商品的需求不是很大,不适宜推 本文从某一商务网站1999年5月份到2000年5月份的用户数据中选出十名客户进行实验。首先出去过于密集和过于稀疏的记录,得到了100名客户的购物集以及历史行为数据集。其中每一个用户的购物集中包含商品10项。从这些数据中随机抽取80%的数据作为测试集,进行实验。 表1 预测变量 编号变量计算公式 1 购买量购买A商品的总数 2 购买频率此客户购买A商品的数量/所有客户购买的A商品的总数 3 消费总金额购买所有商品的消费总额 表1显示了预测变量的计算方法,用式(1)~(11)贝叶斯动态回归模型作预测时,选择适当的折扣因子非常重要。本文在拟合和预测中尝试了不同的δ值,发现在多次的运算中取 δ=时的效果最好。图2给出了某一位用户实测购买量与贝叶斯预测购买量的曲线(红 0.65 线)。 图2 用户实测购买量与贝叶斯预测购买量对比曲线 从图2可以看出用贝叶斯预测模型较好地反映用户的购买趋向,能对用户进行相应的推荐。进行了其他用户的预测,结果相差也不大,说明此模型在用户推荐方面有一定的可行性。 4 总结 本文创新点:(1)由于模型是根据每个用户的历史消费纪录以及实时行为进行分析,所以突出了个性化的信息,可以向用户推荐个性化的商品信息;(2)贝叶斯预测模型首次被运用到推荐系统中,具有良好的预测性,使之可以更好地为推荐商品作为有力的依据;(3)用户登陆系统时,预测模型便可调用次用户的相应数据,当用户发生购物行为时,还可以进一步刷新用户数据,实时的产生预测结果,将相应的商品推荐给用户。 实践证明预测的结果与实际购买的商品误差不大,这样推荐的商品准确率相应也就高。 参考文献 [1]谭琼,李晓黎,史忠植.一种实现搜索引擎个性化服务的方法[J].计算机科学,2002,29(1): 23-25. [2]Wu Y H, Chen Y C, Chen L P. Enabling personalized recommendation on the web based user interests and behaviors[C]. Proceeding of the 11th International Workshop on Research Issues in Data Engineering (RIDE '01), IEEE, Heidelberg, Germany, 2001:0017. [3]王听忠,王辉,武新梅.基于协同推荐的web日志预处理过程. 微计算机信息,2006,22 (1-3):150-152 [4]B Sarwar, G Karypis, J Konstan, et al. Analysis of recommendation algorithms for E-commerce [C]. Minneapolis: Proceedings of ACM E-commerce, ACM Press, 2000:158-167 [5]余力,刘鲁.电子商务个性化推荐研究[J].计算机集成制造系统,2004,(10):1307-1313 [6]谷学静,王志良,刘冀伟.人工心理模型在个性化商品推荐系统中的应用.微计算机信 息,2006,22(1-2):181-183 [7]解冲锋,李星.基于序列的文本自动分类算法[J].软件学报,2002, 13(4):783-7. [8]蒋金凤.不等间隔的一阶多项式模型及其贝叶斯预测[J].数学的实践与认识,2004, (3):21-23.作者简介:黄光球(19-),男,湖南桃源人,汉,西安建筑科技大学管理学院教授,博士,从事电子商务与网络安全研究工作。 Biography: Huang Guang-qiu, male, born in 19, Han nationality, Professor of School of Management, Xian University of Architecture & Technology, Researcher of Electronic Commerce & Network Security.
