基于邻域粗糙集的增量特征选择
2020-06-13
来源:我们爱旅游
第21卷第11期 计算机技术与发展 V0I.21 No.1l 2011年l1月 COMPUTER TECHN0LOGY AND DEVEL()PMENT Nov.2O1l 基于邻域粗糙集的增量特征选择 李楠 2,谢娟英 (1.陕西师范大学计算机科学学院,陕西西安710062; 2.商洛学院计算机科学系,陕西商洛726000) 摘要:ff对连续型属性的数据集,当有新样本加入时,可能引起最佳属性约简子集变化的问题。提出了基于邻域粗糙集 的特征子集增量式更新方法。根据新增样本对正域的影响,分情况对原数据集的属性约简子集进行动态更新,以便得到 增加样本后的新数据的最佳属性约简子集。这种对原约简集合进行的有选择的动态更新可以有效地避免重复操作,降低 算法复杂度,只有在最坏的情况下才需要对整个数据集进行重新约简。并以一个实例进行分析说明。实例分析表明,先 对新增样本进行分析,然后选择性对新数据集进行约简可以有效地避免重复操作,得到新数据集的最佳属性约简子集。 关键词:邻域粗糙集;增量式更新;特征选择;正域 中圈分类号:TP301.6 文献标识码:A 文章编号:1673—629X(2011)11—0149—04 A Feature Subset Selection Algorithm Based on Neighborhood Rough Set for Incremental Updating Datasets LI Nan‘ 。X1E Juan—ying f 1.School of Computer Science。Shaanxi Normal University。Xi’art 710062。China; 2.Department of Computer Science。Shangluo College。Shangluo 726000。China) AINtraet:Afeature subset selection algorithmis presentedbased On neighborhood rough Settheoryforthe datasetswhich are upIh伽by theincrementintheir samples Itiswell knownthattheincrementin samples can cauSethe changeableinthe reduction of attributse of theit.Did amrongh-paced analysistOthe variety onposiitve region brought bythe new added sampletOthe dataset-and discussed hteSelective apd ̄ngtOthefeature subSet laUribu ̄reduction)accordingto allthe cases.TheSelective updatingtothe origi ̄reduc- don ofattributes ofthe dataset o811 avoid the unwanted operations.and reduce the complexity ofthe feature subSet Selection algorithm. Finally。gave a real example and demonstratedthealgorithm. Iceswords:neihgborhood roughSet;incremental updating;faeture subSetSelection;positive O引 言 究热点,是特征选择的主要方法之一 。而大量的 数据中的冗余和不相关数据不仅对发现和总结数 研究都仅适用于符号型数据。胡清华等人提出了邻域 据内在规律没有帮助,反而会影响对数据的学习,因 粗糙集的属性约简¨¨ 】,能够有效地处理连续性数值 此,众多学者提出了大量的约简算法对数据进行约简。 型数据,避免基于粗糙集的属性约简所需要的数据离 粗糙集理论是一种有效处理不完整、不精确信息的数 散化对数据精确度的影响。 . 学分析工具,能有效地从大量的数据中发现潜在的规 然而,基于粗糙集理论的属性约简算法主要是针 律和隐含的信息…。自提出以来,便得到了广泛应 对确定的数据集合进行。现实问题的不确定性,数据 用 。 集合的属性或样本有可能会动态地增加,这就需要对 近年来,粗糙集理论成为数据挖掘领域的一个研 增量式的数据集进行约简。每增加一个属性或样本都 重新计算新数据集合的约简是非常费时的,并且没有 收稿日期:20llJo4—05;修回日期:20l1—07-10 充分利用已有的信息,故而出现了增量式的属性约简 基金项目:中央高校基本科研业务费专项资金重点项目(GK2009 otoo6);陕西省自然科学基础研究计划项目(2010JM3004);中央高 算法研究 。 校基本科研业务费专项资金项目(GK201001003) 在邻域粗糙集的基础上,文中详细分析了样本增 作者简介:李楠(1981一)。女,陕西澄城人,硕士研究生,研究方向 加对原数据集和约简数据集正域的影响,提出了基于 为机器学习、计算智能、模式识别与数据挖掘;谢娟英,副教授,硕士 邻域粗糙集的增量式属性约简方法,有效地减少了重 生导师,研究方向为机器学习、计算智能、模式识别与数据挖掘。 复工作,提高了属性约简的效率。 ・150・ 计算机技术与发展 第21卷 1邻域粗糙集相关概念 对于连续型的数值数据,通过计算样本间的距离 来判断其相似程度,判断样本间的近邻关系。信息系 统IS=<U,A>中, 为样本集合,也称为论域{ , …,, },A为属性集合,也称为特征集合{o ,o , …,o },用来描述每一个样本的特征信息。信息系统 IS=<U,C u D>,称为一个决策系统,其中c是条件 属性集合,D表示决策属性集合。 任意样本V ∈U,属性子集 C,以及给定的 邻域半径6, 的曰邻域表示为: 6口( ‘)={ lxj∈U,△ ( i, f)≤6} (1) 的 邻域也就是在属性子集曰所确定的空间 中,与样本 之间距离小于指定邻域半径6的所有样 本构成的集合。 文中计算样本间距离△ ( , ,)的公式为: △( ) 。 )一f(XI,Ⅱ )l (2 如果a(x , ,)≤6,则表示样本 与 互为近邻, 否则,不为近邻。 对于指定的样本子集 u,在属性子集曰中的 上、下近似可定义为: BX= ( ) X, ∈U} (3) BX={ I 6 ( )n X≠ , ∈U} (4) 对于给定的邻域决策系统NDT=(U,C u D),若 x , ,…, 是由决策属性所确定的划分,对于属性 子集曰 c,决策D关于属性子集曰的上、下近似定义 为: BD=u :。BXi (5) BD=u::lBX (6) 决策表的下近似也称为决策表的正域: POSB(D)=BD (7) 属性子集确定的正域反映了决策对该子集的依赖 程度,决策D对属性子集B的依赖度可表示为: (8) 依赖度越大说明子集 对决策D的贡献越大。 如果.y (D)=’, (D),则说明属性集合 和c具有相 同的分类能力。如果 中没有冗余的属性,也就是 V8∈B, (D)>y (D).说明 是c关于D的一个 相对约简。 2基于邻域粗糙集的特征选择算法 基于邻域粗糙集的特征选择方法,通过反复迭代, 每次迭代加入能使正域势最大的属性到属性约简集 合,直到正域不再变化,以此来确定数据集合的一个约 简。流程如图1所示。 图1 邻域粗糙集特征选择流程 3基于邻域粗糙集的增量式属性约简算法 数据集的变化包括属性的变化和样本的变化,文 中主要讨论当样本增加时,如何利用原数据集的约简 信息,计算更新后数据集的约简,避免样本增加时,完 全重新计算。 计算约简的关键步骤是计算正域。因此,可以通 过新增样本对正域的影响来判断其对约简的影响,进 一步更新原数据集的约简子集,得到更新后数据集的 约简子集。 对于同样的距离函数△和邻域半径6,邻域决策 系统<U,C u D>,B C,可以证明&( ) ( )。 当数据集新增样本时,讨论该样本对条件属性全集的 正域和约简属性子集的正域影响来确定是否需要重新 计算数据集的约筒子集。 ’ 假设曰是C的一个相对约简, 为新增样本。为了 描述方便,下文中用PD (D)表示属性子集 关于决 策D在论域 中产生的正域。 1.如果 ( )中的所有样本与样本 同类别,则 必有&( )中的所有样本与样本 同类别。因此有 IPOSVs“(D){=lPOSVB(D)1+1=IP0s (D)l+1 =I POSVc“(D)l 属性全集与约简属性集合所确定的正域同时增加 一个,因此原约简仍然可能是属性全集的一个约简,只 需要做反向删除即可。 2.如果 ( )中的所有样本与样本 不同类别, 则必有&( )中的所有样本与样本 不同类别。 2.1如果6 ( )n POSO ̄(D)= ,则必有6 ( )n POSv(D)= 因此有 lP0s (D)I=I P0s (D)l 第ll期 李楠等:基于邻域粗糙集的增量特征选择 ・151・ :JPOSVc(D)f=JPOSv”(D)J 简曰与全集C没有相同的正域集合。需要重新计算约 正域未发生变化,因此原约简仍然可能是属性全 简。 集的一个约简。 3.3 6 ( )中的所有样本与样本 部分同类别,找 2.2如果 ( )n PDs (D)≠ ,则计算 邻域中 到与 不同类别并且属于正域PDs (D)的样本个数 正域样本的个数 。 N o M=I ( )n PDs (D)I 3.3.1如果M=N,则 仍然可能是属性全集的一 2.2.:I如果艿。( )n PDs (D。)= ,则有: 个约简。 JPOSVB“(D)f:fPOS ̄(D)『一 , 』尸0s ”(D)I= 3.3.2如果 ≠Ⅳ,增加样本后,约简 与全集C IPOS ̄(D)』,增加样本 后正域发生了变化,需要重 没有相同的正域集合。需要重新计算约简。 新计算约简。 2.2.2如果6。( )n POS ̄(D)≠ ,计算 邻域中 4实例分析 正域样本的个数Ⅳ。 表1为包含6个样本的数值型属性的决策系统, N=l&( )n POS ̄(D)I ’ 论域U={ ,x:,…, },条件属性集C={a,b,c,d,e, 2.2.2.1如果M=N,则I POSVB“(D)f= ,决策属性子集D={g}。 I PDs (D)I一 =fPOSVc(D)f一Ⅳ:JPOSv“(D)I因 由a(x , )=∑fAx ,ak)一f(xj,ak)I计算样本 此, 仍然可能是属性全集的一个约简。 间距离,构造临时决策系统(U,{a,g}),(U,{b,g}), 2.2.2.2如果M≠N,则I PDs (D)l= …,(U,{f,g})。分别计算各临时决策系统的正域样 l PDs (D)I—M≠l POSUc(D)l—N=l POSUc (D)I 本。以表2所示的一个临时决策信息系统1为例,设 那么增加样本后,约简B与全集c没有相同的正域。 定邻域半径艿=0.3得到相应的邻域样本如表3所示。 需要重新计算约简。 表2临时决策系统1 3.如果 ( )中的部分样本与样本 同类别,找 到与 不同类别并且属于正域PD5 (D)的样本个数 ,则有: IP0Js (D)I=『POS ̄(D)l_ 3.1&( )中的所有样本与样本 同类别, IPD.s (D)I=IPDs (D)l+1。增加样本后,约简的 正域与属性全集的正域不同,需要重新计算约简。 3.2 ( )中的所有样本与样本 不同类别。计 算 邻域中正域样本的个数Ⅳ。 表3 临时决策系统1对应邻域 N=l&( )n POSVc(D)I, fP0.s “(D)f=fPDs (D)I一Ⅳ 3.2.1如果M=N, 则I POSVB”(D)』= J PDJs (D)I—M:『POS ̄(D)I—N=I PDs “(D)I,B 仍然可能是属性全集的一个约简。 3.2.2如果M≠N,1PDJs (D)l=I尸os (D)I_ M≠I Pos (D)1.N=l P0s (D)l,增加样本后,约 表1数值型决策系统 ・152・ 计算机技术与发展 第2l卷 由临时决策系统(U,{a,g})所产生的正域样本 当在数据集中加入样本 ,为{0.8185,0.8113,0. 为{ 。, }。同理,由临时决策系统(U,{b,g})所产 生的正域样本为{ );(U,{c,g})所产生的正域样 本为{x4);(U,{d,g})所产生的正域样本为{ ); (U,{e,g})所产生的正域样本为{z。);(U,{f,g}) 所产生的正域样本为{ :, }。选择正域样本集势最 大的属性Ⅱ加入约简集合,即red={Ⅱ}。 再产生新的临时决策系统(U,red U{b}u{g}), 2965,0.1057,0.1209,0.2011,3}。通过计算可知,在 增加样本后的( ,{口,c}u{g})中,新增样本的邻域 为{ , ,},并且样本与其邻域的类别不同,可得结 论:新增样本在约简数据集中不是正域样本,而在属性 全集中为正域样本,正域变化不同步,需要重新计算约 简。通过计算,得到加入该样本后属性全集的约简集 合变化为{o,e}。 通过以上分析可知,当数据集为一致性时,只需要 (U,red U{c}u{g}),…,(U,red u{f}U{g}),计 算各临时决策系统在剩余样本中的正域。以临时决策 信息系统(U,red u{c}u{g})为例,形成临时决策 系统,见表4,并产生相应的邻域样本如表5所示。 表4临时决策系统2 表5临时决策系统2对应邻域 由临时决策系统(U,red u{c}u{g})在剩余 样本{ 。, , , }中所产生的正域样本为{ , , , ‰}。同理,由临时决策系统(U,red U{b}u{g})所 产生的正域样本为{ , 】.,也可计算(U,red U{d} u{g}),(U,red U{f}U{g})所产生的正域样本, 选择产生正域样本最多的属性c加入约简集合,即red =red U{c}={n,C}。此时,约简集合所确定的正域 集合为样本全集,与属性全集所确定的正域集合相同, 得到数据集的一个约简{o,c}。 当在数据集中加入新样本时,根据新加入样本的 特点,更新原数据集合的约简。例如,加入样本 ,为 {0.2974,0.5660,0.3628,0.6911,0.3626,0.1548,2}, 即U:U U{ ,}。首先判断该样本是否属于信息系统 (U,{a,c}u{g})的正域。通过计算可知,在( , }a,c}u}g})中,新增样本的邻域为{ ,‰, },并 且所有邻域的类别相同,由此可见,新增样本在约简信 息系统中为正域样本,在属性全集确定的信息系统中 也为正域样本,正域同时增加相同数目,约简保持不 变,仍然为{口,c}。 判断新增样本在约简中是否为正域,即可判断是否需 要重新计算约简。而在不一致的数据集中,情况相对 复杂,决策属性相对于条件属性全集的正域不等于全 体样本构成的集合,则需要根据第3部分所列的各种 情况进行详细分析。 5结束语 在邻域粗糙集的基础上,深入讨论增量式数据集 的约简计算方法。结合数值型数据集的特点,根据约 简与正域问的关系,提出根据新增样本对属性全集和 约简集正域的影响,判断约简是否需要更新,从而对增 量式数据集计算新增样本后的数据集约简的算法。该 算法避免了每增加一个样本就重新对数据集进行一次 约简计算。这种选择性的重新计算约简的思想避免了 大量的重复计算,提高了增量式数据集的属性约简效 率。 参考文献: [1]Pawlak z.Rough sets:theoretical aspects of reasoning about data[M].[s.I.]:Kluwer Academic Publishers,1991. [2] 毛国君,段立娟,王实,等.数据挖掘概念与技术[M].北 京:机械工业出版社,2000. [3]边肇祺,张学工.模式识别[M].第2版.北京:清华大学出 版社,1998. [43 Modrzejewsb M.Feature seleciton璐ing rough scts theory [c]//in:Proceedings of the European Conference on Ma— chine Learning.London,UK:Springer-verlag,1993:213— 226. [5]ChartCC.A rough set approachtO attribute generalizaitonin data mining[J].Journal of information sciences,1998,107: 169—176. [6]苗夺谦,胡桂荣.知识约简的一种启发式算法[J].计算机 研究与发展,1999,36(6):681—684. [7] 王国胤,于洪,杨大春.基于条件信息熵的决策表约简 [J].计算机学报,2002,25(7):759—767. [8]谢娟英,谢维信,高薪波.基于树结构的属性约简方法 [c]//模糊逻辑与计算智能研究进展(上册),中国模糊逻 辑与计算智能联合学术会议论文集.合肥:中国科学技术 (下转第155页) 第11期 宋毅等:个性化搜索中的用户兴趣模型研究 ・155・ = ,Ic∑cooc(q,q“ 式中 ——查询在文档中的权重; (4) 、 [2] 张炜.个性化推荐系统中基于本体的用户兴趣挖掘研究 [D].南京:南京理工大学,2007. [3] Claypool M,Le P,Waseda M,et 1a.Implicit,interest indicators [C]//In:Proceedings of Intelligent User Interfaces.[s.L]: [S.n.],2001:30—40. [4] Qiu Feng,Cho J.Automatic Identiifcation of User Interest For COOC(g,q )——查询q扩展q 的可信度。 经过查询扩展技术,将扩展库中的扩展词放入用 户模型中重新计算用户兴趣类别偏好,得到实验结果 见图3。 Personalized Search[C]//International World Wide Web Conference Committee.Edinbuth,Scotland:ACM,2006:23— 26. [5]Chen L,Sycara K.Webmate:a personal agent for browsing nd asearching[C]//Proc.2nd Int.Conf.on Autonomous Agents and Muhiageut Systems.[s.1.]:[s.n.],1998:132-139. [6]Pretschner A,Gauch S.Ontology based personalized search [C]//ICTAI.[s.1.]:[s.n.],1999:391—398. [7] Sugiyama K,Hatano K,Yoshikawa M.Adaptive web search based on user profile constructed without any effort from USers [C]//Proceedings of the Thitreenth Int World Wide Web Conf.[S.1.]:[s.n.],2004:5-8. [8]郭岩,白硕.网络规模13志分析和用户兴趣挖掘[J]. 计算机学报,2005,28(9):1—3. [9] 彭彬彬,金翔宇,徐晓刚,等.基于svm增量学习的用户适 应性研究[J].计算机科学,2003(30):75—76. 图3 扩展后兴趣类别偏好 [10]李村合,杨献峰,张培颖.基于web挖掘与相关反馈的多层 经过查询扩展后有效识别了用户兴趣类别偏好。 次用户兴趣挖掘算法[J].微计算机应用,2007,28(9):1— 2.[11]SaltonG,Buckley C.Improving retrievalperfomrance by retireval feedback[J J。Journal ofthe Americna Society for 4结束语 Ifnormation Science,1990(4):288—297. 研究并且挖掘偏好建模,M=[Q,C,R(q ,cj), , [12]Liu Fan,Yu C,MengWeiyi.PersonalizedWebSearch byMap- D],实现了挖掘技术,在实现用户兴趣模型中,用户兴 ping User Queries to Categories[C]//Conference on Ifnorma- 趣模型特点是:通过挖掘用户相关信息,每天用户行为 tion and Knowledge Management.Mclean,Virginia,USA: 内容发现用户的特点。对于兼类查询问题处理效果良 ACM,2002:4-9. 好,具有很好的扩展性。当然,该方法有不足之处,随 [13]曾春,邢春晓,周立柱.个性化服务技术综述[J].软件学 报,2002(13):1953—1955. 着时间变化,用户兴趣也会变化。这就要求用户兴趣 [14]陈媛,苟光磊.个性化服务用户模型研究[J].计算机工 模型需要学习和更新 。 程设计,2008,29(9):2413—2416. [15]岳文,陈治平,林亚平.基于查询扩展和分类的信息检索 参考文献: 算法[J].系统仿真,2006,18(9):1926—1929. [1] Fragoudis D.User Modeling in Information Discovery:An O— [16]费洪晓,穆王君,刘正.基于文本聚类和权重调整的用户 verview[C]//Proceedings of Advanced Course on Artiifcial 兴趣建模算法[J].计算机技术与发展,2007,17(2):128一 Intelligence.[s.1.]:[S.n.],1999:17-43. l29. (上接第152页) 大学出版社,2005:360—364. ences,2008,178:3577—3594. [9]Bhatt R B,Gopal M.On fuzzy-rough sets approach to feature [12]Hu Q H,Yu D R,Xie Z X.Neighborhood classfiers[J].Ex- selection[J].Pattern Recognition Lettesr,2005,26:965-975. pert Systems with Applications,2008,34:866-876. [10]Hu Q H,Pedrycz W,Yu D R,et a1.Selecting Discrete and [13]刘宗田.属性最小约简的增量式算法[J].电子学报,1999, Continuous Features Based on Neighborhood Decision Error 27(11):96-98. Minimization[J].IEEE Transactions on Systems,Man,and [14]林俊伟,叶东毅.基于邻域辨识矩阵的属性约简增量式算 Cybenretics-Part B:Cybenretics,2010,40(1):137-150. 法[J].计算机应用,2009,29(6):119—121. [11]Hu Q H,Yu D R,uu J F,et 1a.Neighborhood orugh set based [15]夏富春,苗夺谦,李道国.信息系统属性增量约简算法的设 heteorgeneous feature subset selection[J].Ifnormation Sci— 计与实现[J].计算机工程与应用,2006,21:149—152.