百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

一种面向混合数据的模糊等价关系构造约简

zhezhongyun 2025-03-28 23:25 40 浏览

摘 要: 基于模糊粗糙集模型构建模糊等价关系是混合数据分析的有效方法之一。针对属性类别多样性的混合型信息系统,提出一种带权的对象间相似性度量方法,该方法建立每类属性对应的相似性度量函数,再通过归并确立带权的模糊相似矩阵。在转化为模糊等价关系的基础上,采用加入蕴含专家领域知识及用户需求的约简算法。通过数据库中几个数据集样本对属性约简后的数目、精度进行对比,验证了方法的有效性和可行性。

0 引言

粗糙集理论是一种以精确的数学形式处理不确定信息的数学工具,属性约简在保持分类能力不变的前提下获得最小特征子集,是粗糙集理论的核心应用之一。经典粗糙集理论[1-3]通常是处理只包含符号型属性的数据模型,而实际的信息系统中属性和决策的值域是多样性的,有符号型属性,也有连续数值型属性,即混合分类数据。对于混合数据的处理大体可分为两类:一类是离散化方法[4],将数值型属性转化为符号型属性的数据形式,即在数值属性值域中选择合适的分割点,划分成若干由字符标记的不同区域,从而将不同类别属性转化为统一的数据形式再进行约简。如何选择分割点引出了离散化方法的系统分析比较[5],讨论的关键在于分割点数量和位置的设计,缺点在于产生了量化误差,丢失了同种符号表示的区域内不同属性值间的序信息。另一类是对不可分辨关系进行拓展的混合型方法。Hall提出了利用信息熵计算符号变量相关性的特征选择方法[6],Zhou和Qian提出了采用定性信息分解复杂问题的决策树构造方法[7],以及之后提出的混合数据特征选择的方法[8],缺点都是将符号型属性和数值型属性割裂开分析,丢失了分类能力较强的数值属性信息。Kwak和Choi、Peng等人陆续采用Parzen窗方法计算数值型样本概率密度来进行特征选择[9],取得了一定进展。Zadeh提出了模糊集理论[10],认为模糊信息粒化在知识发现过程中极其重要,模糊粗糙集和粗糙模糊集概念的提出,融合了模糊粒化和粗糙逼近两种不确定方法[11-15],使得约简结果能更清晰地体现信息系统的分类能力。Hu采用信息熵的概念度量信息系统的分类能力,在混合数据的处理过程中,得到的对象间相似矩阵数值单一,且整合符号型和数值型属性的过程中丢失很多分类信息[16]。遗传算法应用于混合数据约简的方法,由于本身算法的特点导致计算量大、耗时长[17-18]。

本文重点研究在模糊粗糙集模型框架下如何定义混合数据间带权的相似性度量方法及模糊等价关系,通过定义不同类别属性对应的相似性度量函数,以及带权的模糊相似矩阵,最终确定模糊等价关系;之后通过加入领域专家的经验知识和系统客户的需求偏好对数据进行约简,将约简后的属性数目、精度与其他方法的数据进行对比,以验证方法的有效性和可行性。

1 模糊等价关系及其度量

针对符号型变量的处理,可以利用粗糙集在等价关系的基础上建立对象间关系。但对于数值型变量,等价关系不足以清晰地刻画对象间关系,需要借助模糊等价关系的概念。

给定信息系统S=(U,A),论域U={x1,x2,…,xn},属性集合A=C∪D是条件属性和决策属性的集合,且C∩D=

。本文讨论的混合信息系统的属性集合既有条件属性,也有数值属性。 定义1:给定一个矩阵A=(aij)n×n,若对

i,j=1,2,…,n,满足:(1)自反性:aii=1;(2)对称性:aij=aji;(3)模糊性:aij∈[0,1];(4)传递性:aij≥∨k(aik∧akj),则称矩阵A为模糊等价矩阵。

在以下论述中,用M(R)=(rij)n×n来表示二元关系R的关系矩阵,其中R满足模糊等价关系。

定义4[16]:给定模糊信息系统,A=C∪d,若H(d|B-a)=H(d|B),则属性a是冗余的,若H(d|B-a)>H(d|B),则B是独立的。若满足:(1)H(d|B)=H(d|A);(2)∨a∈B∶H(d|B-a)<H(d|B),则称B是A的属性约简。

下节将利用上述度量,构造混合数据间的模糊等价关系,依据属性重要性的度量进行约简。

2 模糊等价矩阵的构造及算法描述

基于模糊等价关系的数据构造是混合数据分析的重要模型,利用矩阵形式刻画具有不同属性类别的样本间关系。针对符号型属性,Hu[16]根据属性取值是否相等计算样本间的相似度贡献,属性间取其交集得结果,由此矩阵中只见两个单一数值,不能具体地刻画样本间的区分信息,且需针对每个属性做重复计算;刻画不同类别属性间的关系依然采用取其交集的简便算法,在各种属性类别取值丰富多样的信息空间,这种关系构造方法丢失大量的非冗余的有效信息。本节将对混合数据中各个类别属性分别重新进行构造,提出一种带权的对象间相似性度量方法,并且使其最终转化为一个模糊等价关系,在加入量化知识的基础上进行约简。

2.1 模糊相似关系的构造

给定一个包含n个样本的决策系统,其中A=A1∪A2,A1定义为符号型属性的集合,A2定义为数值型属性的集合,U={x1,x2,…,xn},

。本节将描述样本的属性分类处理,分别定义与之对应的唯一函数。

符号型属性的取值是离散的、非有序的,若两个样本的条件属性取值完全相同,则其决策是一致的。因此,不同样本间的区分能力由取值不同的属性来体现,在此引入一个关系矩阵来体现符号型属性集对样本间的贡献度。

数值型属性的取值是连续的、有序的,当两个样本除属性a之外的其余条件属性相同时,针对属性a,若样本x比样本y占优,则x的决策至少不比y差。因此,不同样本间的区分能力由决策不一致的程度(即样本x比样本y占优的程度)来体现。同样定义数值型属性集对样本间的贡献度:

s(xi,xj)表示对象xi比xj在属性a上偏好、占优的程度,若xi比xj占优,则s(xi,xj)>0.5。若xj比xi占优,则s(xi,xj)<0.5。当s(xi,xj)=1时,说明xi比xj绝对占优。矩阵

是s(xi,xj)转化后的对象间模糊相似关系,表示对象xi和xj间的相似性度量。

以上是针对一个数值属性进行的对象间模糊相似处理,对于多个属性,采用交运算来归并不同属性间的模糊关系。假设属性a和属性b分别计算其偏好关系为wij和zij,则对象xi与xj对属性{a}∪{b}量化的偏好关系为min(wij,zij)。

以上论述中提出了带权的对象间相似性度量方法,实现了混合数据间的模糊相似关系构造,但模糊等价关系是计算信息熵的前提,因此,最后还需将模糊相似矩阵转化为模糊等价矩阵。

2.2 模糊等价关系的构造算法及约简算法

本节采用Lee Hauan-Shih给出的关于模糊相似矩阵传递闭包问题的优化算法来进行转化[19],使其满足模糊等价关系的充要条件传递性,具体算法如下:

算法:设模糊相似矩阵为R=(rij)n×n,模糊等价矩阵为R*=(r*ij)n×n

输入:R=(rij)n×n

输出:R的传递闭包R*

(1)令r*ii=1(1≤i≤n);

(2)集合U={rij|j>i}中的元素是从大到小排序的序列;

(3)

①若R*中元素不存在r*ii=

,结束算法;否则转步骤②。 ②对于U中的最大元素ri′j′,若r*i′j′=

,令I={j|r*i′j≠

},J={i|r*ij′≠

},置r*ij=r*ji=ri′j′(i∈I,j∈J),U=U-{ri′′j};否则,转步骤①。

下面将采用基于属性重要性的约简算法进行约简,算法中设置一个信息表T用来存储所有属性值,其中属性元素按照领域专家的经验值和用户的需求偏好多寡来排序。

算法如下:

输入:决策系统S=,A=C∪d,信息表T;

输入:S的属性约简RED。

(1)令RED=

(2)令T中元素从大到小进行排序;

(3)

①选择T中第一个属性ai,计算H(d|ai∪RED)以及SIGi(ai,ai∪RED,d)=H(d|RED)-H(d|ai∪RED)

②若SIGi>0,则ai∪RED→RED,T-ai→T,返回

步骤①;否则算法结束。

3 实验分析

本节在MATLAB实验环境下选择UCI数据库中的数据集,验证混合数据的模糊等价关系构造约简方法的有效性,表1列出了数据集的基本信息。可以看出其中数据集WPBC包含一类属性,其他数据集包含两类属性。

表2和表3分别列出了本文方法下的数据集约简结果以及约简后属性数目的统计。

分析表3,与其他三种方法(原始数据下的约简、离散化方法下的约简、模糊熵方法下的约简)[16]支撑的数据相比,本文方法在信息量保持不变的前提下剔除了更多的冗余属性;同时,针对包含一类或两类属性的数据集都进行了有效的约简。表4是采用支持向量机对本文结果与其他几种方法[16]的约简数据进行精度对比。实验结果显示本文方法下约简后的属性精度平均值较高。由此可以看出本文提出的基于模糊等价关系构造的混合数据约简有效地达到了约简的目的,并且得到较优的约简结果。

4 结束语

模糊粗糙集和粗糙模糊集概念的提出,融合了模糊粒化和粗糙逼近两种不确定性方法,基于模糊粗糙集模型构建模糊等价关系是混合数据分析的有效方法之一。针对混合型信息系统,本文分别提出各类数据的对象间度量以及总体度量方法,建立带权的对象间相似性度量方法,在转化为模糊等价关系的基础上,采用了加入领域专家的经验知识和系统客户需求的约简算法。通过实验数据分析验证了方法的有效性和可行性。

参考文献

[1] PAWLAK Z. Rough sets-theoretical aspects of reasoning about data[M]. Dordrecht: Kluwer Academic, 1991.

[2] 张清华,王国胤,肖雨.粗糙集的近似集[J].软件学报,2012,23(7):1745-1759.

[3] 石梦婷,刘文奇,余高锋,等.变精度软粗糙集[J].计算机工程与应用,2014(1):101-104.

[4] CATLETT J. On changing continuous attributes into ordered discrete attributes[C]. European working session on learning, 1991:164-178.

[5] LIU H, HUSSIANM F, TAN C L, et al. Discretization: an enabling technique[J]. Data Mining and Knowledge Discovery, 2002,6(4):393-423.

[6] HALL M A. Correlation-based feature selection for discrete and numeric class machine learning[C]. In Proc 17th ICML, 2000:359-366.

[7] ZHOU Z H, QIAN C Z. Hybrid decision tree[J]. Knowledge Based Systems, 2002,15(8):515-528.

[8] TANG W. Y, MAO K. Z. Feature selection algorithm for mixed data with both nominal and continuous features[J]. Pattern Recognition Letters, 2007,28(5):563-571.

[9] KWAK N, CHOI C H. Input feature selection by mutual information based on parzen window[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002,24(12): 1667-1671.

[10] ZADEH L. Toward a generalized theory of uncertainty-an outline[J]. Information Science, 2005,172:1-40.

[11] DUBOIS D, PRADE H. Rough fuzzy sets and fuzzy rough sets[J]. International Journal of General Systems, 1990,17(2-3):191-209.

[12] 范成礼,邢清华,邹志刚,等.基于直觉模糊粗糙集相似度的多属性决策方法[J].计算机工程与应用,2014(7):121-124.

[13] 丁世飞,朱红,许新征,等.基于熵的模糊信息测度研究[J].计算机学报,2012,35(4):796-801.

[14] Pan Zhenghua, Zhang Lijuan. A new fuzzy set with three kinds of negations and applications to decision making in financial investment[J]. Journal of Haman and Ecological Risk Assessment, 2011,17(4):795-780.

[15] 潘正华.模糊知识的三种否定及其集合基础[J].计算机学报,2012,35(7):1421-1428.

[16] Hu Qinghua, Yu Daren, Xie Zongxia. Information-preserving hybrid data reduction based on fuzzy-rough techniques[J]. Pattern Recognition Letters, 2006,27(5):414-423.

[17] HASHMI K, ALHOSBAN A, MALIK Z, et al. WebNeg: a genetic algorithm based approach for service negotiation[C]. In: Foster I, et al., eds. Proc. of the ICWS 2011, Los Alamitos: IEEE CS, 2011:105-112.

[18] 梁亚澜,聂长海.覆盖表生成的遗传算法配置参数优化[J].计算机学报,2012,35(7):1522-1538.

[19] LEE H S. An optimal algorithm for computing the max-min transitive closure of a fuzzy similarity matrix[J]. Fuzzy Sets and Systems, 2011,123(1),129-136.

相关推荐

3 分钟!AI 从零开发五子棋全过程曝光,网友:这效率我服了

<!DOCTYPEhtml><htmllang="zh-CN"><head><metacharset="UTF-8...

一行代码实现display&quot;过渡动画&quot;原理

作者:Peter谭老师转发链接:https://mp.weixin.qq.com/s/XhwPOv62gypzq5MhhP-5vg写本文的起因上篇文章,提到如何让display出现过渡动画,却没有仔...

脑洞:琼恩·雪诺、蝙蝠侠和魔形女的灵魂宠物了解一下

AlekseiVinogradovisaRussianfreelancedigitalartistwhoshareshisskillsandtalentwith120k...

浏览器的渲染机制、重绘、重排

1、什么是重排和重绘网页生成过程:HTML被HTML解析器解析成DOM树css则被css解析器解析成CSSOM树结合DOM树和CSSOM树,生成一棵渲染树(RenderTree)生成布局(flo...

托福写作高频考题写作思路&amp;词汇丨考虫独家

科技话题与媒体话题是托福写作的常考话题很多考生对这两类话题里的专有词汇表达也许很不了解所以今天就跟随考虫托福写作老师刘云龙老师一起来学习在这些话题的写作里你可以使用哪些有用的表达。希望大家有收获!记得...

在优麒麟上使用 Electron 开发桌面应用

使用Web标准来创建桌面GUI,上手快、成本低、跨平台、自适应分辨率,这些都是Electron的优势。作者/来源:优麒麟Electron是由Github开发,用HTML、CSS和...

php手把手教你做网站(三十八)jquery 转轮盘抽奖,开盲盒

抽奖和开盲盒性质一样的都是通过ajax读取后台的随机数据。1、转轮盘本来是想直接绘图实现轮盘,但是没有找到怎么填充文字,只好把轮盘弄成了背景图,通常用于游戏抽道具,商城积分抽奖,公司年末员工抽奖点击抽...

用 CSS 整活!3D 轮播图手把手教学,快乐代码敲出来

兄弟们,今天咱来搞点好玩的——用CSS整一个3D轮播图!咱野生程序员就是要在代码里找乐子,技术和快乐咱都得要!代码是写不完的,但咱能自己敲出快乐来,走起!一、先整个容器,搭个舞台咋先写一个...

实现一个超酷的 3D 立体卡片效 #前端开发

今天我们来实现一个超酷的3D立体卡片效果。正常情况下就是一个普通的图片展示卡片,鼠标悬停的时候图片会跳出卡片,并将影子投射到背景卡片上,在视觉上有一个3D立体感。html主要分成3个部分:容器→背景层...

Vue 3 Teleport与Suspense:解决UI难题的两个&quot;隐藏大招&quot;

模态框的"层级噩梦"与Teleport的救赎"这个模态框怎么又被父容器截断了?"团队协作开发后台系统时,小张第N次遇到这个问题。多层嵌套的组件结构里,弹窗被overfl...

让交互更加生动!有意思的鼠标跟随 3D 旋转动效

今天,群友问了这样一个问题,如下所示的鼠标跟随交互效果,如何实现:简单分析一下,这个交互效果主要有两个核心:借助了CSS3D的能力元素的旋转需要和鼠标的移动相结合本文,就将讲述如何使用纯CSS...

填坑:transform元素导致zindex失效终极方法

今天遇到了使用css3动画的元素层级被放大置顶的问题,ios浏览器上没问题,安卓原生浏览器和安卓微信上有问题。使用了css3动画的元素z-index失效,兄弟元素设置多高的z-index都盖不住解决办...

诡异的层级错乱:一个被transform隐藏的CSS陷阱

周五下午三点十七分,设计部突然发来紧急截图——原本应该悬浮在顶部的导航菜单,此刻正诡异地被下方的轮播图遮挡。我盯着屏幕上错乱的层级关系,手指下意识地敲下z-index:9999,心里清楚这不过是程序...

动画篇--碎片动画

本文授权转载,作者:Sindri的小巢(简书)前言从最开始动笔动画篇的博客,至今已经过去了四个多月。这段时间回头看了看自己之前的动画文章,发现用来讲解动画的例子确实不那么的赏心悦目。于是这段时间总是想...

Nature:大洋转换断层处的拉张构造与两阶段地壳增生

Nature:大洋转换断层处的拉张构造与两阶段地壳增生转换断层是三种基本的板块边界之一,全球总长度超过48000km(Bird,2003),它们的发现为板块构造理论的建立奠定了重要的基础(Wil...