• 0731-88280828
  • ,88281234
  • 0731-82200112
  • ,84418789(传真)
您当前所在的位置:首页

从封闭到开放——征信困境之再思索

【字体: 】  【来源:个人征稿】  【编辑日期:2019-04-24】  【点击次数:119 】

摘 要:信用时代,征信为基!征信体系建设作为社会信用体系建设的基础性工程,对于消解买卖双方信息不对称、防范系统性金融风险具有重要作用。我国在推进征信体系建设进程中也出现了诸如信用信息采集标准不一、采集范围狭窄、交换共享存在信息壁垒等问题。本文立足于个人征信业发展现状,结合百行及信用城市最新实践及其对困境的突破,并从中总结其经验,以法学、社会学、数学等多学科视角,从数据的归集、处理及共享三个角度提出解决方案,望以此推动征信业的良性发展,为进一步建设社会信用体系打下坚实基础。

关键词:扩大采集种类;标准统一;数据共享;数据处理

 

社会信用体系是社会主义市场经济体制和社会治理体制的重要组成部分。党中央、国务院高度重视社会信用体系建设,习近平总书记说:“人而无信,不知其可;企业无信,则难求发展;社会无信,则人人自危;政府无信,则权威不立”。推进社会信用体系建设,对于加强事中事后监管、创新社会治理方式具有重大意义,是转变政府职能、推进国家治理体系和治理能力现代化的重要手段。

信用时代,征信为基!征信体系建设作为社会信用体系建设的基础性工程,主要负责采集、加工、分析和对外提供社会主体信用信息服务,对于消除买卖双方信息不对称、防范信用风险具有重要意义。我国目前已经初步形成了国家金融信息基础数据库与市场化征信机构错位发展、功能互补的市场格局,覆盖全社会的征信体系初步建立。征信体系建设在消除交易双方信息不对称、防范系统性金融风险发挥了不可替代的重要作用。

与此同时,我国征信体系建设在推进进程中也面临着诸如信用信息数据归集种类单一、体系之间存在信息壁垒、信用信息低水平、低层次共享等诸多现实问题。随着我国移动支付、互联网金融、共享经济的蓬勃发展,新兴产业也给征信体系建设提出了新要求、带来了新挑战。我国征信业发展若滞后于国内近万亿的消费金融市场,将大大制约我国社会信用体系的进一步发展。

一、征信困境分析

(一)信息采集标准不统一

以政府间的信息收集标准来看,不同的政府部门采用不同的数据存储格式,在传输过程中采用不同的数据接口、接口参数,导致归集之后的数据格式各异,从而引发数据质量差、可利用率低,数据丢失、失真、杂乱无章等问题。确定一个合理的信息标准,以确保信息的统一性、容错性和可利用率,是一个亟待解决的问题。

例如,目前信用城市建设排名第一的苏州信用平台收录的行政许可大约有60.5万余条,但在“日期”的标注上,有的许可文件有明确的发证日期和生效日期,有的只有发证日期或者使用日期,而其他信息收集的情况更是杂乱无章[1]

同时在省市两级数据征集模式中,中央部门会对其垂直管理部门进行信用数据的归集和管理,省级信用信息共享交换平台也会对横向各个职能厅局以及下级政府的信用数据进行归集整合,从而形成中央部门与地方平台相关信用数据多渠道采集、重复采集、多重管理的“条块问题”,进而造成“一数多源”的局面。而在多个来源数据不一致时,就会出现“以谁为准”的难题。而这将极大程度上影响后续数据处理的准确性及可实践性。

(二)信息采集范围狭窄

央行征信系统中的个人信用信息主要是信贷信息,也包括例如公积金缴存、行政处罚、税务等公共信息。但截至 2014 年底,个人征信系统采集 8 类公共信息共计 2.59 亿账户信息,与12.52 亿信贷信息账户数相比,仅占全部数据量的 20.69%,而信贷信息占79.31%[2],如图1

1 2014 年底个人征信系统反映信用状况的信息采集情况

注:其他信息包括法院判决和执行信息、低保救助信息、车辆抵押交易信息、

执业资格信息和奖惩信息等。

数据来源:人民银行征信中心《征信系统建设运行报告(2004--2014)》,2015年。



在信用城市建设过程中,失信信息范围进一步扩大,如《杭州市公共信用信息管理办法》将提供虚假材料、违反告知承诺制度的信息;以欺诈、伪造证明材料或其他手段骗取社会保险信息;乘坐公共交通工具时冒用、伪造证件乘车等逃票信息,纳入失信信息范围。

信用信息未来将不再局限于金融借贷信息这些强相关数据。首先,很多没有借贷记录的个人无法进行信用评估;其次,纳入如消费记录、社交情况、资产状况以及诸如职业、学历等身份信息,将更好描绘个人的信用历史、履约能力等信用维度。

当然,在信用信息采集种类扩大的过程中也要兼顾个人隐私保护问题。由于个人信用信息与个人隐私的边界问题尚不明确,加上我国未制定统一的个人信息保护法,征信就极易触碰个人隐私问题。因此,种类扩大需要有一个边界,不可能无限地扩大,需要进行立法加以约束。

(三)信息交换共享存在壁垒

随着互联网和信息行业的发展,海量信用信息爆炸式出现并被记录,但由于数据资源属于核心竞争力,其在不同部门相互独立存储、独立维护、彼此间相互孤立,形成了一个个的“数据孤岛”,即便达成共享,也无法避免低水平、低层次的现象,极大限制了对信用数据的有效利用。总结起来,数据孤岛的困境有以下表现形式:

1.体系间信息互换模式不统一

据上海资信调研,由于信用信息涉及个人信息保护问题,再加上信息数据是核心竞争力,所以想要获得数据,必须以其他的数据进行互换。但是不同征信体系内有着不同的互换规则,导致信息在不同持有者之间流通闭塞。

金融征信体系中通过立法固定流通模式。央行征信部门通过《征信业管理条例》及《个人信用信息基础数据库管理暂行办法》收集各大商业银行的信贷信息,并且将政务公开中的信用信息加以汇总,制作个人征信报告,商业银行通过用户授权,查询用户的个人征信报告。

商业征信系统是通过市场化信息共享协议实现数据流通。八大征信公司的数据来源主要是股东公司的信贷业务,其次是与其他商业机构合作,签订共享协议。百行也是通过协议方式接入其他平台数据,进行数据的采集、处理,然后在接入平台间进行有条件的提供。

公共征信体系主要依靠各级信用信息共享平台建设,政府在征信体系建设中更多承担信用信息数据提供者作用,虽然多省市出台的公共信用信息管理法规均明确了“鼓励信用服务机构查询使用公共信用信息”,但在实践中由于我国征信立法相对较滞后且未建立完备的公共信用信息数据流通交易机制,导致我国目前多数信用信息共享平台还未与市场征信机构进行合作与对接。

这样产生的问题就是,首先,信息的频繁流动会导致信息泄露的可能性变大。其次,市场征信机构想要获得行政机构手中对于至关重要的数据面临着弱势地位,因为没有严格的上位法规进行授权,难以获取。再者,通过协议方式交换数据并限制其成员对外提供数据,造成了数据的“僵化”。最后,地方政府在建立信用信息共享平台时难以将全国范围内拥有信用信息的数据存储单位全部纳入,并提供自己所需要的本地区人民的信用信息。

2.信用信息数据质量差、可利用率低

目前,各级地方政府都陆续出台相关公共信用信息管理办法,例如《北京市公共信用信息管理办法》等,但由于国家在宏观层面对归集信用信息数据时没有统一标准规范,导致不同的政府部门对信用信息分类标准、采集种类均有所不同,如福建省将个人信用信息分为基本信息、良好信息、提示信息和警示信息四类,而上海市又将个人信息分为基本信息、失信信息、其他信息三类;[1]并且不同地方政府在上传数据时采用不同的数据存储格式,在传输过程中采用不同的数据接口、不同的接口参数,导致归集之后的数据内容与格式各异,从而导致数据质量差、可利用率低,数据丢失、失真、杂乱无章等问题。

信用信息数据收集的另一难点在于缺乏实时更新,许多垂直管理政府部门(如工商、司法、税务等)的信用信息都采用数据集中交换模式、集中统一存储和共享,这就导致有些数据不能及时归集,进而出现严重的数据脱节,造成数据更新慢、不及时的现象。

3.缺乏宏观政策指引及调控

首先中央未对数据交换做出相应规范,并且缺乏中央层面的统筹机构,仅央行征信管理局并无足够的职权要求其他政府部门以及商业机构提供其数据。其次,政府间信息共享平台的授权标准有些许模糊。再者,《征信业管理条例》等相关法规限制了央行等征信系统向外提供个人信用信息,使商业机构难以获取强相关的金融借贷信息。最后,无论是政府间信息共享平台、央行及百行数据库抑或政府部门,其没有进行信用信息共享的动力。

标准的不统一,直接导致采集信息后不能得以有效汇总及处理,征信平台取得数据后进行大量清洗也不能得到有效的信用信息;同时采集种类过于狭窄导致超过半数的公民因缺乏信贷历史而难以获得充分的金融服务;数据孤岛直接制约了征信业的进一步扩大。

二、困境破除的最新尝试

20183月,百行征信公司成立,吸收原有八家民间征信公司的业务,成为了国内唯一一个持有牌照的市场征信公司。同时兴起于2017年的信用城市也是发展迅速,以苏州、福州、宿迁为代表的信用城市在个人征信行业提供了新的理论思路和实践做法。百行征信与信用城市都是在《社会信用体系建设规划纲要20142020》的领导下,对征信业的困境进行破除的实践。

(一)百行征信对征信困境的破除之处

百行征信公司,打破了央行征信中心“垄断”全国商业银行个人信用信息使用权的局面,

为中国征信行业引入了多元化的市场主体,整合原有八家征信公司的个人征信业务,主要收集互联网金融经济所产生的新型信用信息。

1.扩大采集种类

目前国内信用信息收集的格局如下:行政机关与司法机关掌握的个人在履行法定义务过程中形成的负面信息,由征信机构通过公共信用信息共享平台等实现覆盖;银证保等传统金融领域的信用信息,由央行征信中心的金融信用信息基础数据库实现覆盖;银证保等传统金融机构之外,特别是小贷公司、互联网金融、电商等新兴领域的征信信息,由市场化征信机构实现覆盖,主要负责覆盖的公司正是百行征信公司。虽然百行的定位也是信贷信息,但其主要针对的是互联网金融兴起所产生的互联网金融借贷信息。百行的成立,有效的整合了市场上零散的互联网金融信息,其所形成的数据库将作为央行信用信息数据库的重要补充。

2.统一信息标准

在数据收集阶段,百行征信对数据收集以及接口系统等统一了接入标准,所有接入机构必须按照一定标准,成熟一个接入一个,逐步扩展。其所施行的标准,主要参照了央行的《个人信用信息基础数据库数据接口规范》。数据的处理阶段,将收集到的统一标准的数据进行进一步的清洗及加工,最后推出统一的征信报告,从而进一步解决征信业标准不统一的问题。

3.推进信息共享

在共享数量上,百行征信系统已经通过信息共享协议的方式,接入了200多家网贷公司、8000多家县域的小贷公司、消费金融公司等,涵盖P2P网贷公司、网络小额贷款公司、消费金融公司、汽车金融公司,融资租赁公司、民营银行、助贷机构、金融科技公司等上万家数据存储单位。百行有效的解决了互联网经济时代下所带来的是“不愿意共享、无法实现共享”的问题,高效率的整合了市场上大量互联网公司的优先数据,打破原有的数据孤岛,极大的推进了互联网金融信用信心数据的共享。在共享对象上,百行的服务对象主要是众多小额贷款公司以及新兴的互联网金融借贷平台等非持牌机构,极大的满足了其市场需求,打破了央行对外封闭的局面。

但同时,面对其“准官方化”的性质,以及个人征信市场审批制的较高准入门槛,相当长一段时间内几乎不存在任何对手的百行,就可能会带来信息独占及寡头垄断问题,这就要求国家从立法等多方面加强监管。

(二)信用城市建设

信用城市作为刚刚起步的征信业新实践,国家赋予了各地信用城市建设极大的自主权,因此信用城市的建设做法不一,各地发展状况也有较大的差异。截至2018年底,国内涌现出了以苏州、福州、宿迁等为代表的优秀信用城市,其在信息的种类扩大、信息的标准统一、信息的共享机制建设方面均取得了不错的成就,为征信业困境的破除提供了重要的借鉴意义。

1.信息数据多样

信用城市的建设要求政府在原有的金融信息的基础上,尽可能多的收集能够反映个人社会诚信的信息。为此,各地采取了不同的做法,但大体上均是通过制定地方个人征信条例的方式,确定信息的类型,其中包括但不限于个人基本信息、金融借贷信息、公共事业信息、司法判决信息、行政处罚与行政强制信息、通信信息等。

例如浙江省义乌市为扩充数据种类,全面反映个人信用信息,采取了一系列有效措施扩大个人信用信息的类型。不仅全面采集行政许可、行政处罚、荣誉、评价等级等信用信息,纳税额、社保、公积金、水电气缴费等数据也被纳入个人信用信息的范围中;同时创新开展电商信用档案建设,实现信息收集线上线下的结合。

2.加强信息共享
   
信用城市通过立法和颁布配套措施的方式,打破原有的数据孤岛,加快信息的共享和流通。信用城市建设走在前列的城市在信息壁垒的破除上成效显著,如福州市已有422家信用单位通过电子政务外网接入平台,实现了信用信息资源的实时共享;荣成市社会信用管理系统,设立了党政机关、社会法人、自然人、村居组织4个数据库,与所有部门单位和镇街联网共享,成为全国首个将党政机关、村居组织纳入信用管理的城市[2]

 3.个人信用法律保障

信用城市的建设过程中,不论是数据的收集、处理、共享,还是数据的应用、个人信息保护和其对应的法律责任,都通过立法的方式进行规制,以保障信用城市建设的过程中,政府的行为有法可依,避免行政权过于干涉公民基本权利,有效避免征信过程中错误与瑕疵的出现。除此之外,信用城市建设的过程中还积极采取市场主体信用承诺简化审批模式,对不良信用记录的申请人在实施信用承诺后实行先证后核、现场发证,对信用制度建立、实行和公开力度大。如鞍山市推出了《“双承诺制”审批畅通“最后一公里”》,宿迁市提出《宿迁市启动信用承诺简化审批试点工作》。

三、对策及建议

百行及信用城市的建设为突破征信困境做了诸多的尝试,然而由于仅凭其一己之力难以对整个征信市场造成决定性的影响,诸如标准不一、数据质量差及数据孤岛的问题依旧难以得到解决。项目组成员通过大量调研并结合数学及计算科学的最新进展,从数据的归集、数据的处理、数据的共享三方面进行讨论,以期推动征信业的进一步发展。

(一)数据的归集层面

1.提供数据准确性

解决数据质量差、杂乱无章等问题应制定统一的数据收集标准,以统一的社会信用代码为基础,建立全国统一的公共信用信息目录标准、系统建设标准、信息安全技术标准和信用行业服务标准。最重要的是定义标准元数据和标准元数据目录,以消除不同部门、地区数据的歧义性。在制度层面,数据征集模式上解决一数多源重复采集问题的重要思路是以条块结合、相互补充为原则加以推进,以实现全面归集和管理信用信息。即是基础,以中央部门垂直采集的信用信息为主要数据源,而为重要补充,当中央部门采集信息不齐或渠道尚未完整建立时,地方平台采集的横向职能部门信用信息数据将成为有效补充。同时,中央部门数据和地方平台数据还可进行比对、校核,提高数据的准确性。

2.建立公共信用信息开放与共享利益补偿机制

信用信息共享程度低主要是受体制、部门利益的影响,信息资源独有专享的权属观念在各个部门不同程度存在,部分部门认为自己提供的数据价值、归集成本要远高于共享利益,由此产生了不愿共享、共享信息质量不高等问题。

在这方面,美国是采用完全市场化的私营征信模式,独立于政府,主要以盈利为目的对外提供有偿征信服务,依托大量信息采集及共享协议,收集并提供信用数据,实现数据的有效共享,政府主要是制定相关法律规范私营征信机构的发展方向,保护信息主体的合法权益。然而中国出于保护个人信息权益的目的,不能全部照搬此模式。

解决该问题应驱动部门共享内部动力和加以外部约束。在内部机制上,政府在决策时,应考虑数据价值、归集成本等因素,通过建立适当的利益补偿机制体现数据自身价值,以数据数量、质量、使用率等为参考,给予信息提供部门适当的经济补偿,以调动其共享开放信用信息的积极性。对社会上提供信息和数据的电商、中介机构等,给予适当的经济补偿。积极借鉴市场模式,推行适当的信息共享激励政策,通过价值补偿等方式鼓励市场数据与政府数据交换共享。

另一方面,完善外部约束机制也是一重要措施。信用信息的互联互通、共建共享不应只停留在口号与宏观目标层面,政府在具体政策文件中应当明确责任主体,加强对信用信息共享的监管。如山西省就曾提出将政务信用息的归集共享工作纳入对各级政府部门年终考核的指标之中。这样就能较好突破来自部门利益关系的障碍,受各部门的主观随意性影响较小。

3.开放数据接口

个人信用信息存储在不同的征信机构中,有些限于《征信业管理条例》难以向其他征信机构提供数据服务。因此有资质并符合互联网三级安全要求的征信机构,可以在网站或相关平台提供数据接口,通过用户验证及授权,获取其在其他征信机构中的信用信息,而后进行清洗及处理,扩大数据采集类型及广度。但是在获取用户个人征信报告进行有效评估后,应直接删除不进行留存,更好保护个人信息安全。

4.自主申报

数据的归集在碎片化的当下,单独依靠一个平台或一个企业,势必难以收集到全面且完整的信息,因此自主申报将有效解决此问题,用户可通过按格式提交自己的信用信息及相关证明材料,由工作人员对不符合格式的信用材料进行人工筛查,从而得到用户完整的信用报告,同时,开放在线异议机制,尽快解决所出现的问题。

(二)数据的处理层面

1.数据变换

数据形式的多样化,造成了一个数据接收和分析上的困难,针对这个问题,可以对数据进行变换,使数据统一规范化,适用于数据挖掘。具体方法及适用情况归纳如下:

 

转换方法

对数转换

平方根转换

平方根反正弦转换

平方转换

倒数转换

 

 

 

适用情况

1.部分正偏态资料

2.等比资料

3.各组数值和均值比值相差不大的资料

 

1.服从泊松分布的资料

2.轻度偏态资料

3.样本的方差和均数呈正相关的资料

 

1.变量所有个案为百分数,并且取值广泛的资料

1.方差和均数的平方呈反比

2.资料呈左偏

 

1.平方转换相反,需要方差和均数的平方呈正比,但倒数转换需要资料中没有接近或者小于零的数据

数据转换方法及适用情况表

 

2.数据清洗

从采集的数据内容上来看,其中有相当一部分数据重复赘余,甚至残缺错误,它们均被称为是脏数据。这些脏数据的出现大大增加了数据挖掘的难度,也降低了数据的精确程度。据此,可以利用有关技术数理统计数据挖掘或预定义的清理规则将脏数据转化为满足数据质量要求的数据。具体的一个数据清理模型是将数据输入到数据清理处理器,通过设定好的一些程序代码清理数据,然后以期望的格式输出清理过的数据。[3]如图2

数据清理原理



3.数据分类

对数据进行一个有效的拣取之后,为使零散的数据信息专门化,构成一个统一的逻辑架构,提高数据使用效率,数据分类是其中一个较为必要的步骤。至于有关数据分类的方法,有传统方法如线性判别法、贝叶斯分类器,现代方法有神经网络ANN、支持向量机SVM,可以根据需要进行选择。

4.维度归约

由于所获数据量较为庞大,数据整理分析起来较为困难,我们可以对所获数据进行更深层次的简化,在保证所需数据的完整性的情况下,剔除部分相关性不强的数据。这主要可以从两条途径出发,即属性选择和数据采样,在属性选择方面,可以采取主成分分析法来确定所需的数据指标;数据采样方面,可以采取样本归约的方法,从数据集中选出具有代表性的样本的子集。经过归约后的数据集,能够产生几乎相同的分析结果,并大大提高了挖掘速度。

主成分分析步骤如下:

1.  将原始数据按行排列组成矩阵X

2.  X进行数据标准化,使其均值变为零

3.  X的协方差矩阵C

4.  将特征向量按特征值由大到小排列,取前k个按行组成矩阵P,通过计算Y = PX,得到降维后数据Y

5.  用下式计算每个特征根的贡献率Vi;Vi=xi/(x1+x2+........)

6.  根据特征根及其特征向量解释主成分物理意义

神经网络模型在数据处理各步骤中运用较为频繁,因此,对其做一个简单介绍如图3

IMG_256

神经元数学模型

 

注:神经网络是由大量的、简单的处理单元(称为神经元(上述模型))广泛地互相连接而形成的复杂网络系统,它反映了人脑功能的许多基本特征,是一个高度复杂的非线性动力学习系统。其具有大规模并行、分布式存储和处理、自组织、自适应和自学能力,特别适合处理需要同时考虑许多因素和条件的、不精确和模糊的信息处理问题。

(三)数据的交换共享层面

1.商业机构之间交换共享

商业机构之间的数据交换共享属于市场交易范围内的,应充分发挥市场在资源配置中的决定性作用,但另一方面由于我国征信市场发展不成熟且起步较晚,部分处于优势地位的征信机构较易达成横向垄断协议进而排除、限制竞争,这就需要需要政府进行市场规制,对信用信息交易行业进行一定价格管制,发挥看得见的手的作用。

信用信息的市场价格既要覆盖成本,又要考虑效益。信用信息的价格不仅包括维持征信机构长期运行的固定成本、可变成本、存储成本,还要给供需双方必要的利润空间,以形成价格驱动机制,促进征信市场的良性发展。

2.央行与第三方机构交换共享

央行采集了来自商业银行、政府机关企事业单位以及个人的大量信用信息,央行与外部机构交换共享较少的主要原因是成本与收益的不对称,即央行在数据归集、处理所付诸成本及信用信息数据价值要远大于外部接入数据价值。

央行的定价应满足两个原则。一是公益性原则。央行提供的是一种不具有竞争性和排他性的准公共产品,数据价格不宜过高。第三方机构采集信用信息的成本最终会归于用户,而低定价则让用户以较低的成本享受到较为专业的信息服务,无疑会提高央行征信中心的使用频率,扩大征信市场的需求。二是成本定价原则。征信行业是固定成本较高,而边际成本几乎为零的行业,在系统的建设初期需要投入大量的资金及技术,同时花费监督管理等行政费用。央行系统的建设不以盈利为目的,而是以成本定价原则,使成本和收益相平衡,一方面可以缓解系统运营成本的压力,另一方面可以提高系统的使用效率。

3.信用信息的对外公示

信用信息对外公示程度偏低的主要原因是个人隐私与个人信用信息的边界界定模糊,由此产生的信用信息公开法律风险让部分职能部门不敢公示、不想公示。解决该类问题的重要方法是建立完善信用信息分类分级管理制度,通过总结已有分类分级方法理清信息公开与隐私保护的关系,明晰失信行为的范围,可以将信用信息分为基本信息、良好信息、警示信息、失信信息等。更好降低信用信息公示风险,也能促进公开程度。

四、结语

《社会信用体系建设规划纲要20142020》为我国下一步社会信用体系的建设提供了发展的方向。各地方政府颁布相关政策性文件和出台配套措施,加快地方社会信用体系的建设。但是在征信的过程中,由于缺乏相关的法律文件和政策性规定,信息种类过于狭窄、信息标准不统一、共享机制不健全等征信困境逐渐出现,成为了社会信用体系建设的障碍。

百行与信用城市的出现,对当前征信业困境做出了一定的突破,但尚未完全解决上述难题。从根源上来看,上述问题是立法不完善、政策不足所导致的,而破除困境的方式,除完善立法、出台相关政策以外,采用新型数据处理技术、构建健全的政府间信息共享平台也是解决之策。

建设中国特色社会信用体系,从信息的收集、处理、共享、应用四个层面构建完善的个人征信机制,需要政府的主导和市场的参与。通过立法明确信用信息类型和信息标准,颁布政府间信息共享的政策文件,明确百行的定位和权限,完善信用城市建设,从而全方面的完善个人社会信用体系的建设,为信用经济服务,促进信用经济的发展和繁荣。在2020年社会信用体系建设规划之年的到来之际,为中国征信业扬帆助力!

3.数据分类

对数据进行一个有效的拣取之后,为使零散的数据信息专门化,构成一个统一的逻辑架构,提高数据使用效率,数据分类是其中一个较为必要的步骤。至于有关数据分类的方法,有传统方法如线性判别法、贝叶斯分类器,现代方法有神经网络ANN、支持向量机SVM,可以根据需要进行选择。

4.维度归约

由于所获数据量较为庞大,数据整理分析起来较为困难,我们可以对所获数据进行更深层次的简化,在保证所需数据的完整性的情况下,剔除部分相关性不强的数据。这主要可以从两条途径出发,即属性选择和数据采样,在属性选择方面,可以采取主成分分析法来确定所需的数据指标;数据采样方面,可以采取样本归约的方法,从数据集中选出具有代表性的样本的子集。经过归约后的数据集,能够产生几乎相同的分析结果,并大大提高了挖掘速度。

主成分分析步骤如下:

1.  将原始数据按行排列组成矩阵X

2.  X进行数据标准化,使其均值变为零

3.  X的协方差矩阵C

4.  将特征向量按特征值由大到小排列,取前k个按行组成矩阵P,通过计算Y = PX,得到降维后数据Y

5.  用下式计算每个特征根的贡献率Vi;Vi=xi/(x1+x2+........)

6.  根据特征根及其特征向量解释主成分物理意义

神经网络模型在数据处理各步骤中运用较为频繁,因此,对其做一个简单介绍如图3

IMG_256

神经元数学模型

 

注:神经网络是由大量的、简单的处理单元(称为神经元(上述模型))广泛地互相连接而形成的复杂网络系统,它反映了人脑功能的许多基本特征,是一个高度复杂的非线性动力学习系统。其具有大规模并行、分布式存储和处理、自组织、自适应和自学能力,特别适合处理需要同时考虑许多因素和条件的、不精确和模糊的信息处理问题。

(三)数据的交换共享层面

1.商业机构之间交换共享

商业机构之间的数据交换共享属于市场交易范围内的,应充分发挥市场在资源配置中的决定性作用,但另一方面由于我国征信市场发展不成熟且起步较晚,部分处于优势地位的征信机构较易达成横向垄断协议进而排除、限制竞争,这就需要需要政府进行市场规制,对信用信息交易行业进行一定价格管制,发挥看得见的手的作用。

信用信息的市场价格既要覆盖成本,又要考虑效益。信用信息的价格不仅包括维持征信机构长期运行的固定成本、可变成本、存储成本,还要给供需双方必要的利润空间,以形成价格驱动机制,促进征信市场的良性发展。

2.央行与第三方机构交换共享

央行采集了来自商业银行、政府机关企事业单位以及个人的大量信用信息,央行与外部机构交换共享较少的主要原因是成本与收益的不对称,即央行在数据归集、处理所付诸成本及信用信息数据价值要远大于外部接入数据价值。

央行的定价应满足两个原则。一是公益性原则。央行提供的是一种不具有竞争性和排他性的准公共产品,数据价格不宜过高。第三方机构采集信用信息的成本最终会归于用户,而低定价则让用户以较低的成本享受到较为专业的信息服务,无疑会提高央行征信中心的使用频率,扩大征信市场的需求。二是成本定价原则。征信行业是固定成本较高,而边际成本几乎为零的行业,在系统的建设初期需要投入大量的资金及技术,同时花费监督管理等行政费用。央行系统的建设不以盈利为目的,而是以成本定价原则,使成本和收益相平衡,一方面可以缓解系统运营成本的压力,另一方面可以提高系统的使用效率。

3.信用信息的对外公示

信用信息对外公示程度偏低的主要原因是个人隐私与个人信用信息的边界界定模糊,由此产生的信用信息公开法律风险让部分职能部门不敢公示、不想公示。解决该类问题的重要方法是建立完善信用信息分类分级管理制度,通过总结已有分类分级方法理清信息公开与隐私保护的关系,明晰失信行为的范围,可以将信用信息分为基本信息、良好信息、警示信息、失信信息等。更好降低信用信息公示风险,也能促进公开程度。

四、结语

《社会信用体系建设规划纲要20142020》为我国下一步社会信用体系的建设提供了发展的方向。各地方政府颁布相关政策性文件和出台配套措施,加快地方社会信用体系的建设。但是在征信的过程中,由于缺乏相关的法律文件和政策性规定,信息种类过于狭窄、信息标准不统一、共享机制不健全等征信困境逐渐出现,成为了社会信用体系建设的障碍。

百行与信用城市的出现,对当前征信业困境做出了一定的突破,但尚未完全解决上述难题。从根源上来看,上述问题是立法不完善、政策不足所导致的,而破除困境的方式,除完善立法、出台相关政策以外,采用新型数据处理技术、构建健全的政府间信息共享平台也是解决之策。

建设中国特色社会信用体系,从信息的收集、处理、共享、应用四个层面构建完善的个人征信机制,需要政府的主导和市场的参与。通过立法明确信用信息类型和信息标准,颁布政府间信息共享的政策文件,明确百行的定位和权限,完善信用城市建设,从而全方面的完善个人社会信用体系的建设,为信用经济服务,促进信用经济的发展和繁荣。在2020年社会信用体系建设规划之年的到来之际,为中国征信业扬帆助力!

(作者:湘潭大学 顾男飞 左添熠 刘奕辰 谢心怡



                                                                                                               (声明:文章内容由作者提供,仅代表作者个人观点。)