大数据文摘出品
记者:CoolBoy、魏子敏
在这个大数据盛行的时代,许多人对“机器学习、商业智能”这些名词只闻其声,不知其形,如何将大数据建模普及可能会是未来的一个焦点。本次我们邀请到美国中佛罗里达大学统计系教授王中庆老师,来与大家分享智能化建模的奥秘以及他对未来大数据技术的展望。
人物介绍:王中庆教授
王教授于1991年获得美国爱荷华大学统计博士学位,现任美国中佛罗里达大学教授兼数据挖掘中心主任。主要研究方向为数据挖掘,网络挖掘,数据挖掘在商业智能,教育智能及健康智能的应用。
指导过的学生团队在2011、2012和2016年国际SAS数据挖掘竞赛获胜。曾担任美国富国银行( WELLS FARGO)、美国蓝十字蓝盾保险公司( BlueCross and BlueShield)、美 国 Whole Foods Market、美国恒久银行( Ever Bank) 数据分析顾问。
文摘:目前市面上已有不少AI自动化工具(如谷歌的AutoML、国内第四范式的先知平台)相比,智能化建模与这些产品是一致的吗?
王:这里提到的平台,基本进行的是自动化建模工作。而智能化建模是包含自动化的一种新的方式。在建模之前,系统会对数据进行预处理,提取出更多的信息量。比方说,数据中的缺失值就包含了很多信息,因为测不到数据也反映了某些事件的特征。那么利用MVP(缺失值补全技术)处理数据,可能就会使保险公司的事件预测准确度增长。
同时,提到的这些自动化建模工具做了许多人脸识别、声音识别的工作。这些数据的信息量大,使用深度学习的模型会有优势 。而智能化建模更适用于噪音相对高、信息量低的金融信贷和保险的数据,使用数据清洗和传统的数据挖掘方式进行智能建模。 在银行里对于不同的客户快速建立不同的模型,把更多的时间放在决策上的话,价值就很快体现出来了。
很重要的一点是,相对于优化测试准确率的传统建模观点, 智能化建模会略微牺牲准确率,专注于缩小训练准确率和测试准确率的差,也就是提升模型的稳定度。
另外,为了提升建模的速度,全局搜寻的方法应该被避免,最好是在每一步追求局部的最佳解。局部解的累积虽然可能不是最佳解,但是相对上会是一个理想的结果,并且会大大提升建模的速度。
文摘:如何平衡模型的速度、准确率和稳定度呢?
王:首先,在数据清洗阶段,使用Java这个较快的语言会提高效率。 其次,建模阶段,我们使用了Python 的扩展库,并且采用平行处理的技术进行提速。这个平行处理平台是由我的合作伙伴蒋总亲自带队开发的,会比市面上流行的平台,如Sparks,更有效率。这个过程中还会有统计方法的介入,比如建立树模型的时候,如果先预计出一个最佳的层数,建模会省去很多不必要的时间。
在建模方面,我们对于每个变量首先进行缺失值处理,之后会对每个变量依次进行非线性变换与筛选。具体的说就是先计入单个变量的全部变换,再根据不重要性进行剔除。之后要分别建立不同模型,如树模型、线性模型等,再依照一定的规则进行模型混合。 为了控制模型的稳定度,一些正规化手段需要被采用。
之前有提到,智能化建模目前针对的行业,数据噪音都比较高。这就意味着,现实的情况和训练的数据会有一定的差距。因为我们要保证业务部门使用模型的时候,得到的反馈和试验的时候差不多,所以我们需要保证模型的稳定度,这样合作的公司使用智能建模的时候我们才会放心。
同时,未来的数据和现在的数据相比也会有一定的差异。由于现在社会发展很快,我们的生活习惯也改变得很快,比如在长途旅行上,大家以前更多选择飞机,现在则会考虑高铁。时间差会带来生活方式的改变,自然也就会带来数据的差异。从这个角度看,专注于测试准确率便不是一个理想的选择。那么实际情况也是如此--从敲定合同到产品部署,从获取数据到训练模型,都存在时间差。相比强调准确率,强调稳定度可以使模型适应这一时间差。
文摘:那么您对于自动化与智能化建模的前景与看法是怎样的?
王:这应该是未来的趋势。目前像传统行业,比如金融、保险,或是非传统行业,比如电商,基本没有不用数据的行业。
有些公司可能有专业的建模人员,但是人工建模需要先预处理数据,选择模型,选择变量,之后还要调试参数,需要花费很多时间。如果有1000个项目,在有限的时间内,可能人工只能建立起其中的100个,但是利用智能建模技术就可以完成这1000个建模任务。并且如果“建立模型”和“使用模型”都由同一个人来完成,更多的精力就可以放到制定决策上。
经管类的同学,有时需要数据建模来解决项目上的问题。利用智能建模技术,这些同学就可以在没有数据科学的背景下就完成建模,然后把更多的精力投入到问题的本身,从而提高效率。
想想手机的例子:十几年前,大家的手机只用来打电话发短信。而现在智能手机除了这些基本功能,还取代了钱包,甚至公交卡。我认为大数据会像智能手机一样,一定会改变我们的生活。那么将数据智能建模普及各个行业就会是一个大趋势。
我注意到最近也有开源的自动建模工具Auto-Keras发布。这些开源的工具肯定有它的优点,但主要还是面向数据从业人员的建模工作。而我们希望将智能化建模的工作交给无相关经验的人员,让他们可以简单完成数据建模。
另外,市面上现在有一些公司,如SAS,已经开发出了一些半自动的建模工具。在这些工具上,建模人员可以通过输入一些参数,自己调试来完成建模任务。而智能化建模技术则是在这个基础上迈出了更简化的一步。
之所以这些公司不愿意迈出这一步,是因为目前的软件会带来很多的,很稳定的年收入。如果进行了技术革新,他们需要重新发展整个市场,这就带来了不确定性,所以这些公司对革新一事还是保持慎重的心态。虽然现在智能化建模有着灵活性稍差,准确率稍低等缺点,但是,我认为全自动化的智能建模技术终究会取代这些产品。
目前金融和保险还是智能化建模针对的主要方向,之后我们希望这项技术能应用到电网公司、风电公司、甚至整个工业大数据的方向来。
【今日机器学习概念】
Have a Great Definition