数据挖掘的环节,数据挖掘的一般流程

中国论文网 发表于2024-04-13 05:34:29 归属于电子论文 本文已影响347 我要投稿 手机版

       今天中国论文网小编为大家分享毕业论文、职称论文、论文查重、论文范文、硕博论文库、论文写作格式等内容.                    

 摘 要 随着大数据时代的到来,企业信息处理流程的优化,变得至关重要。很多企业在分析信息处理流程的方法上还是相当简单,采用类似于分析实物制造流程的方法。但是在实际的推行过程中,由于缺乏对信息流程处理的多样性和变动性的特点了解,只是凭简单分析和个人经验抓问题发生点,所以出现抓不住重点和看不全面的两大问题。本文利用数据挖掘的方法,对N公司的进口报关流程进行了分析和改善,通过建立价值流程图,找出最有改善价值的流程段,然后运用决策树模型,针对若干流程薄弱点提出具体建议。   【关键词】进口报关 时间优化 数据挖掘   1 引言   信息虽给出了数据中一些有一定意义的东西,但它往往和人们所从事的任务没有什么关联,还不能作为判断、决策和行动的依据。对信息进行再加工,进行深入洞察,才能获得更有用的信息,即知识。从数据到知识,要经过分析加工、处理精炼的过程。我们可以把知识从低到高区分为四个等级:数据、信息、知识与智慧。数据是原始素材;信息是可以对比且具有相关背景资料的数据;知识是可用于指导行动的信息;智慧是为达到特定目标而运用知识的能力。   数据挖掘,又称数据库知识发现,是数据库技术的进一步扩展,所谓的数据挖掘是非琐碎的过程,揭示了隐含的、未知的从数据库中大量数据和信息的潜在价值,使得人们收集数据的能力大大提高。数据挖掘是一种决策支持过程,它是基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术、高度自动化企业数据分析,归纳推理,发掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。   2 N公司进口报关流程的状况   2.1 进口报关的方式   进口报关应该分为一般贸易进口和进料加工企业这两个方法。   2.2 进行报关的程序   在正常情况下,进口报关分为4个步骤,:声明、查检、纳税和释放。   2.3 流程结构图   如图1。   3 利用数据挖掘处理问题的整体策略   3.1 制作价值流程图   3.1.1 描述个人职能   进口报关流程不同于传统的制造业,是个信息处理的过程,每个人的职能比制造业更加复杂,明确每个人的职能,才能知道价值流程图的每个子流程。每个企业的进口报关有着自己的特性,所以在分析前,必须重新梳理他们的职能。每个人的职能描述可以分以下5个方面:   (1)来源:他的前道是谁,他们分别会提交过来什么任务,是信息还是实物。   (2)处理规则:对于每个任务,处理的规则是什么。   (3)任务目标:每个任务最终会达到什么效果。   (4)等待机制:不同于实物制造流水线工人的职能单一,进口报关流程中的每个人往往有其他无关的任务,所以清楚任务所面临的可能等待,是清楚某些任务出现不正常的延迟的必要事件。   (5)错误处理:因为类似的信息处理任务的非标准特质,所以出错率较高,错误处理机制的好坏往往决定着任务处理时间分布。   (6)去处:成功处理的任务的下个处理程序。   3.1.2 分析进口报关的信息处理流程   以N公司的进口报关流程的基本情况为例:   (1)从国外制造商和物流服务商那获取报关需要的原始凭证:合同,发票,运输单据,箱单。   (2)子流程:海运过程,报关文档的预处理,电子申报,海关审核报关单据,现场检查。   (3)涉及的合作方:国外制造商,物流服务提供商,N公司进口部门,报关商,海关。  (4)涉及人员:总共约20人,其中专职本任务的约10人。   (5)考核指标:总的流程时间,N公司目前的设定标准天数为7天。   3.1.3 画出价值流程图   价值流程图(Value Stream Mapping,VSM)是丰田精益制造(Lean Manufacturing)生产系统框架下的一种用来描述物流和信息流的形象化工具。VSM可以作为管理人员、工程师、生产制造人员、流程规划人员、供应商以及顾客发现浪费、寻找浪费根源的起点。   它在这的主要作用:   (1)帮助数据分析人员去理解流程,理解企业的业务数据背后的逻辑,从而建立数据挖掘的具体模型,运用恰当的分析模型。   (2)当数据分析结果出来时,便于把它翻译为具体的问题,这样提出的改善项目,业务人员才能理解这些项目的意义,才能争取到更多的资源支持。   3.2 数据分析   3.2.1 数据的前期工作   (1)挑选数据。把N公司进口报关的数据记录整合,结合对进口报关流程的理解,剔除与流程时间无关的记录要素。   (2)数据的预处理。删除异常和无效的数据,把所有的数据转换为标准格式。   (3)数据的转换。将把数据转换成一个模型,这个分析模型是针对挖掘算法建立的,一个恰当的挖掘算法分析模型是数据挖掘成功的关键。   3.2.2 列出可能的影响因素   对整个流程进行分析,根据第一步的个人职能描述,从和他们的交流中提炼可能的影响因素,并且区分哪些是难以改变的,哪些是精益改善的重点,对于N公司的进口报关流程,如表1所示。   在后面的数据分析中,首先要把整体的的延迟效果分摊到每种因素上,区分不同的因素对整体的流程时间造成的影响。因为这些可改善因素是难以记录,这也是区别于传统制造业的数据分析难点,所以本文的思路是,把属于不可改变因素造成的延迟影响剥离出来,找出可改善因素在当中的影响效果,然后从可能的改善方面去指定改善措施。   3.2.3 筛选最有改善价值的流程段   这部分主要是比较不同情形下,流程时间的波动情况,引入了改善价值评估的3个属性:改善空间,改善难度,情形权重。 在一定的情形下,流程时间在准时和延迟状况下的分别有两个分布。   A:延迟分布的均值-准时分布的均值差越大,表示改善空间越大。   B:延迟分布的标准差-准时分布的标准差越大,表示当中的干扰因素越多,难以去分析波动的具体,改善的难度越大。   C:延迟分布的权重,表示如果得到改善,它对整体的影响大小。   改善价值=A/B*C,通过计算不同情形下的改善价值,企业可以迅速的定位它应该重点分析和改善的地方。   3.2.4 运用数据挖掘工具具体分析   数据挖掘的原理是数学统计和计算机编程的相结合,所以对于数据挖掘的初级应用只需运用一些成熟的工具即可,目前较为成熟的数据挖掘工具为SAS,SPSS和Minitab,Mat lab,根据对N公司的实际问题和数据的观察,采用SPSS较为适合。   3.2.5 数据挖掘方法选择   决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输出。数据挖掘中决策树是一种经常要用到的技术,可以用于分析数据,同样也可以用来做预测。   决策树学习也是资料探勘中一个普通的方法。在这里,每个决策树都表述了一种树型结构,它由它的分支来对该类型的对象依靠属性进行分类。决策树同时也可以依靠计算条件概率来构造。决策树如果依靠数学的计算方法可以取得更加理想的效果。 数据库已如下所示:   相关的变量 Y 表示我们尝试去理解,分类或者更一般化的结果。 其他的变量x1, x2, x3 等则是帮助我们达到目的的变量。   3.3 提出精益改善项目   (1)决策树的结果以树的视图出现,它的含义基于前面对决策树算法的描述,每一层都是一个最优分类:见附图一   (2)通过观察,发现了9个节点异常,清晰的数据请见图2。   (3)进一步比较它们的数据,做出柱状图,见图3。横轴为3组国家,纵轴为流程时间,   认为异常的依据,因为它们的延迟记录都属于其他原因(另外两个分类为COO延迟和没有延迟原因记录),但是却发现对于不同的国家,N公司的进口报关流程的时间有着明显的诧异,SPSS自动把所有的记录国家分为3组:1,VN,MY,IN;2,HK,TH,LK,ID;3,其他一些小批量的国家。相差的时间最高达到了4.55天,即36.4个工作小时,这个值得进一步研究挖掘。   而通过进一步与相关业务人员交流,由于决策树排除了已知有记录的客观因素的干扰,从理论上来讲,同一环境中,来自不同国家的进口报关单证的处理时间应该接近。   显然这里是一个问题点,需要进一步找出改善措施,遍历整个决策树,结和相关人员的经验知识,提出所有的问题点。   3.4 相应的改善措施   上述决策树被遍历后,一共得出9个问题点,它们的位置见附图2。   上述的这个问题点,最后的改进方案为:   第一,改善员工对其他国家分类下的业务处理能力,加强对员工的技能培训。   第二,重新审视员工对1条订单的业务处理能力,总结在此情况下异常的原因。   第三,使用处理软件,使得处理复杂单证的时候,时间大幅度下降。   3.5 预计的效果   以上述的例子问题节点为例,如图4所示。   假如,能让所有国家的报关单证按照表现较好的节点4(VN,MY,IN)的来,那么(HK,TH,KH,ID)可以短短1.15天,而且决策树的结果提供了这个节点的样本量。所以这个节点改善后对整体的改善效果也可以得知。   某个节点的改善空间(天)*权重=这个节点的改善对整体流程时间的改善。   再从另外一个角度看改善效果,其中业务人员给出的理论标准时间为1天,原产地证COO造成的延迟为1.15天,剩下的0.76天是其他的因素造成的延迟,引用图5。   减少的浪费时间比例=0.46/0.76=61%   如果,N公司的进口报关流程没用进行大的流程改革或者技术提升,即理论标准天数补天,那么所以通过改善这9个问题节点,将可以较少61%的无效时间。   4 结论   本文通过将前期建立价值流程图,中期的数据挖掘和最后的多点准确的精益改善措施,帮助企业的有效缩短了进口报关流程的时间。在没有大幅度改变进口流程和没有投入技术升级的情况下,有效找到了进口报关流程中最薄弱的环节,有的放矢的提出相应的改善措施,这需要改良者能贯穿进口报关业务,精益和数据挖掘,综合要求较高。   参考文献   [1]薛跃,盛党红.6σ管理法与精益生产整合研究[J].科学学与科学技术管理,2003(01).  [2]王立柱.精益生产在亚特公司的应用研究[D].北京交通大学.硕士学位论文,2009.   [3]王萍.基于数据挖掘技术的消费者行为研究[C].博士学位论文,2004.   [4]林慧丹.第三方物流[M].上海:上海财经大学出版社,2005.   [5]仪玉莉,刘洪彬.高级物流师[M].北京:人民交通出版社,2004.   [6]刘立,张清检.物流师实务手册.北京:机械工业出版社,2007.   [7]丁朝阳.企业信息化规划与解决方案研究[D].武汉:华中师范大学,2004.   [8]杨永钢.数据挖掘在物流领域中的应用[D].武汉:武汉理工大学,2006.   [9]张云涛,龚玲.商业智能设计、部署与实现[M].北京:电子工业出版社,2004.   [10]王珊.数据仓库技术与联机分析处理LM.北京:科学出版社,1998.   [11]Adrienne Curry,The intranet-an intrinsic component of strategic Information management, International Journal of Information Management,2000.   [12]Agrawal R.,osos,Efficient similarity search in sequence data bases,Foundations of Data Organization and Algorithms,Chicago,Oct,1993.   作者简介   张园园(1982-),女,安徽省濉溪县人。现为合肥工业大学计算机与信息学院在读硕士。系安徽工业经济职业技术学院实验师。主要研究方向为计算机应用技术。

  中国论文网(www.lunwen.net.cn)免费学术期刊论文发表,目录,论文查重入口,本科毕业论文怎么写,职称论文范文,论文摘要,论文文献资料,毕业论文格式,论文检测降重服务。

返回电子论文列表
展开剩余(