跳转到主要内容
Chinese, Simplified

数据挖掘是在大型数据集中发现模式的过程,涉及机器学习、统计和数据库系统交叉使用的方法。[1]数据挖掘是计算机科学与统计学交叉的子领域,其总体目标是从数据集中提取信息(使用智能方法),并将信息转换为可理解的结构以供进一步使用。[1][2][3][4]数据挖掘是“数据库知识发现”过程或KDD的分析步骤。除了原始分析步骤,它还涉及数据库和数据管理方面、数据预处理、模型和推理考虑、兴趣度度量、复杂性考虑、发现结构的后处理、可视化和在线更新

术语“数据挖掘”是一个错误的名称,因为其目标是从大量数据中提取模式和知识,而不是数据本身的提取(挖掘)。它也是一个时髦的词,经常应用于任何形式的大规模数据或信息处理(收集、提取、仓储、分析和统计),以及计算机决策支持系统的任何应用,包括人工智能(如机器学习)和商业智能。《数据挖掘:用Java[8]实现的实用机器学习工具与技术》(主要涉及机器学习材料)一开始只是命名为《实用机器学习》(Practical machine learning tools and techniques with Java[8]),由于市场原因才添加了“数据挖掘”一词。通常,更一般的术语(大规模)数据分析和分析——或者,当涉及到实际方法时,人工智能和机器学习——更合适。

实际的数据挖掘任务是对大量数据进行半自动或自动分析,以提取以前未知的、有趣的模式,如数据记录组(集群分析)、异常记录(异常检测)和依赖关系(关联规则挖掘、顺序模式挖掘)。这通常涉及使用数据库技术,如空间索引。这些模式可以看作是输入数据的一种总结,可以用于进一步的分析,或者,例如,在机器学习和预测分析中。例如,数据挖掘步骤可以识别数据中的多个组,然后决策支持系统可以使用这些组获得更准确的预测结果。数据收集、数据准备、结果解释和报告都不是数据挖掘步骤的一部分,但是作为附加步骤确实属于整个KDD过程。

数据分析和数据挖掘的区别在于,数据分析是用来测试数据集上的模型和假设,例如,分析营销活动的有效性,而不管数据的数量;相反,数据挖掘使用机器学习和统计模型来揭示大量数据中的秘密或隐藏模式

相关术语数据挖掘、数据钓鱼和数据窥探是指使用数据挖掘方法对较大的总体数据集的某些部分进行抽样,这些数据集太小(或可能太小),无法对所发现的任何模式的有效性做出可靠的统计推断。然而,这些方法可以用于创建新的假设来测试更大的数据总体。

词源

在20世纪60年代,统计学家和经济学家使用数据打捞或数据挖掘等术语来指代他们认为的在没有先验假设的情况下分析数据的糟糕做法。经济学家迈克尔•洛弗尔(Michael Lovell)在1983年发表于《经济研究评论》(Review of Economic Studies)的一篇文章中,以类似的批评方式使用了“数据挖掘”一词。洛弗尔指出,这种做法“伪装成各种各样的别名,从“实验”(正面)到“钓鱼”或“窥探”(负面)

数据挖掘一词于1990年左右出现在数据库界,一般具有积极的含义。在20世纪80年代的很短一段时间内,人们使用了一个短语“数据库挖掘”™,但自从它被总部位于圣地亚哥的HNC公司注册为商标后,人们开始宣传他们的数据库挖掘工作站;[12]的研究人员因此转向了数据挖掘。其他使用的术语包括数据考古学、信息收集、信息发现、知识提取等。Gregory Piatetsky-Shapiro为同一主题的第一个研讨会(KDD-1989)创造了“数据库中的知识发现”这个术语,这个术语在人工智能和机器学习社区中变得更加流行。然而,数据挖掘这个术语在商界和新闻界变得越来越流行。目前,术语数据挖掘和知识发现可以互换使用。

在学术界,主要的研究论坛始于1995年,当时在AAAI的赞助下,首届数据挖掘和知识发现国际会议(KDD-95)在蒙特利尔召开。会议由Usama Fayyad和Ramasamy Uthurusamy共同主持。一年后的1996年,尤萨马·法耶德(Usama Fayyad)创办了Kluwer创办的《数据挖掘与知识发现》(Data Mining and Knowledge Discovery)杂志,担任主编。后来,他创办了SIGKDD通讯SIGKDD exploration。KDD国际会议成为数据挖掘领域最主要的高质量会议,研究论文提交的通过率低于18%。《数据挖掘与知识发现》是该领域的主要研究期刊。

背景

从数据中手工提取模式已经有几个世纪的历史了。早期识别数据模式的方法包括贝叶斯定理(1700年)和回归分析(1800年)。计算机技术的扩散、普及和日益强大的功能极大地提高了数据收集、存储和操作能力。随着数据集的规模和复杂性的增长,直接的“动手”数据分析越来越多地得到了间接的、自动化的数据处理的支持,这得益于计算机科学中的其他发现,如神经网络、聚类分析、遗传算法(1950年代)、决策树和决策规则(1960年代)以及支持向量机(1990年代)。数据挖掘是将这些方法应用于大数据集中,旨在揭示隐藏模式[15]的过程。桥梁的差距从应用统计和人工智能(通常提供的数学背景)数据库管理利用数据存储和索引在数据库中执行实际的学习和发现算法更有效,允许这些方法被应用到更大的数据集。

过程

数据库知识发现(KDD)过程通常定义为:

  • 选择
  • 预处理
  • 转换
  • 数据挖掘
  • 解释/评价。[5]

然而,它存在于这个主题的许多变体中,例如跨行业数据挖掘标准流程(CRISP-DM),它定义了六个阶段:

  • 业务的理解
  • 数据的理解
  • 数据准备
  • 建模
  • 评价
  • 部署

或简化的过程,如(1)预处理、(2)数据挖掘和(3)结果验证。

在2002年、2004年、2007年和2014年进行的调查显示,CRISP-DM方法是数据采掘者使用的主要方法。[16]是在这些民意调查中提到的唯一其他数据挖掘标准。然而,使用CRISP-DM的人数是使用的3-4倍。几个研究团队发表了对数据挖掘过程模型的综述,[17][18]和Azevedo and Santos在2008年对CRISP-DM和SEMMA进行了比较

预处理

在使用数据挖掘算法之前,必须装配一个目标数据集。由于数据挖掘只能揭示数据中实际存在的模式,因此目标数据集必须足够大,以包含这些模式,同时保持足够简洁,以便在可接受的时间限制内进行挖掘。数据的常见来源是数据集市或数据仓库。预处理是数据挖掘前分析多元数据集的基础。然后清除目标集。数据清理删除包含噪声和数据丢失的观测结果。

数据挖掘

数据挖掘包括六种常见的任务:[5]

  • 异常检测(离群值/变化/偏差检测)-识别不寻常的数据记录,可能是有趣的或需要进一步研究的数据错误。
  • 关联规则学习(依赖关系建模)——搜索变量之间的关系。例如,超市可能会收集顾客购买习惯的数据。使用关联规则学习,超市可以确定哪些产品经常一起购买,并将这些信息用于营销目的。这有时被称为市场篮子分析。
  • 集群——是发现数据中以某种方式或其他方式“相似”的组和结构的任务,而不需要在数据中使用已知的结构。
  • 分类—是将已知结构一般化,以应用于新数据的任务。例如,电子邮件程序可能尝试将电子邮件分类为“合法”或“垃圾邮件”。
  • 回归——试图找到一个对数据建模误差最小的函数,即用于估计数据或数据集之间的关系。
  • 摘要-提供更紧凑的数据集表示,包括可视化和报表生成。

结果验证

这是统计学家泰勒·维根(Tyler Vigen)通过机器人挖掘数据得出的一个数据示例,它显然显示了赢得拼字比赛的最佳单词与美国被有毒蜘蛛咬死的人数之间的密切联系。趋势上的相似性显然是一种巧合。

数据挖掘可能在无意中被滥用,然后产生的结果似乎很重要;但它们实际上不能预测未来的行为,也不能在新的数据样本上重现,而且用处不大。通常,这是由于调查了太多的假设,而没有进行适当的统计假设检验。在机器学习中,这个问题的一个简单版本被称为过度拟合,但在过程的不同阶段也可能出现同样的问题,因此,如果完全适用,火车/测试分离可能不足以防止这种情况的发生

从数据中发现知识的最后一步是验证数据挖掘算法产生的模式是否发生在更广泛的数据集中。数据挖掘算法发现的模式不一定都是有效的。数据挖掘算法通常会在训练集中发现一般数据集中不存在的模式,这称为过拟合。为了克服这个问题,评估使用了一组未经数据挖掘算法训练的测试数据。将学到的模式应用于这个测试集,并将结果输出与期望的输出进行比较。例如,一个试图区分“垃圾邮件”和“合法”电子邮件的数据挖掘算法将在一组训练样本电子邮件上进行训练。一旦经过训练,所学习的模式将应用于未经训练的电子邮件测试集。这些模式的准确性可以通过它们正确分类的电子邮件数量来衡量。可以使用多种统计方法来评估算法,如ROC曲线。

如果所学习的模式不能满足所需的标准,则有必要重新评估和更改预处理和数据挖掘步骤。如果所学习的模式确实符合所需的标准,那么最后一步就是解释所学习的模式并将其转化为知识。

研究

该领域的主要专业机构是计算机械协会(ACM)的知识发现和数据挖掘特别兴趣小组(SIG)。自从1989年以来,这个ACM团体已经主办了一个年度国际会议并且出版了它的会议录,[23]并且自从1999年以来它已经出版了一个双年度学术期刊命名为“SIGKDD探索”

关于数据挖掘的计算机科学会议包括:

  • CIKM会议- ACM信息与知识管理会议
  • 欧洲机器学习与数据库知识发现原理与实践会议
  • 关于知识发现和数据挖掘的ACM SIGKDD会议

数据挖掘主题也出现在许多数据管理/数据库会议上,例如ICDE会议、SIGMOD会议和国际大型数据库会议

标准

已经有一些为数据挖掘过程定义标准的工作,例如1999年的欧洲跨行业数据挖掘标准过程(CRISP-DM 1.0)和2004年的Java数据挖掘标准(JDM 1.0)。这些流程的后续开发(CRISP-DM 2.0和JDM 2.0)在2006年非常活跃,但此后一直停滞不前。JDM 2.0在没有达成最终草案的情况下被撤回。

对于交换提取的模型(特别是用于预测分析),关键标准是预测模型标记语言(PMML),这是数据挖掘组(DMG)开发的一种基于xml的语言,许多数据挖掘应用程序都支持这种语言作为交换格式。顾名思义,它只涵盖预测模型,这是一项对业务应用程序非常重要的特定数据挖掘任务。然而,覆盖(例如)子空间聚类的扩展已经独立于DMG.[25]提出

值得注意的使用

 

如今,只要有数字数据可用,就可以使用数据挖掘。数据挖掘的显著例子可以在商业、医学、科学和监视中找到。

关注私隐及操守

虽然“数据挖掘”一词本身可能没有伦理含义,但它常常与与人们的行为(伦理和其他方面)相关的信息挖掘联系在一起

在某些情况和上下文中,数据挖掘的使用方式可能会引发关于隐私、合法性和伦理的问题。特别是,为国家安全或执法目的而对政府或商业数据集进行数据挖掘,例如在“全面信息意识计划”或“建议”中,已经引起了对隐私的关注

数据挖掘需要数据准备工作,数据准备工作揭示了损害机密性和隐私义务的信息或模式。实现此目的的一种常见方法是通过数据聚合。数据聚合涉及以一种便于分析的方式将数据组合在一起(可能来自不同的数据源)(但这也可能使私有的、个人级别的数据的标识成为可推断的或明显的)。这本身并不是数据挖掘,而是分析前准备数据的结果。当数据一旦被编译,数据采集器或任何能够访问新编译数据集的人就能够识别特定的个人,特别是当数据最初是匿名的时候,对个人隐私的威胁就会发挥作用

这是推荐的[根据谁?]在收集数据前应注意以下事项

  • 数据收集及任何(已知)数据挖掘项目的目的;
  • 资料将如何使用;
  • 谁将能够挖掘数据并使用数据及其衍生物;
  • 有关存取资料的保安状况;
  • 如何更新收集的数据。

还可以修改数据,使之匿名,以便不容易识别个人。然而,即使是“匿名”的数据集也可能包含足够的信息来识别个人,就像记者能够根据一组由美国在线无意中发布的搜索历史记录找到几个人一样

无意中泄露的个人身份信息导致提供者违反了公平的信息实践。这种不检点的行为可能会对指定的个人造成经济、情感或身体上的伤害。在一起侵犯隐私的案件中,沃尔格林的客户在2011年对该公司提起诉讼,指控该公司向数据挖掘公司出售处方信息,而数据挖掘公司反过来又向制药公司提供数据

欧洲局势

欧洲有相当严格的隐私法,正在努力进一步加强消费者的权利。然而,美国和欧盟的安全港原则目前有效地将欧洲用户暴露在美国公司的隐私剥削之下。由于爱德华·斯诺登(Edward Snowden)披露了全球监控信息,撤销该协议的讨论越来越多,尤其是数据将完全暴露给美国国家安全局(National Security Agency),而达成协议的努力已经失败。[引文需要]

美国的情况

在美国,美国国会通过了《健康保险可携性与责任法案》(HIPAA)等监管控制措施,解决了人们对隐私的担忧。《HIPAA》要求个人就其提供的信息及其目前和未来的用途提供“知情同意”。根据《生物技术商业周刊》的一篇文章,AAHC说:“在实践中,HIPAA可能不会提供比研究领域长期存在的规定更大的保护。”更重要的是,该规则通过知情同意进行保护的目标是达到普通人无法理解的程度。这强调了在数据聚合和挖掘实践中数据匿名的必要性。

美国的信息隐私立法,如HIPAA和《家庭教育权利和隐私法》(FERPA),只适用于每一项此类法律所涉及的特定领域。美国大多数企业对数据挖掘的使用不受任何法律的控制。

著作权法

欧洲局势

由于欧洲著作权法和数据库法缺乏灵活性,未经著作权人许可而进行网络挖掘等非著作权作品是不合法的。在欧洲,如果数据库是纯数据,那么很可能没有版权,但是数据库的权利可能存在,因此数据挖掘受到数据库指令的约束。根据Hargreaves review的建议,这导致英国政府在2014年修订了其版权法,允许内容挖掘作为限制和例外。这是继日本之后,世界上第二个在数据挖掘方面破例的国家。然而,由于版权指令的限制,英国的例外只允许用于非商业目的的内容挖掘。英国版权法也不允许这一条款被合同条款所覆盖。2013年,欧盟委员会(European Commission)以《欧洲许可证》(licence for Europe)的名义,促进了利益相关者对文本和数据挖掘的讨论。[38]中国英语学习网由于把解决这一法律问题的重点放在发放许可证上,而不是限制和例外,导致大学、研究人员、图书馆、民间社会团体和开放获取出版商的代表在2013年5月离开利益攸关方对话

美国的情况

与欧洲形成鲜明对比的是,美国版权法的灵活性,尤其是合理使用,意味着美国以及以色列、台湾和韩国等其它合理使用国家的内容开采被视为合法。由于内容挖掘具有变革性,即它不会取代原作,因此在合理使用下被视为合法。例如,作为谷歌图书和解协议的一部分,该案主审法官裁定,谷歌对版权所有图书的数字化项目是合法的,部分原因是数字化项目所展示的革命性用途——其中之一是文本和数据挖掘。

软件

类别:数据挖掘和机器学习软件。

免费的开源数据挖掘软件和应用程序

以下应用程序在免费/开源许可下可用。对应用程序源代码的公共访问也是可用的。

  • Carrot2:文本和搜索结果聚类框架。
  • Chemicalize.org:一个化学结构挖掘器和web搜索引擎。
  • ELKI:一个用Java语言编写的具有高级聚类分析和异常值检测方法的大学研究项目。
  • GATE:一种自然语言处理和语言工程工具。
  • KNIME: Konstanz Information Miner,一个用户友好且全面的数据分析框架。
  • Massive Online Analysis (MOA): :利用Java编程语言中的概念漂移工具,实时挖掘大数据流。
  • MEPX -基于遗传规划变量的回归和分类问题的跨平台工具。
  • flex:一个软件包,允许用户与用任何编程语言编写的第三方机器学习包集成,跨多个计算节点并行执行分类分析,并生成分类结果的HTML报告。
  • mlpack:用c++语言编写的一组随时可用的机器学习算法。
  • NLTK(自然语言工具包):一套用于Python语言的符号和统计自然语言处理(NLP)的库和程序。
  • OpenNN:开放的神经网络库。
  • Orange:用Python语言编写的基于组件的数据挖掘和机器学习软件包。
  • R:一种用于统计计算、数据挖掘和图形处理的编程语言和软件环境。它是GNU项目的一部分。
  • scikit-learn是一个用于Python编程语言的开源机器学习库
  • Torch:一个面向Lua编程语言和科学计算框架的开源深度学习库,广泛支持机器学习算法。
  • UIMA: UIMA(非结构化信息管理体系结构)是用于分析文本、音频和视频等非结构化内容的组件框架,最初由IBM开发。
  • Weka:一套用Java编程语言编写的机器学习软件应用程序。

专有数据挖掘软件和应用程序

以下应用程序在专有许可下可用。

  • Angoss knowledge gestudio:数据挖掘工具
  • Clarabridge:文本分析产品。
  • LIONsolver:用于数据挖掘、商业智能和建模的集成软件应用程序,实现了学习和智能优化(LION)方法。
  • Megaputer智能:数据和文本挖掘软件称为PolyAnalyst。
  • Microsoft Analysis Services::微软提供的数据挖掘软件。
  • NetOwl:支持数据挖掘的多语言文本和实体分析产品套件。
  • Oracle数据挖掘:由Oracle公司开发的数据挖掘软件。
  • PSeven: DATADVANCE提供的工程仿真分析自动化、多学科优化和数据挖掘平台。
  • Qlucore组学资源管理器:数据挖掘软件。
  • RapidMiner:用于机器学习和数据挖掘实验的环境。
  • SAS企业采集器:SAS研究所提供的数据挖掘软件。
  • SPSS Modeler: IBM提供的数据挖掘软件。
  • STATISTICA :StatSoft提供的数据挖掘软件。
  • Tanagra:面向可视化的数据挖掘软件,也用于教学。
  • Vertica:数据挖掘软件由惠普提供。

See also

Methods
Application domains
Application examples

Main article: Examples of data mining

See also: Category:Applied data mining.

Related topics

Data mining is about analyzing data; for information about extracting information out of data, see:

Other resources

 

原文:https://en.wikipedia.org/wiki/Data_mining

本文:https://pub.intelligentx.net/wikipedia-data-mining

讨论:请加入知识星球或者小红圈【首席架构师圈】

Article
知识星球
 
微信公众号
 
视频号