数据挖掘与r语言读后感(怎么学习用 R 语言进行数据挖掘)

发布时间: 2024-12-28 22:54:13 来源: 励志妙语作者: 网络整理栏目: 读后感点击: 90

数据挖掘与R语言的介绍本书利用大量给出必要步骤、代码和数据的具体案例，详细描述了数据挖掘的主要过程和技术，广泛涵盖数据大小、数据类型、分析目标、...

数据挖掘与R语言的介绍

本书利用大量给出必要步骤、代码和数据的具体案例，详细描述了数据挖掘的主要过程和技术，广泛涵盖数据大小、数据类型、分析目标、分析工具等方面的各种具有挑战性的问题。本书的支持网站给出了案例研究的所有代码、数据集以及R函数包。

数据挖掘与数据分析的区别是什么？

1.数据挖掘
数据挖掘是指从大量的数据中，通过统计学、人工智能、机器学习等方法，挖掘出未知的、且有价值的信息和知识的过程。数据挖掘主要侧重解决四类问题：分类、聚类、关联和预测，就是定量、定性，数据挖掘的重点在寻找未知的模式与规律。输出模型或规则，并且可相应得到模型得分或标签，模型得分如流失概率值、总和得分、相似度、预测值等，标签如高中低价值用户、流失与非流失、信用优良中差等。主要采用决策树、神经网络、关联规则、聚类分析等统计学、人工智能、机器学习等方法进行挖掘。综合起来，数据分析（狭义）与数据挖掘的本质都是一样的，都是从数据里面发现关于业务的知识（有价值的信息），从而帮助业务运营、改进产品以及帮助企业做更好的决策，所以数据分析（狭义）与数据挖掘构成广义的数据分析。这些内容与数据分析都是不一样的。
2.数据分析
其实我们可以这样说，数据分析是对数据的一种操作手段，或者算法。目标是针对先验的约束，对数据进行整理、筛选、加工，由此得到信息。数据挖掘，是对数据分析手段后的信息，进行价值化的分析。而数据分析和数据挖掘，又是甚至是递归的。就是数据分析的结果是信息，这些信息作为数据，由数据去挖掘。而数据挖掘，又使用了数据分析的手段，周而复始。由此可见，数据分析与数据挖掘的区别还是很明显的。
而两者的具体区别在于：
（其实数据分析的范围广，包含了数据挖掘，在这里区别主要是指统计分析）
数据量上：数据分析的数据量可能并不大，而数据挖掘的数据量极大。
约束上：数据分析是从一个假设出发，需要自行建立方程或模型来与假设吻合，而数据挖掘不需要假设，可以自动建立方程。
对象上：数据分析往往是针对数字化的数据，而数据挖掘能够采用不同类型的数据，比如声音，文本等。
结果上：数据分析对结果进行解释，呈现出有效信息，数据挖掘的结果不容易解释，对信息进行价值评估，着眼于预测未来，并提出决策性建议。
数据分析是把数据变成信息的工具，数据挖掘是把信息变成认知的工具，如果我们想要从数据中提取一定的规律（即认知）往往需要数据分析和数据挖掘结合使用。
举个例子说明：你揣着50元去菜市场买菜，对于琳琅满目的鸡鸭鱼猪肉以及各类蔬菜，想荤素搭配，你逐一询问价格，不断进行统计分析，能各自买到多少肉，多少菜，大概能吃多久，心里得出一组信息，这就是数据分析。而关系到你做出选择的时候就需要对这些信息进行价值评估，根据自己的偏好，营养价值，科学的搭配，用餐时间计划，最有性价比的组合等等，对这些信息进行价值化分析，最终确定一个购买方案，这就是数据挖掘。
数据分析与数据挖掘的结合最终才能落地，将数据的有用性发挥到极致。

如何系统地学习数据挖掘

　　磨刀不误砍柴工。在学习数据挖掘之前应该明白几点：
　　数据挖掘目前在中国的尚未流行开，犹如屠龙之技。
　　数据初期的准备通常占整个数据挖掘项目工作量的70%左右。
　　数据挖掘本身融合了统计学、数据库和机器学习等学科，并不是新的技术。
　　数据挖掘技术更适合业务人员学习（相比技术人员学习业务来的更高效）
　　数据挖掘适用于传统的BI（报表、OLAP等）无法支持的领域。
　　数据挖掘项目通常需要重复一些毫无技术含量的工作。
如果你阅读了以上内容觉得可以接受，那么继续往下看。
学习一门技术要和行业靠拢，没有行业背景的技术如空中楼阁。技术尤其是计算机领域的技术发展是宽泛且快速更替的（十年前做网页设计都能成立公司），一般人没有这个精力和时间全方位的掌握所有技术细节。但是技术在结合行业之后就能够独当一面了，一方面有利于抓住用户痛点和刚性需求，另一方面能够累计行业经验，使用互联网思维跨界让你更容易取得成功。不要在学习技术时想要面面俱到，这样会失去你的核心竞争力。
一、目前国内的数据挖掘人员工作领域大致可分为三类。
　　1）数据分析师：在拥有行业数据的电商、金融、电信、咨询等行业里做业务咨询，商务智能，出分析报告。
　　2）数据挖掘工程师：在多媒体、电商、搜索、社交等大数据相关行业里做机器学习算法实现和分析。
　　3）科学研究方向：在高校、科研单位、企业研究院等高大上科研机构研究新算法效率改进及未来应用。
二、说说各工作领域需要掌握的技能。
(1).数据分析师
　　需要有深厚的数理统计基础，但是对程序开发能力不做要求。
　　需要熟练使用主流的数据挖掘（或统计分析）工具如Business Analytics and Business Intelligence Software（SAS）、SPSS、EXCEL等。
　　需要对与所在行业有关的一切核心数据有深入的理解，以及一定的数据敏感性培养。
　　经典图书推荐：《概率论与数理统计》、《统计学》推荐David Freedman版、《业务建模与数据挖掘》、《数据挖掘导论》、《SAS编程与数据挖掘商业案例》、《Clementine数据挖掘方法及应用》、《Excel 2007 VBA参考大全》、《IBM SPSS Statistics 19 Statistical Procedures Companion》等。
　　(2).数据挖掘工程师
　　需要理解主流机器学习算法的原理和应用。
　　需要熟悉至少一门编程语言如（Python、C、C++、Java、Delphi等）。
　　需要理解数据库原理，能够熟练操作至少一种数据库（Mysql、SQL、DB2、Oracle等），能够明白MapReduce的原理操作以及熟练使用Hadoop系列工具更好。
　　经典图书推荐：《数据挖掘概念与技术》、《机器学习实战》、《人工智能及其应用》、《数据库系统概论》、《算法导论》、《Web数据挖掘》、《 Python标准库》、《thinking in Java》、《Thinking in C++》、《数据结构》等。
　　(3).科学研究方向
　　需要深入学习数据挖掘的理论基础，包括关联规则挖掘（Apriori和FPTree）、分类算法（C4.5、KNN、Logistic Regression、SVM等) 、聚类算法（Kmeans、Spectral Clustering）。目标可以先吃透数据挖掘10大算法各自的使用情况和优缺点。
　　相对SAS、SPSS来说R语言更适合科研人员The R Project for Statistical Computing，因为R软件是完全免费的，而且开放的社区环境提供多种附加工具包支持，更适合进行统计计算分析研究。虽然目前在国内流行度不高，但是强烈推荐。
　　可以尝试改进一些主流算法使其更加快速高效，例如实现Hadoop平台下的SVM云算法调用平台--web 工程调用hadoop集群。
　　需要广而深的阅读世界著名会议论文跟踪热点技术。如KDD，ICML，IJCAI，Association for the Advancement of Artificial Intelligence，ICDM 等等；还有数据挖掘相关领域期刊：ACM Transactions on Knowledge Discovery from Data，IEEE Transactions on Knowledge and Data Engineering，Journal of Machine Learning Research Homepage，IEEE Xplore: Pattern Analysis and Machine Intelligence, IEEE Transactions on等。
　　可以尝试参加数据挖掘比赛培养全方面解决实际问题的能力。如Sig KDD ，Kaggle: Go from Big Data to Big Analytics等。
　　可以尝试为一些开源项目贡献自己的代码，比如Apache Mahout: Scalable machine learning and data mining ,myrrix等（具体可以在SourceForge或GitHub.上发现更多好玩的项目）。
　　经典图书推荐：《机器学习》《模式分类》《统计学习理论的本质》《统计学习方法》《数据挖掘实用机器学习技术》《R语言实践》，英文素质是科研人才必备的《Machine Learning: A Probabilistic Perspective》《Scaling up Machine Learning : Parallel and Distributed Approaches》《Data Mining Using SAS Enterprise Miner : A Case Study Approach》《Python for Data Analysis》等。

本文标题: 数据挖掘与r语言读后感(怎么学习用 R 语言进行数据挖掘)

本文地址: http://www.lzmy123.com/duhougan/400953.html