如何系统地学习Python,中,matplotlib,numpy,scipy,pandas系统地学习Python的数据分析库(N...
如何系统地学习Python 中 matplotlib,numpy,scipy,pandas
脱
离实战的学习如纸上谈兵,只有经历过实战的考验,才能真正掌握所学的内容。之前答主在学习这些库的时候,花费了大量的时间研读练习各种教程,但是在实际项
目的过程中,仍然捉襟见肘,需要花费大量的时间查文档,去Google里搜答案。细想其中缘由,无非是因为表面上“系统”地学习了大量的函数和功能,但是
如果不能学以致用,那就无法做到熟能生巧,融会贯通。
对于初学者来讲,第一步是根据教程,对这些库建立基本的认识。可以参考以下材料:
推荐材料:Python for Data Analysis
推荐理由:这本书很全面,讲的很细,涵盖了Numpy、Scipy几个主要的数据分析库。但是这本书的缺点和优点一样明显,主要在于成书时间太早(2021年最后修改),部分内容有些陈旧,同时由于讲的很细,很多内容不太适合初学者。
阅读建议:前五章认真看一下,复制书里的代码,并能够调试运行成功,后面的章节根据需要挑着看。在建立基本认识之后,需要通过实战来进行强化,可以参考以下材料:
Harvard CS109 Data Science
之前已经有同学提到过这门课,但是仍然要再安利一下。推荐这门课主要有如下原因
有视频教程,不会太枯燥。
涵盖面广,难度适中,适合入门。
课程包括了概率论、数理统计及机器学习等内容,这些都是实际工作中常用的分析工具。
理论与实践相结合,并以Python为主要编程语言。
涉及到一点文本分析以及MapReduce、Spark等内容
2. Kaggle竞赛
如果想更进一步的了解如何用Python进行数据分析,那么,Kaggle一定是最好的选择。这里汇集了来自全世界各地的数据分析高手,社区非常的活跃,
同时也有很多有趣的比赛及项目。从适合初学者入门的数字识别器、泰坦尼克号生存率预测,到奖金几万甚至几十万美元的竞赛,再到由各大公司,如
Facebook, Walmart等,举办的以招聘为导向的竞赛,你总能找到一款适合你的
题主提到的其他问题,我的回答是:
Python做数据挖掘是否足够强大?
Python做数据挖掘强大,很强大,非常强大。大部分高科技公司的数据部门以Python和R为主,越来越多传统行业的数据部门也在进行Python数据分析的尝试。
学习数据挖掘需要学习哪些知识呢?
可以参考热帖:如何成为一名数据科学家? 数据挖掘是数据科学家应该具备的技能之一,大牛们已经给出了如何成为一名数据科学家的方法,照着做就可以了。
如何系统地学习Python 中 matplotlib,numpy,scipy,pandas
Python + Pandas + Matplotlib初探数据分析
大数据测试,说来进入这块领域也快2年半了。每天工作的内容是验证数据表的逻辑正确性。
最近偶有所思,数据测试能否更进一步?如何利用已有技能对海量数据进行全面分析,找出数据质量问题或协助数据分析师发现逻辑漏洞?
再或者,能否向数据分析师转型呢?想得很多,思绪有些杂乱。于是我冷静了下,不再空想。我先做点东西出来看看,再评估下自己是否有这个能力和资质。
花了1个星期的时间,学习了 Python 的 Pandas 模块,按照学习示例一边学习一边实操,慢慢地感觉就来了。对 Pandas 有了基本的认知后,我在寻找一个突破点,我想我不能一直只是这样按照示例代码敲下去,毫无意义。
我得将所学的 Pandas 知识结合公司现有的业务进行运用。刚开始至少能简单地开始对某张数据表的某个指标进行数据分析。于是我按照这样的想法对 test. test_resv001_room_daily_df 表的 number_of_room_nights 指标开始了数据分析的 探索 。
1、hivesql数据准备
hivesql内容说明:
从上面的 hivesql 语句可以看出,这条 sql 的目的是查询出 hotel_code_new 为 'CNSZV002','CWH','CWSW','ESL','FIJ' 在2021年各个月份的 number_of_room_nights 指标总和,按照 hotel_code_new 和月份作分组和排序。
2、代码实现
3、hive数据库all_data的数据结构查询结果
4、代码实现2中的print(df)输出结果
手工校对通过,与 hivesql 输出结果一致。
5、将dataframe数据结构的df数据使用plot生成趋势图
调用df.plot()不带任何参数的趋势图如下:
上述折线图表示:当前月份值及 历史 月份值的累加和。
调用df.plot(kind='bar')时加上参数kind='bar'的趋势图如下:
上述柱状图表示:当前月份值及 历史 月份值的累加和。
两个图只是展示形式上的区别,都能在一定程度上体现2021年12个月份每个不同 hotel_code_new 当前月份与 历史 月份 number_of_room_nights 值的累加和的数据分布情况,可以说是一个简单的数据分析。
6、将dataframe数据写入csv文件
room_nts.csv内容如下:
7、读取csv文件中dataframe数据
8、将dataframe多维数据存储到excel中
room_nts.xlsx文件中sheet_name为room_nts的内容如下:
9、从excel中读取dataframe多维数据
小结
今天分享的数据分析内容比较基础,主要是将学到的技能与业务相结合的初步 探索 ,后续还需要不断 探索 与学习,将学习到的技能加以思考并运用到实际项目业务中,如此方能走得更远。
如果认为本文对您有所帮助请赞助本站