樓主: 資料狂人
6286 15

[學科前沿] Python做數據分析-簡潔、易讀、強大 [推廣有獎]

VIP管理員

泰鬥

68%

還不是VIP/貴賓

-

威望
9
論壇币
986609563 个
通用積分
25953.8170
學術水平
4496 点
熱心指數
3270 点
信用等級
3509 点
經驗
561503 点
帖子
7653
精華
142
在線時間
13580 小时
注冊时间
2010-3-18
最后登錄
2019-9-17

初級热心勳章 初級学术勳章 中級学术勳章 中級热心勳章 初級信用勳章 中級信用勳章 高級学术勳章 高級热心勳章 高級信用勳章 特級信用勳章 特級学术勳章

資料狂人 在职认证  发表于 2017-10-12 09:12:24 |顯示全部樓層

使用過Python的用戶都會被其簡潔、易讀、強大的庫所折服,其pythonic語言特性,對人極其友好,可以說,一個完全不懂編程語言的人,看懂python語言也不是難事。


在數據分析和交互、探索性計算以及數據可視化等方面,相對于R、MATLAB、SAS、Stata等工具,Python都有其優勢。近年來,由于Python庫的不斷發展(如pandas),使其在數據挖掘領域嶄露頭角。結合其在通用編程方面的強大實力,我們完全可以只使用Python這一種語言去構建以數據爲中心的應用程序。


由于python是一种解释性语言,大部分编译型语言都要比python代码运行速度快,有些同学就因此鄙视python。但是python是一门高級语言,其生産效率更高,時間通常比CPU的時間值錢,因此爲了權衡利弊,考慮用python是值得的。


Python強大的計算能力依賴于其豐富而強大的庫:

Numpy

Numerical Python的简称,是Python科学计算的基础包。其功能:

1. 快速高效的多维数组对象ndarray。

2. 用于对数组执行元素級计算以及直接对数组执行数学运算的函数。

3. 线性代数运算、傅里叶变换,以及随机数生成。

4. 用于将C、C++、Fortran代码集成到Python的工具。

除了为Python提供快速的数组处理能力,NumPy在数据分析方面还有另外一个主要作用,即作为在算法之间传递数据的容器。对于数值型数据,NumPy数组在存储和处理数据时要比内置的Python数据结构高效得多。此外,由低級语言(比如C和Fortran)编写的库可以直接操作NumPy数组中的数据,无需进行任何数据复制工作。


SciPy

是一組專門解決科學計算中各種標准問題域的包的集合,主要包括下面這些包:

1. scipy.integrate:数值积分例程和微分方程求解器。

2. scipy.linalg:扩展了由numpy.linalg提供的线性代数例程和矩阵分解功能。

3. scipy.optimize:函数优化器(最小化器)以及根查找算法。

4. scipy.signal:信号处理工具。

5. scipy.sparse:稀疏矩阵和稀疏线性系统求解器。

6. scipy.special:SPECFUN(这是一个实现了许多常用数学函数(如伽玛函数)的Fortran库)的包装器。

7. scipy.stats:标准连续和离散概率分布(如密度函数、采样器、连续分布函数等)、各种统计检验方法,以及更好的描述统计法。

8. scipy.weave:利用内联C++代码加速数组计算的工具。

注:NumPy跟SciPy的有機結合完全可以替代MATLAB的計算功能(包括其插件工具箱)。


SymPy

是python的數學符號計算庫,用它可以進行數學表達式的符號推導和演算。


pandas

提供了使我們能夠快速便捷地處理結構化數據的大量數據結構和函數。你很快就會發現,它是使Python成爲強大而高效的數據分析環境的重要因素之一。

pandas兼具NumPy高性能的数组计算功能以及电子表格和关系型數據庫(如SQL)灵活的数据处理功能。它提供了复杂精细的索引功能,以便更为便捷地完成重塑、切片和切块、聚合以及选取数据子集等操作。

对于使用R語言进行统计计算的用户,肯定不会对DataFrame这个名字感到陌生,因为它源自于R的data.frame对象。但是这两个对象并不相同。R的data.frame对象所提供的功能只是DataFrame对象所提供的功能的一个子集。也就是说pandas的DataFrame功能比R的data.frame功能更强大。


matplotlib

是流行的用于绘制数据图表的Python库。它最初由John D. Hunter(JDH)创建,目前由一个庞大的开发人员团队维护。它非常适合创建出版物上用的图表。它跟IPython(马上就会讲到)结合得很好,因而提供了一种非常好用的交互式数据绘图环境。绘制的图表也是交互式的,你可以利用绘图窗口中的工具栏放大图表中的某个区域或对整个图表进行平移浏览。


TVTK

是python数据三维可视化库,是一套功能十分强大的三维数据可视化库,它提供了Python风格的API,并支持Trait属性(由于Python是动态编程语言,其变量没有类型,这种灵活性有助于快速开发,但是也有缺点。而Trait库可以为对象的属性添加检校功能,从而提高程序的可读性,降低出错率。) 和NumPy数组。此库非常庞大,因此开发公司提供了一个查询文档,用户可以通过下面语句运行它:

>>> from enthought.tvtk.toolsimporttvtk_doc

>>> tvtk_doc.main()


Scikit-Learn

是基于python的機器學習庫,建立在NumPy、SciPy和matplotlib基礎上,操作簡單、高效的數據挖掘和數據分析。其文檔、實例都比較齊全。


五一北京基于Python的數據分析現場班

三天的課程力圖結合不同案例講授數據分析領域基本知識。

这门课使用python作为载体, 结合理论知识进行实际操作, 使学生不仅理解数据分析的基本方法, 同时掌握使用python的基本实际计算技能。

培訓時間2018年4月29-5月1日 (三天)
培訓地點北京市海澱區丹龍大廈附近
授課安排上午9:00至12:00; 下午1:30至4:30; 答疑
培訓費用3000元 / 2600元 (仅限全日制本科生及硕士研究生优惠价);食宿自理

我要報名

Python講師介紹:

张忠元, 2008年在中科院数学与系统科学研究院获理学博士学位,现任中央财经大学统计学院教授,博士生导师,也是中国计算机学会高級会员、果壳网科学顾问。主业是数据分析, 尤其是复杂网络分析,主要讲授回归分析、运筹学、数学分析等课程。
主要研究兴趣在复杂网络分析和数据挖掘. 在Data Mining and Knowledge Discovery, Physical Review E, EPL, Knowledge and Information Systems, Scientific Reports, 中国科学等国内外著名期刊上发表学术论文十余篇。
爱思唯尔杰出审稿人, 担任Data Mining and Knowledge Discovery, Physica A, Management Science等著名期刊的匿名审稿人。


Python課程導引:

近年来公众越来越關注大数据和数据分析,随着互联网和人工智能的快速发展,许多问题都可以通过数据分析加以研究, 为决策提供更坚实的依据.

本次三天的課程力圖結合不同案例講授數據分析領域基本知識.

这门课使用Python作为载体,结合理论知识进行实际操作,使学生不仅理解数据分析的基本方法,同时掌握使用Python的基本实际计算技能.   

在內容的安排上,我們遵循由淺入深,循序漸進的思路,結合實際應用展開講解.

內容包括python的基本用法、有監督學習、無監督學習、關聯規則、特征工程、推薦系統、時間序列分析、孤立點探測、回歸和方差分析、複雜網絡分析和數據可視化.  


優惠:

現場班老學員9折優惠;
同一單位3人以上同時報名9折優惠;
折扣優惠不疊加。


報名流程:
1:点击“我要報名”,网上填写信息提交;
2:給予反饋,確認報名信息;
3:進入結算中心,通過訂單支付;
4:開課前一周發送課程電子版講義,軟件准備及交通住宿指南。


聯系方式:

魏老師

QQ:28819897142881989714

Tel: 010-68478566

Mail:vip@pinggu.org





stata SPSS
資料狂人 在职认证  发表于 2017-10-12 09:12:25 |顯示全部樓層
Python課程大綱:

第1講(3小時)

Python编程基础知识, 包括基本数据类型, 基本编程结构, 函数, 脚本文件, 数据分析的常用模块.


第2講(3小時)

有监督学习, 包括kNN方法, 支持向量机, 随机森林和神经网络.

无监督学习, 包括kmeans, 谱聚类, DBSCAN, 非负矩阵分解和双聚类.

關聯規則.


第3講(3小時)

特征工程,包括特征選擇和特征提取.

推薦系統.

時間序列分析.

孤立點探測.


第4講(3小時)

統計學的基本思想和常見誤用.

描述性統計.

回歸和方差分析.

非參數統計.

數據可視化.


第5講(3小時)

複雜網絡分析,包括複雜網絡的建模、複雜網絡的拓撲結構分析和複雜網絡的功能分析.


第6講(3小時)

案例:通過對包括美國肥胖數據分析、信用卡欺詐數據分析、英超賽季表現分析和臉書社交數據分析等至少四個案例的講解綜合展示數據分析方法的使用.




資料狂人 在职认证  发表于 2017-10-12 09:14:59 |顯示全部樓層
歡迎大家報名參加
ccmchy 在职认证  企业认证  发表于 2017-10-12 10:36:30 |顯示全部樓層
謝謝分享
warking 发表于 2017-10-12 12:54:16 |顯示全部樓層
謝謝分享
皙華 发表于 2017-10-12 14:27:51 |顯示全部樓層
真好!謝謝!
aibieli731001 发表于 2017-10-12 15:01:42 |顯示全部樓層
多謝樓主提供資訊
有個人1961 发表于 2017-10-12 15:28:08 |顯示全部樓層
學python好還是r好?
studyalert 学生认证  发表于 2017-10-12 19:54:51 |顯示全部樓層
Good content. Thanks for sharing.
shifeng758 发表于 2017-10-12 21:50:35 |顯示全部樓層
看看快快快快快快快快快快快
您需要登錄后才可以回帖 登錄 | 我要注冊

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 論壇法律顾问:王进律师 知識産權保護聲明   免責及隱私聲明

GMT+8, 2019-9-17 20:20