“Python”的版本间的差异

来自Wiki.Citydatum
跳转至: 导航搜索
第19行: 第19行:
  
 
Python社区提供了大量的第三方模块,使用方式与标准库类似。它们的功能无所不包,覆盖科学计算、Web开发、数据库接口、图形系统多个领域,并且大多成熟而稳定。第三方模块可以使用Python或者C语言编写。截止2018年3月, Python官方第三方资源库[https://pypi.org/ Python Package Index] (PyPI)已收录超过13万项各类功能包。
 
Python社区提供了大量的第三方模块,使用方式与标准库类似。它们的功能无所不包,覆盖科学计算、Web开发、数据库接口、图形系统多个领域,并且大多成熟而稳定。第三方模块可以使用Python或者C语言编写。截止2018年3月, Python官方第三方资源库[https://pypi.org/ Python Package Index] (PyPI)已收录超过13万项各类功能包。
 +
 +
====数据分析相关Python库====
 +
* '''numpy''':python科学计算的基础包;numpy提供了快速高效的多维数组对象ndarray、对数组执行元素级计算以及直接对数组执行数学运算的函数、读写硬盘上基于数组的数据集的工具,线性代数运算、傅里叶变换、随机数生成功能,以及将C、C++、Fortran代码集成到python的工具;
 +
* '''pandas''':提供了能够快速便捷处理结构化数据的大量数据结构和函数;pandas兼具numpy高性能的数组计算功能以及电子表格和关系型数据(如SQL)灵活的数据处理能力,提供了复杂精细的索引功能,以便更为便捷地完成重塑、切片和切块、聚合以及选取数据子集等操作;
 +
* '''matplotlib''':最为流行的数据图表绘制python库;
 +
* '''scipy''':一组专门解决科学计算中各种标准问题域的包的集合;
  
 
== 应用 ==
 
== 应用 ==
 
Python灵活且各类爬虫库、数据分析库、数据可视化库较为丰富,很适合用于做数据抓取的主体架构,并基于这些数据做分析及可视化<ref>[https://www.zhihu.com/question/28975391 知乎:你用 Python 做过什么有趣的数据挖掘/分析项目?]</ref>,可将互联网上越来越丰富的数据为各种类型的城市规划与研究所用。
 
Python灵活且各类爬虫库、数据分析库、数据可视化库较为丰富,很适合用于做数据抓取的主体架构,并基于这些数据做分析及可视化<ref>[https://www.zhihu.com/question/28975391 知乎:你用 Python 做过什么有趣的数据挖掘/分析项目?]</ref>,可将互联网上越来越丰富的数据为各种类型的城市规划与研究所用。
 +
=== 网络数据抓取 ===
 
* 交通:抓取12306火车、机票网站数据;搭建各个机场的实时流量图;
 
* 交通:抓取12306火车、机票网站数据;搭建各个机场的实时流量图;
 
* 财经:抓取雪球及各类财经网站数据;
 
* 财经:抓取雪球及各类财经网站数据;
* 住宅:58、抓取搜房、链家等房屋租售数据;
+
* 住宅:抓取58、搜房、链家等房屋租售数据;
* 自然资源:天气数据,环境质量(PM2.5)数据;
+
* 自然资源:抓取天气数据,环境质量(PM2.5)数据;
 
* 地点舆情:抓取新浪微博的用户发言及舆论数据;
 
* 地点舆情:抓取新浪微博的用户发言及舆论数据;
 
* 科技行业:抓取各应用商店的App的下载量及评论数据;追踪各门类App下载量热点,热点行业走势;
 
* 科技行业:抓取各应用商店的App的下载量及评论数据;追踪各门类App下载量热点,热点行业走势;
 
* 服务行业:抓取大众点评及美团网的餐饮及各类线下门店消费及评价情况;绘制城市早晚高峰时段(某类)人群出行的热点图;
 
* 服务行业:抓取大众点评及美团网的餐饮及各类线下门店消费及评价情况;绘制城市早晚高峰时段(某类)人群出行的热点图;
 +
=== 数据分析 ===
  
 
== 上手 ==
 
== 上手 ==

2018年8月30日 (四) 02:46的版本

TODO
提示:欢迎帮助我们进一步提升文章质量,当前重点任务包括:
  • 章节补充:补充案例、上手章节内容;
  • 图片补充:用python绘制示例图表、以python为主要工具构建的网站或应用的截屏;
  • 内容优化:概况章节的补充完善,补充来源引用与更多阅读章节的链接;


Python标识

Python是一款自由、开源的高级解释性计算机编程语言,遵循 GPL(GNU General Public License)协议。Python语法简洁清晰,具有丰富和强大的库,能够把用其他语言制作的各种模块(尤其是C/C++)轻松地联结在一起。在IEEE发布2017年编程语言排行榜中,Python高居首位[1]

概况

发展历程

  • Python是一种高级编程语言,由荷兰人Guido van Rossum创建并于1991首次发布。

主要特点

  • Python是一种解释性语言,特别强调代码的可读性,最典型的例子就是Python用行缩进来区分代码块,而不是其他编程语言中较为常见的大括号。
  • Python常常被称为胶水语言,能将其他编程语言制作的各种模块连接在一起。

Python拥有一个强大的标准库,提供了系统管理、网络通信、文本处理、数据库接口、图形系统、XML处理等额外的功能。Python标准库提供的工具适用于多种类型的任务,如:针对面向互联网的应用,提供了对MIME、HTTP等标准格式与协议的支持;针对图形用户界面(GUI)应用,提供了关系数据库连接、随机数生成、任意位数小数算法支持、正则表达式操作、单元测试等各类模块。Python标准库命名接口清晰、文档良好,很容易学习和使用。

Python社区提供了大量的第三方模块,使用方式与标准库类似。它们的功能无所不包,覆盖科学计算、Web开发、数据库接口、图形系统多个领域,并且大多成熟而稳定。第三方模块可以使用Python或者C语言编写。截止2018年3月, Python官方第三方资源库Python Package Index (PyPI)已收录超过13万项各类功能包。

数据分析相关Python库

  • numpy:python科学计算的基础包;numpy提供了快速高效的多维数组对象ndarray、对数组执行元素级计算以及直接对数组执行数学运算的函数、读写硬盘上基于数组的数据集的工具,线性代数运算、傅里叶变换、随机数生成功能,以及将C、C++、Fortran代码集成到python的工具;
  • pandas:提供了能够快速便捷处理结构化数据的大量数据结构和函数;pandas兼具numpy高性能的数组计算功能以及电子表格和关系型数据(如SQL)灵活的数据处理能力,提供了复杂精细的索引功能,以便更为便捷地完成重塑、切片和切块、聚合以及选取数据子集等操作;
  • matplotlib:最为流行的数据图表绘制python库;
  • scipy:一组专门解决科学计算中各种标准问题域的包的集合;

应用

Python灵活且各类爬虫库、数据分析库、数据可视化库较为丰富,很适合用于做数据抓取的主体架构,并基于这些数据做分析及可视化[2],可将互联网上越来越丰富的数据为各种类型的城市规划与研究所用。

网络数据抓取

  • 交通:抓取12306火车、机票网站数据;搭建各个机场的实时流量图;
  • 财经:抓取雪球及各类财经网站数据;
  • 住宅:抓取58、搜房、链家等房屋租售数据;
  • 自然资源:抓取天气数据,环境质量(PM2.5)数据;
  • 地点舆情:抓取新浪微博的用户发言及舆论数据;
  • 科技行业:抓取各应用商店的App的下载量及评论数据;追踪各门类App下载量热点,热点行业走势;
  • 服务行业:抓取大众点评及美团网的餐饮及各类线下门店消费及评价情况;绘制城市早晚高峰时段(某类)人群出行的热点图;

数据分析

上手

网络爬取

Python3.x的标准库urllib,将Python2.x的标准库urllib,urllib2功能进行了整合,提供网络爬取的相关功能。一个简单的抓取基本操作如下:

from urllib import request     #Python3.x下引用库,Python2.x下引用urllib2,通过urllib2.urlopen()调用

file = request.urlopen("http://wiki.citydatum.com")

data = file.read()    #读取全部页面,数据格式为bytes类型

data_str = data.decode('utf-8')    #解码,转换为str类型

fhandle=open("./1.html","wb")    #将爬取的网页保存在本地
fhandle.write(data)
fhandle.close()

参考

参考资料

外部链接