“网络抓取”的版本间的差异
来自Wiki.Citydatum
小 |
小 (→应用案例) |
||
第18行: | 第18行: | ||
* [[Python]]:Python3.x标准库urllib(Python2.x标准库urllib,urllib2)提供了网络抓取所需的相关功能。 | * [[Python]]:Python3.x标准库urllib(Python2.x标准库urllib,urllib2)提供了网络抓取所需的相关功能。 | ||
− | == | + | == 应用 == |
+ | === 教程示例 === | ||
* 抓取维基百科濒危世界遗产地表格,清理数据,以便分析世界遗产地保护情况; | * 抓取维基百科濒危世界遗产地表格,清理数据,以便分析世界遗产地保护情况; | ||
2018年10月19日 (五) 18:39的最新版本
网络抓取是指利用软件或爬虫,采集互联网数据。
概述
网络内容传播的相关技术
网络信息提取的相关技术
- 正则表达式、XPATH查询语言
网络抓取策略
网络抓取有可能受到知识产权侵权的指控,尤其是将抓取内容用于商业目的重新发布的情况下。为避免不必要的纠纷,抓取网络内容时应尽可能将工作透明化,遵循robots.txt声明的非正式规则,随时记录数据来源,并将下载内容的使用局限在研究分析领域。
抓取工具
爬虫编程
- R语言:利用RCurl、XML包,R语言可方便地抓取网络数据。推荐图书:《基于R语言的自动数据收集》。
- Python:Python3.x标准库urllib(Python2.x标准库urllib,urllib2)提供了网络抓取所需的相关功能。
应用
教程示例
- 抓取维基百科濒危世界遗产地表格,清理数据,以便分析世界遗产地保护情况;