“网络抓取”的版本间的差异
来自Wiki.Citydatum
小 (→编写爬虫) |
小 |
||
第2行: | 第2行: | ||
网络抓取是指利用软件或爬虫,采集互联网数据。 | 网络抓取是指利用软件或爬虫,采集互联网数据。 | ||
− | == | + | == 基础知识 == |
− | * [ | + | === 网络内容传播的相关技术 === |
− | * [ | + | * [[HTML]]、[[XML]]、[[JSON]]、[[HTTP]]、[[AJAX]] |
+ | === 网络信息提取的相关技术 === | ||
+ | * [[正则表达式]]、XPATH查询语言 | ||
− | == | + | == 工具与方法 == |
− | * [[ | + | === 网络抓取策略 === |
+ | 网络抓取有可能受到知识产权侵权的指控,尤其是将抓取内容用于商业目的重新发布的情况下。为避免不必要的纠纷,抓取网络内容时应尽可能将工作透明化,遵循[[robots.txt]]声明的非正式规则,随时记录数据来源,并将下载内容的使用局限在研究分析领域。 | ||
+ | |||
+ | === 抓取工具 === | ||
+ | * [http://www.locoy.com/ 火车采集器]、[http://www.bazhuayu.com/ 八爪鱼采集器] | ||
+ | |||
+ | === 爬虫编程 === | ||
* [[R语言]]:利用RCurl、XML包,R语言可方便地抓取网络数据。介绍R语言爬虫的中文资料不多,强烈推荐[https://book.douban.com/subject/26755418/ 《基于R语言的自动数据收集》]。 | * [[R语言]]:利用RCurl、XML包,R语言可方便地抓取网络数据。介绍R语言爬虫的中文资料不多,强烈推荐[https://book.douban.com/subject/26755418/ 《基于R语言的自动数据收集》]。 | ||
+ | * [[Python]]:Python3.x标准库urllib(Python2.x标准库urllib,urllib2)提供了网络抓取所需的相关功能。 | ||
+ | |||
+ | == 参考链接 == | ||
+ | * [https://en.wikipedia.org/wiki/Web_crawler Wikipedia: Web crawler] | ||
+ | * [https://baike.baidu.com/item/%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB 百度百科:网络爬虫] |
2018年6月4日 (一) 17:04的版本
网络抓取是指利用软件或爬虫,采集互联网数据。
基础知识
网络内容传播的相关技术
网络信息提取的相关技术
- 正则表达式、XPATH查询语言
工具与方法
网络抓取策略
网络抓取有可能受到知识产权侵权的指控,尤其是将抓取内容用于商业目的重新发布的情况下。为避免不必要的纠纷,抓取网络内容时应尽可能将工作透明化,遵循robots.txt声明的非正式规则,随时记录数据来源,并将下载内容的使用局限在研究分析领域。
抓取工具
爬虫编程
- R语言:利用RCurl、XML包,R语言可方便地抓取网络数据。介绍R语言爬虫的中文资料不多,强烈推荐《基于R语言的自动数据收集》。
- Python:Python3.x标准库urllib(Python2.x标准库urllib,urllib2)提供了网络抓取所需的相关功能。