“网络抓取”的版本间的差异

2018年10月19日 (五) 19:39的最新版本

提示：该页面仍需进一步完善，欢迎加入我们

网络抓取是指利用软件或爬虫，采集互联网数据。

概述

网络内容传播的相关技术

HTML、XML、JSON、HTTP、AJAX

网络信息提取的相关技术

正则表达式、XPATH查询语言

网络抓取策略

网络抓取有可能受到知识产权侵权的指控，尤其是将抓取内容用于商业目的重新发布的情况下。为避免不必要的纠纷，抓取网络内容时应尽可能将工作透明化，遵循robots.txt声明的非正式规则，随时记录数据来源，并将下载内容的使用局限在研究分析领域。

抓取工具

火车采集器、八爪鱼采集器

爬虫编程

R语言：利用RCurl、XML包，R语言可方便地抓取网络数据。推荐图书：《基于R语言的自动数据收集》。
Python：Python3.x标准库urllib（Python2.x标准库urllib，urllib2）提供了网络抓取所需的相关功能。

应用

教程示例

抓取维基百科濒危世界遗产地表格，清理数据，以便分析世界遗产地保护情况；

@@ 第2行： / 第2行： @@
 网络抓取是指利用软件或爬虫，采集互联网数据。
-== 抓取工具 ==
+== 概述 ==
-* [http://www.locoy.com/ 火车采集器]
+=== 网络内容传播的相关技术 ===
-* [http://www.bazhuayu.com/ 八爪鱼采集器]
+* [[HTML]]、[[XML]]、[[JSON]]、[[HTTP]]、[[AJAX]]
+=== 网络信息提取的相关技术 ===
+* [[正则表达式]]、XPATH查询语言
-== 爬虫 ==
+=== 网络抓取策略 ===
-* [[Python]]
+网络抓取有可能受到知识产权侵权的指控，尤其是将抓取内容用于商业目的重新发布的情况下。为避免不必要的纠纷，抓取网络内容时应尽可能将工作透明化，遵循[[robots.txt]]声明的非正式规则，随时记录数据来源，并将下载内容的使用局限在研究分析领域。
-* [[R语言]]
+=== 抓取工具 ===
+* [http://www.locoy.com/ 火车采集器]、[http://www.bazhuayu.com/ 八爪鱼采集器]
+=== 爬虫编程 ===
+* [[R语言]]：利用RCurl、XML包，R语言可方便地抓取网络数据。推荐图书：[https://book.douban.com/subject/26755418/ 《基于R语言的自动数据收集》]。
+* [[Python]]：Python3.x标准库urllib（Python2.x标准库urllib，urllib2）提供了网络抓取所需的相关功能。
+== 应用 ==
+=== 教程示例 ===
+* 抓取维基百科濒危世界遗产地表格，清理数据，以便分析世界遗产地保护情况；
+== 上手 ==
+== 参考链接 ==
+* [https://en.wikipedia.org/wiki/Web_crawler Wikipedia: Web crawler]
+* [https://baike.baidu.com/item/%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB 百度百科：网络爬虫]

“网络抓取”的版本间的差异

2018年10月19日 (五) 19:39的最新版本

目录

概述

网络内容传播的相关技术

网络信息提取的相关技术

网络抓取策略

抓取工具

爬虫编程

应用

教程示例

上手

参考链接

导航菜单

个人工具

命名空间

变种

视图

更多

搜索

导航

工具