“网络抓取”的版本间的差异

来自Wiki.Citydatum
跳转至: 导航搜索
(创建页面,内容为“{{提示|该页面仍需进一步完善,欢迎加入我们}} 网络抓取是指利用软件或爬虫,采集互联网数据。 == 抓取工具 == * [http://www.l…”)
 
应用案例
 
(未显示同一用户的4个中间版本)
第2行: 第2行:
 
网络抓取是指利用软件或爬虫,采集互联网数据。
 
网络抓取是指利用软件或爬虫,采集互联网数据。
  
== 抓取工具 ==
+
== 概述 ==
* [http://www.locoy.com/ 火车采集器]
+
=== 网络内容传播的相关技术 ===
* [http://www.bazhuayu.com/ 八爪鱼采集器]
+
* [[HTML]]、[[XML]]、[[JSON]]、[[HTTP]]、[[AJAX]]
 +
=== 网络信息提取的相关技术 ===
 +
* [[正则表达式]]、XPATH查询语言
  
== 爬虫 ==
+
=== 网络抓取策略 ===
* [[Python]]
+
网络抓取有可能受到知识产权侵权的指控,尤其是将抓取内容用于商业目的重新发布的情况下。为避免不必要的纠纷,抓取网络内容时应尽可能将工作透明化,遵循[[robots.txt]]声明的非正式规则,随时记录数据来源,并将下载内容的使用局限在研究分析领域。
* [[R语言]]
+
 
 +
=== 抓取工具 ===
 +
* [http://www.locoy.com/ 火车采集器]、[http://www.bazhuayu.com/ 八爪鱼采集器]
 +
 
 +
=== 爬虫编程 ===
 +
* [[R语言]]:利用RCurl、XML包,R语言可方便地抓取网络数据。推荐图书:[https://book.douban.com/subject/26755418/ 《基于R语言的自动数据收集》]。
 +
* [[Python]]:Python3.x标准库urllib(Python2.x标准库urllib,urllib2)提供了网络抓取所需的相关功能。
 +
 
 +
== 应用 ==
 +
=== 教程示例 ===
 +
* 抓取维基百科濒危世界遗产地表格,清理数据,以便分析世界遗产地保护情况;
 +
 
 +
== 上手 ==
 +
 
 +
== 参考链接 ==
 +
* [https://en.wikipedia.org/wiki/Web_crawler Wikipedia: Web crawler]
 +
* [https://baike.baidu.com/item/%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB 百度百科:网络爬虫]

2018年10月19日 (五) 19:39的最新版本

TODO
提示:该页面仍需进一步完善,欢迎加入我们

网络抓取是指利用软件或爬虫,采集互联网数据。

概述

网络内容传播的相关技术

网络信息提取的相关技术

网络抓取策略

网络抓取有可能受到知识产权侵权的指控,尤其是将抓取内容用于商业目的重新发布的情况下。为避免不必要的纠纷,抓取网络内容时应尽可能将工作透明化,遵循robots.txt声明的非正式规则,随时记录数据来源,并将下载内容的使用局限在研究分析领域。

抓取工具

爬虫编程

应用

教程示例

  • 抓取维基百科濒危世界遗产地表格,清理数据,以便分析世界遗产地保护情况;

上手

参考链接