查看“网络抓取”的源代码
←
网络抓取
跳转至:
导航
,
搜索
因为以下原因,您没有权限编辑本页:
您所请求的操作仅限于该用户组的用户使用:
用户
您可以查看与复制此页面的源代码。
{{提示|该页面仍需进一步完善,欢迎加入我们}} 网络抓取是指利用软件或爬虫,采集互联网数据。 == 概述 == === 网络内容传播的相关技术 === * [[HTML]]、[[XML]]、[[JSON]]、[[HTTP]]、[[AJAX]] === 网络信息提取的相关技术 === * [[正则表达式]]、XPATH查询语言 === 网络抓取策略 === 网络抓取有可能受到知识产权侵权的指控,尤其是将抓取内容用于商业目的重新发布的情况下。为避免不必要的纠纷,抓取网络内容时应尽可能将工作透明化,遵循[[robots.txt]]声明的非正式规则,随时记录数据来源,并将下载内容的使用局限在研究分析领域。 === 抓取工具 === * [http://www.locoy.com/ 火车采集器]、[http://www.bazhuayu.com/ 八爪鱼采集器] === 爬虫编程 === * [[R语言]]:利用RCurl、XML包,R语言可方便地抓取网络数据。推荐图书:[https://book.douban.com/subject/26755418/ 《基于R语言的自动数据收集》]。 * [[Python]]:Python3.x标准库urllib(Python2.x标准库urllib,urllib2)提供了网络抓取所需的相关功能。 == 应用案例 == * 抓取维基百科濒危世界遗产地表格,清理数据,以便分析世界遗产地保护情况; == 上手 == == 参考链接 == * [https://en.wikipedia.org/wiki/Web_crawler Wikipedia: Web crawler] * [https://baike.baidu.com/item/%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB 百度百科:网络爬虫]
该页面使用的模板:
模板:提示
(
查看源代码
)
返回至
网络抓取
。
导航菜单
个人工具
登录
命名空间
页面
讨论
变种
视图
阅读
查看源代码
查看历史
更多
搜索
导航
首页
分类索引
最近更改
随机页面
用户指南
编辑助手
工具
链入页面
相关更改
特殊页面
页面信息