网络抓取

来自Wiki.Citydatum
跳转至: 导航搜索
TODO
提示:该页面仍需进一步完善,欢迎加入我们

网络抓取是指利用软件或爬虫,采集互联网数据。

概述

网络内容传播的相关技术

网络信息提取的相关技术

网络抓取策略

网络抓取有可能受到知识产权侵权的指控,尤其是将抓取内容用于商业目的重新发布的情况下。为避免不必要的纠纷,抓取网络内容时应尽可能将工作透明化,遵循robots.txt声明的非正式规则,随时记录数据来源,并将下载内容的使用局限在研究分析领域。

抓取工具

爬虫编程

应用

教程示例

  • 抓取维基百科濒危世界遗产地表格,清理数据,以便分析世界遗产地保护情况;

上手

参考链接