网络爬虫(Web crawler)也叫网络爬虫(Web spider)、蚂蚁(ant)、自动检索工具(automatic indexer),或者(在FOAF软件概念中)网络疾走(WEB scutter),是一种“自动化浏览网络”的程序,或者说是一种网络机器人。它们被广泛用于互联网搜索引擎或其他类似网站,以获取或更新这些网站的内容和检索方式。它们可以自动采集所有其能够访问到的页面内容,以供搜索引擎做进一步处理(分检整理下载的页面),而使得用户能更快的检索到他们需要的信息。
用Java实现网络爬虫系列
这系列文章我打算用5篇博客来完成,源代码见我github上的project
一览表:
- 1.用Java实现网络爬虫一之项目介绍
- 2.用Java实现网络爬虫二之Java正则表达式
- 3.用Java实现网络爬虫三之开始爬取
- 4.进阶段:用Java实现网络爬虫四之将爬取内容存入数据库
- 5.进阶段:开始使用框架实现网络爬虫
制作网络爬虫主要的步骤就是:
- 1.通过输入流获取到网页源码
- 2.利用正则表达式在源码中找到自己想要的内容
正因为正则表达式在制作网络爬虫中的重要,所以这里我有必要把Java正则表达式拿出来单独写篇博客,当然基础好的可以直接忽略跳到第三篇。
- 3.将自己找到的内容输出来并查看
后续进阶可以对第三步进行改善,如将自己爬到的内容不是打印出来,而是通过JDBC存入MySQL中然后在MySQL中进行查看(见第四篇文章)。
需要用到的知识
- Java IO流
- Java 正则表达式
- html/css 的基本了解
我的爬虫目标
制作网络爬虫爬取知乎网上提的问题、问题链接、问题描述以及回答内容,并将它们打印在输出台。(后续进阶我选择将这些内容存入MySQL数据库,而不是)
2018.3.19更
欢迎加入我的Java交流1群:659957958。
2018.4.21更:如果群1已满或者无法加入,请加Java学习交流2群:305335626 。
联系
If you have some questions after you see this article,you can tell your doubts in the comments area or you can find some info by clicking these links.