用Java实现网络爬虫一之项目介绍

网络爬虫(Web crawler)也叫网络爬虫(Web spider)、蚂蚁（ant）、自动检索工具(automatic indexer)，或者(在FOAF软件概念中)网络疾走(WEB scutter)，是一种“自动化浏览网络”的程序，或者说是一种网络机器人。它们被广泛用于互联网搜索引擎或其他类似网站，以获取或更新这些网站的内容和检索方式。它们可以自动采集所有其能够访问到的页面内容，以供搜索引擎做进一步处理（分检整理下载的页面），而使得用户能更快的检索到他们需要的信息。

用Java实现网络爬虫系列

这系列文章我打算用5篇博客来完成，源代码见我github上的project

一览表:

制作网络爬虫主要的步骤就是:

1.通过输入流获取到网页源码
2.利用正则表达式在源码中找到自己想要的内容

正因为正则表达式在制作网络爬虫中的重要，所以这里我有必要把Java正则表达式拿出来单独写篇博客，当然基础好的可以直接忽略跳到第三篇。
3.将自己找到的内容输出来并查看

后续进阶可以对第三步进行改善，如将自己爬到的内容不是打印出来，而是通过JDBC存入MySQL中然后在MySQL中进行查看(见第四篇文章)。

需要用到的知识

Java IO流
Java 正则表达式
html/css 的基本了解

我的爬虫目标

制作网络爬虫爬取知乎网上提的问题、问题链接、问题描述以及回答内容，并将它们打印在输出台。(后续进阶我选择将这些内容存入MySQL数据库，而不是)

2018.3.19更

欢迎加入我的Java交流1群:659957958。

2018.4.21更:如果群1已满或者无法加入，请加Java学习交流2群：305335626 。

联系

If you have some questions after you see this article,you can tell your doubts in the comments area or you can find some info by clicking these links.