用Java实现网络爬虫一之项目介绍

网络爬虫(Web crawler)也叫网络爬虫(Web spider)、蚂蚁(ant)、自动检索工具(automatic indexer),或者(在FOAF软件概念中)网络疾走(WEB scutter),是一种“自动化浏览网络”的程序,或者说是一种网络机器人。它们被广泛用于互联网搜索引擎或其他类似网站,以获取或更新这些网站的内容和检索方式。它们可以自动采集所有其能够访问到的页面内容,以供搜索引擎做进一步处理(分检整理下载的页面),而使得用户能更快的检索到他们需要的信息。

用Java实现网络爬虫系列

这系列文章我打算用5篇博客来完成,源代码见我github上的project

一览表:

制作网络爬虫主要的步骤就是:

  • 1.通过输入流获取到网页源码
  • 2.利用正则表达式在源码中找到自己想要的内容

    正因为正则表达式在制作网络爬虫中的重要,所以这里我有必要把Java正则表达式拿出来单独写篇博客,当然基础好的可以直接忽略跳到第三篇。

  • 3.将自己找到的内容输出来并查看

后续进阶可以对第三步进行改善,如将自己爬到的内容不是打印出来,而是通过JDBC存入MySQL中然后在MySQL中进行查看(见第四篇文章)。

需要用到的知识

  • Java IO流
  • Java 正则表达式
  • html/css 的基本了解

我的爬虫目标

制作网络爬虫爬取知乎网上提的问题、问题链接、问题描述以及回答内容,并将它们打印在输出台。(后续进阶我选择将这些内容存入MySQL数据库,而不是)

2018.3.19更

欢迎加入我的Java交流1群:659957958。

2018.4.21更:如果群1已满或者无法加入,请加Java学习交流2群:305335626

联系

If you have some questions after you see this article,you can tell your doubts in the comments area or you can find some info by clicking these links.

记得扫一扫领一下红包再走哦