2020私人定制爬虫助手任务书 Java课程设计任务目标 - java无忧网

课题的主要目的是设计并实现一个可以定制爬取网址集合，后台自动定时爬取网页，保存至设定的本地电脑文件夹，生成爬取日志：记录每次爬取的网址和内容大小；最后可以用窗口界面支持用户修改爬取设置，查看、浏览爬取日志。

（1）程序应分为两部分，首先是界面程序，以窗口形式接受用户对爬取任务的设置，设置内容包括：计划爬取的网址集合（不超过50个网站网址），每个网站的爬取过滤用主题词（中文英文都可），以及爬取内容的本地存储目录，爬取时并发数量；并可以查看历史的爬取日志列表，以及进入某个日志（文本文件）进行详细查看。

然后是没有界面但可以定时执行的爬虫程序，负责按照指定的网址进行自动爬取（默认仅爬取文本），并发爬取，保存爬取内容至本地文件夹，并生成爬取日志文件，内容至少包括：爬取的网址，爬取内容所存的文件名，爬取字节数；文件头包括本次爬取总文件数，爬取开始时间和总用时时长。

（2）应用宽度搜索技术。爬取式从设定的网站网址页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。循环过程中需要对url进行分析，去重，避免死循环。

（3）爬虫程序应使用多线程技术，同时开至少2个以上爬虫线程，让爬取的效率更高。

（4）如果指定网站连接不上，或被拒绝访问，需要记录爬取失败的错误标记。当用户查看爬取结果时，要进行提示警告，让用户修改网站，或者给出具有访问权限的账号信息。

（5）爬取回来的网页内容，可按原格式进行文件保存，存储至指定的文件夹下。最好按网站序号区分子目录进行保存。保存下来的文件必须正确，可以打开文件查看内容。

（6）除了文本爬取之外，可以支持图片或音频或视频内容的爬取。界面程序的爬取设置也需要添加每个网站的爬取信息类型的指定。

（7）针对必须有账户才能访问的网站，添加账户信息的设置，使爬虫程序能够以合法账户身份进行访问。

（8）在界面程序中增加一个爬取结果的浏览子窗口，可以选择本地电脑的一个爬取结果文件，打开浏览其文本内容。或者跳转到浏览器中打开。