java无忧网

标题: 2020私人定制爬虫助手任务书 Java课程设计任务目标 [打印本页]

作者: java无忧网    时间: 2020-5-23 08:44
标题: 2020私人定制爬虫助手任务书 Java课程设计任务目标
课题的主要目的是设计并实现一个可以定制爬取网址集合,后台自动定时爬取网页,保存至设定的本地电脑文件夹,生成爬取日志:记录每次爬取的网址和内容大小;最后可以用窗口界面支持用户修改爬取设置,查看、浏览爬取日志。
要求必须完成的基础功能如下:
1)程序应分为两部分,首先是界面程序,以窗口形式接受用户对爬取任务的设置,设置内容包括:计划爬取的网址集合(不超过50个网站网址),每个网站的爬取过滤用主题词(中文英文都可),以及爬取内容的本地存储目录,爬取时并发数量;并可以查看历史的爬取日志列表,以及进入某个日志(文本文件)进行详细查看。
然后是没有界面但可以定时执行的爬虫程序,负责按照指定的网址进行自动爬取(默认仅爬取文本),并发爬取,保存爬取内容至本地文件夹,并生成爬取日志文件,内容至少包括:爬取的网址,爬取内容所存的文件名,爬取字节数;文件头包括本次爬取总文件数,爬取开始时间和总用时时长。
2)应用宽度搜索技术。爬取式从设定的网站网址页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。循环过程中需要url进行分析,去重,避免死循环
3)爬虫程序应使用多线程技术,同时开至少2个以上爬虫线程,爬取的效率
4)如果指定网站连接不上,或被拒绝访问,需要记录爬取失败的错误标记。当用户查看爬取结果时,要进行提示警告,让用户修改网站,或者给出具有访问权限的账号信息。
5)爬取回来的网页内容,可按原格式进行文件保存,存储至指定的文件夹下。最好按网站序号区分子目录进行保存。保存下来的文件必须正确,可以打开文件查看内容。
同学们可以根据时间,选择完成的高级功能如下:
6)除了文本爬取之外,可以支持图片或音频或视频内容的爬取。界面程序的爬取设置也需要添加每个网站的爬取信息类型的指定。
7)针对必须有账户才能访问的网站,添加账户信息的设置,使爬虫程序能够以合法账户身份进行访问。
8)在界面程序中增加一个爬取结果的浏览子窗口,可以选择本地电脑的一个爬取结果文件,打开浏览其文本内容。或者跳转到浏览器中打开。


百度网盘下载地址:
**** 本内容需购买 ****






欢迎光临 java无忧网 (http://www.javawyw.com/) Powered by Discuz! X3.2