注册 登录
重磅消息:开通VIP会员,获取平台所有项目,永久使用,详细请咨询QQ:3376762016
远程服务部署安装,售后服务,请加QQ1:3376762016,QQ2:3597230140(即将满员),QQ3:1399491757(已满)
查看: 565|回复: 0
打印 上一主题 下一主题

2020私人定制爬虫助手任务书 Java课程设计任务目标

[复制链接]

该用户从未签到

3518

主题

3532

帖子

66万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
668946
QQ
跳转到指定楼层
楼主
发表于 2020-5-23 08:44:12 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
课题的主要目的是设计并实现一个可以定制爬取网址集合,后台自动定时爬取网页,保存至设定的本地电脑文件夹,生成爬取日志:记录每次爬取的网址和内容大小;最后可以用窗口界面支持用户修改爬取设置,查看、浏览爬取日志。
要求必须完成的基础功能如下:
1)程序应分为两部分,首先是界面程序,以窗口形式接受用户对爬取任务的设置,设置内容包括:计划爬取的网址集合(不超过50个网站网址),每个网站的爬取过滤用主题词(中文英文都可),以及爬取内容的本地存储目录,爬取时并发数量;并可以查看历史的爬取日志列表,以及进入某个日志(文本文件)进行详细查看。
然后是没有界面但可以定时执行的爬虫程序,负责按照指定的网址进行自动爬取(默认仅爬取文本),并发爬取,保存爬取内容至本地文件夹,并生成爬取日志文件,内容至少包括:爬取的网址,爬取内容所存的文件名,爬取字节数;文件头包括本次爬取总文件数,爬取开始时间和总用时时长。
2)应用宽度搜索技术。爬取式从设定的网站网址页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。循环过程中需要url进行分析,去重,避免死循环
3)爬虫程序应使用多线程技术,同时开至少2个以上爬虫线程,爬取的效率
4)如果指定网站连接不上,或被拒绝访问,需要记录爬取失败的错误标记。当用户查看爬取结果时,要进行提示警告,让用户修改网站,或者给出具有访问权限的账号信息。
5)爬取回来的网页内容,可按原格式进行文件保存,存储至指定的文件夹下。最好按网站序号区分子目录进行保存。保存下来的文件必须正确,可以打开文件查看内容。
同学们可以根据时间,选择完成的高级功能如下:
6)除了文本爬取之外,可以支持图片或音频或视频内容的爬取。界面程序的爬取设置也需要添加每个网站的爬取信息类型的指定。
7)针对必须有账户才能访问的网站,添加账户信息的设置,使爬虫程序能够以合法账户身份进行访问。
8)在界面程序中增加一个爬取结果的浏览子窗口,可以选择本地电脑的一个爬取结果文件,打开浏览其文本内容。或者跳转到浏览器中打开。


百度网盘下载地址:
游客,本付费内容需要支付 100金币 才能浏览支付

分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏
java无忧网(http://www.javawyw.com),专业提供Java大作业,小作业,课程设计,毕业设计源码,答辩辅导,作业排错,bug修复,专业解答,远程部署运行项目等服务
本网站所有源码,保证能运行!
QQ:1399491757
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回列表 返回顶部