AI智能整理导入 AI智能整理导入
×
首页 题库中心 谁都快都哦都送的哦 题目详情
CA14EE2F9A900001C8AC7C0312C31ACC
谁都快都哦都送的哦
93
简答题

1、简述网络爬虫基本工作原理。

答案解析

正确答案:答案:
(1)预先设定一个或若干个初始网页URL,将初始URL加入到待爬取URL列表中;
(2)从待爬取列表中逐个读取URL,并将URL加入到已爬取URL列表中,然后下载网页;
(3)解析已下载的网页,并存储提取的数据,从中获取新的URL;
(4)将新的URL在已爬取的URL列表中进行比对,检查该网页是否已爬取,如果网页没有被爬取,则将新的URL地址放入到待爬取URL列表的末尾,等待读取;
(5)如此往复,直到待爬取URL列表为空或者满足设定的终止条件,最终达到遍历网页的目的。
谁都快都哦都送的哦

扫码进入小程序
随时随地练习

关闭
专为自学备考人员打造
试题通
自助导入本地题库
试题通
多种刷题考试模式
试题通
本地离线答题搜题
试题通
扫码考试方便快捷
试题通
海量试题每日更新
试题通
欢迎登录试题通
可以使用以下方式扫码登陆
试题通
使用APP登录
试题通
使用微信登录
xiaochengxu
联系电话:
400-660-3606
xiaochengxu