简答题
8、简述Scrapy中Engine控制数据流的工作基本步骤。
答案解析
正确答案:答案:
(1) Engine 从Spider获取初始爬取列表的Request.
(2) Engine将要爬取的Request发送给Scheduler,通过Scheduler进行调度。
(3) Engine向Scheduler获取下一个要爬取的Request.
(4) Engine 将Request通过Downloader Middleware发送给Downloader.
(5)当网页下载完毕,Downloader 生成该网页的Response,并将其通过Downloader Middleware提交给Engine.
(6) Engine 将接收到Response通过Spider Middleware发送给Spider处理。
(7) Spider 解析响应,提取Item所需的数据和新的URL,并将Item和新的Request通过Spider Middleware提交给Engine。
(8) Engine 将Item发送给Item Pipeline,将新的Request发送给Scheduler.
(9)重复第(2) ~ (8) 步,直到Scheduler中没有Request, Engine 关闭该爬虫程序,爬取结束。
(1) Engine 从Spider获取初始爬取列表的Request.
(2) Engine将要爬取的Request发送给Scheduler,通过Scheduler进行调度。
(3) Engine向Scheduler获取下一个要爬取的Request.
(4) Engine 将Request通过Downloader Middleware发送给Downloader.
(5)当网页下载完毕,Downloader 生成该网页的Response,并将其通过Downloader Middleware提交给Engine.
(6) Engine 将接收到Response通过Spider Middleware发送给Spider处理。
(7) Spider 解析响应,提取Item所需的数据和新的URL,并将Item和新的Request通过Spider Middleware提交给Engine。
(8) Engine 将Item发送给Item Pipeline,将新的Request发送给Scheduler.
(9)重复第(2) ~ (8) 步,直到Scheduler中没有Request, Engine 关闭该爬虫程序,爬取结束。
相关题目
单选题
16、Selenium中提供了多种元素定位方法,但不包括以下选项中的( )
单选题
15、以下选项中哪一个不是正则表达式的元字符( ).
单选题
14、下列Selenium库的方法中,不能通过节点属性进行多元素定位的是( )。
单选题
13、逆向分析请求页面和取动态加载数据时选择Network面板的哪个选项查看JavaScript加载的文件? ( )
单选题
12、下列关于json库中dumps()方法描述错误的是( )。
单选题
11、下列关于beutiflsoup4中Tag对象描述错误的是( ).
单选题
10、下列关于XPath描述错误的是( )。
单选题
9、beautifulsoup4 库中遍历整个HTML文件,按照条件返回所有匹配的节点元素的方法是( )
单选题
8、能够在字符串“aabaaabaaaab”中匹配“aab”,而不能匹配“aaab”和“aaaab”的正则表达式为( )。
单选题
7、lxml库中选取属性的语法是( )。
