数据抓取系统设计

2019-10-31 09:41:52   最后更新: 2019-10-31 09:41:52   访问数量:709




task

site_ident:站点标识

frequency:抓取频率

operator:操作人

insertor:添加人

status:0. 开始抓取,1. 停止抓取

schedule_time:上次抓取时间

table_name

spider_time: 上次抓取时间

 

page

task_id

cycle:是否循环抓取 0.否,1.是

 

rule

page_id

index

start

end

type:0. persist,1. ignore

name(nexturl 比较特殊)

status:0. wait, 1. start

attention:是否关注 0.否,1.是

 

url

cycle:是否循环抓取

period:抓取周期

site_ident

status:0. 开始抓取,1. 停止抓取

schedule_time:上次调度时间

spider_time: 上次抓取时间

page_id

url

referer

cookie

user_agent

status: 0. 待抓取, 1. 已抓取 2. 抓取失败

 

 

 

欢迎关注微信公众号,以技术为主,涉及历史、人文等多领域的学习与感悟,每周三到七篇推文,只有全部原创,只有干货没有鸡汤

 






架构      数据      技术贴      爬虫      抓取     


京ICP备2021035038号