有关使用claude生成爬虫的提示词的使用记录
前期工作
爬虫采集的几个步骤
采集的目标网站链接 - 目标网站
采集哪些内容 - 采集采购公告下的所有项
认真分析 - 分析最终的数据是通过何种方式得来的,经过多次与页面交互、网络、逻辑等的分析,需要
打开
开发者工具
->Network
->按F5刷新页面请求最好是curl
请求的链接
返回的内容
分页机制
详情采集
开始编写提示词
"""列表页请求
https://www.bidding.csg.cn/zbgg/index.jhtml
"""
"""列表页返回
如content1
"""
"""详情页请求
https://www.bidding.csg.cn/zbgg/1200375677.jhtml
"""
"""详情页返回
如content2
"""
"""分类机制 - 如有
第一类
第二类
第三类
"""
"""分页机制
第一页链接: https://www.bidding.csg.cn/zbgg/index.jhtml
第二页链接: https://www.bidding.csg.cn/zbgg/index_2.jhtml
第三页链接: https://www.bidding.csg.cn/zbgg/index_3.jhtml
"""
采集有以下要求:
1、自动获取页数且自动采集所有数据
2、结果要增加一个采集时间
3、存储在mongodb中
4、需要增量采集功能,重新运行程序自动更新和停止,不要使用时间来判断,检测到已爬取的数据连续一定次数才会自动停止
5、如有发布时间使用更精确的发布时间
6、要保证采集程序可用性,比如请求重试机制等
测试结果
如题