zhaxnb
Published on 2024-10-28 / 28 Visits
0
0

提示词工程-爬虫篇

有关使用claude生成爬虫的提示词的使用记录

前期工作

爬虫采集的几个步骤

  1. 采集的目标网站链接 - 目标网站

  2. 采集哪些内容 - 采集采购公告下的所有项

  3. 认真分析 - 分析最终的数据是通过何种方式得来的,经过多次与页面交互、网络、逻辑等的分析,需要

    • 打开开发者工具 -> Network ->按F5刷新页面

    • 请求最好是curl

    • 请求的链接

    • 返回的内容

    • 分页机制

    • 详情采集

开始编写提示词

"""列表页请求
https://www.bidding.csg.cn/zbgg/index.jhtml
"""
"""列表页返回
如content1
"""
"""详情页请求
https://www.bidding.csg.cn/zbgg/1200375677.jhtml
"""
"""详情页返回
如content2
"""
"""分类机制 - 如有
第一类
第二类
第三类
"""
"""分页机制
第一页链接: https://www.bidding.csg.cn/zbgg/index.jhtml
第二页链接: https://www.bidding.csg.cn/zbgg/index_2.jhtml
第三页链接: https://www.bidding.csg.cn/zbgg/index_3.jhtml
"""
采集有以下要求:
1、自动获取页数且自动采集所有数据
2、结果要增加一个采集时间
3、存储在mongodb中
4、需要增量采集功能,重新运行程序自动更新和停止,不要使用时间来判断,检测到已爬取的数据连续一定次数才会自动停止
5、如有发布时间使用更精确的发布时间
6、要保证采集程序可用性,比如请求重试机制等

测试结果

如题


Comment