提示词工程-爬虫篇

有关使用claude生成爬虫的提示词的使用记录

前期工作

爬虫采集的几个步骤

采集的目标网站链接 - 目标网站
采集哪些内容 - 采集采购公告下的所有项
认真分析 - 分析最终的数据是通过何种方式得来的，经过多次与页面交互、网络、逻辑等的分析，需要
- 打开开发者工具 -> Network ->按F5刷新页面
- 请求最好是curl
- 请求的链接
- 返回的内容
- 分页机制
- 详情采集

开始编写提示词

"""列表页请求
https://www.bidding.csg.cn/zbgg/index.jhtml
"""
"""列表页返回
如content1
"""
"""详情页请求
https://www.bidding.csg.cn/zbgg/1200375677.jhtml
"""
"""详情页返回
如content2
"""
"""分类机制 - 如有
第一类
第二类
第三类
"""
"""分页机制
第一页链接: https://www.bidding.csg.cn/zbgg/index.jhtml
第二页链接: https://www.bidding.csg.cn/zbgg/index_2.jhtml
第三页链接: https://www.bidding.csg.cn/zbgg/index_3.jhtml
"""
采集有以下要求:
1、自动获取页数且自动采集所有数据
2、结果要增加一个采集时间
3、存储在mongodb中
4、需要增量采集功能，重新运行程序自动更新和停止，不要使用时间来判断，检测到已爬取的数据连续一定次数才会自动停止
5、如有发布时间使用更精确的发布时间
6、要保证采集程序可用性，比如请求重试机制等

测试结果

如题

Menu

Share

提示词工程-爬虫篇

前期工作

开始编写提示词

测试结果

frp 初体验

mongodb 字段中存在"."该如何删除此字段

Hello Halo

Gitea Act Runner

查询copilot模型的上下文长度

fofa ollama 使用指南

配置 windows 服务

磁力链接的思考

提示词工程-爬虫篇

v2ray 初体验