主题
采集管理
创建采集任务、查看采集到的内容、查看采集日志以及导出采集内容
新增采集规则
采集规则,即是采集任务,创建后系统将按运行时间全自动来执行采集任务。下面介绍采集规则的填写方法:
1、填写列表网址,一行一个,这里以直播吧的nba频道做测试,填入
text
https://news.zhibo8.com/nba/2、填入列表网址后,我们可以点击“列表测试”按钮,这时右侧“列表测试结果”则会展示采集回来的全部链接,比如
text
共识别到 1 条列表链接
解析列表 https://news.zhibo8.com/nba/
共识别到 1441 条链接
https://www.188bifen.com
https://weibo.com/zhibo8com
http://www.hao123.com/
http://www.188hi.com/
//www.zhibo8.com/zuqiu/luxiang.htm
//www.zhibo8.com/zuqiu/index_old.htm
//www.zhibo8.com/dianjing/video_list.htm
//www.zhibo8.com/contact.htm
//www.zhibo8.com/baocuo.htm
//www.zhibo8.com/
//news.zhibo8.com/zuqiu/more.htm
//news.zhibo8.com/zuqiu/
//news.zhibo8.com/nba/more.htm
//news.zhibo8.com/nba/2026-05-27/6a1661b33bd53native.htm
//news.zhibo8.com/nba/2026-05-27/6a1661a0560dbnative.htm
//news.zhibo8.com/nba/2026-05-27/6a16605b476e5native.htm
//news.zhibo8.com/nba/2026-05-27/6a165ff89931fnative.htm3、如你所见,系统识别到很多链接,但并不是所有链接都是我们想要的。这时候,我们需要通过“内容链接规则”来对这些链接进行筛选。 现在,我们经过人工检查,发现
text
//news.zhibo8.com/nba/2026-05-27/6a1661b33bd53native.htm这类链接是我们想要的内容链接,所以,我们填入内容链接规则为
text
//news.zhibo8.com/nba/2026*native.htm提示:* 是通配符,可以表示任何字符\
4、填入内容链接规则后,我们可以点击“内容链接匹配测试”按钮,来验证链接是否筛选到位。
通过右侧“内容链接匹配测试结果”可以看到
text
//news.zhibo8.com/nba/2026-05-27/6a166429656c5native.htm
//news.zhibo8.com/nba/2026-05-27/6a16413747242native.htm
//news.zhibo8.com/nba/2026-05-27/6a16326c6e30enative.htm
//news.zhibo8.com/nba/2026-05-27/6a1627e132f9cnative.htm
//news.zhibo8.com/nba/2026-05-27/6a1625707f93enative.htm
//news.zhibo8.com/nba/2026-05-27/6a161bdb021acnative.htm
//news.zhibo8.com/nba/2026-05-27/6a1617ddc8927native.htm说明,链接筛选成功了。这时,我们便可以接着进行采集测试了
点击“内容采集测试”按钮,我们可以看到右侧“内容采集测试结果”有结果了,显示
text
解析列表 https://news.zhibo8.com/nba/
解析内容 //news.zhibo8.com/nba/2026-05-27/6a166429656c5native.htm
标题:
湖人自媒体:当托尼老师执哨 那接下来肯定要上演一堆扯淡的事了-直播吧
图片链接:
//tu.duoduocdn.com/uploads/news/day_260527/202605271127137043.jpg
内容简介:
直播吧5月27日讯NBA西部决赛,雷霆127-114击败马刺,总比分3-2领先。本场比赛,主裁“托尼兄弟”托尼·布拉泽斯的吹罚颇具争议,湖人自媒体LakeShowYo也发问调侃道:“只要看到是托尼老师
内容正文:
<p>直播吧5月27日讯 NBA西部决赛,雷霆127-114击败马刺,总比分3-2领先。</p><p>本场比赛,主裁“托尼兄弟”托尼·布拉泽斯的吹罚颇具争议,湖人自媒体LakeShowYo也发问调侃道:“只要看到是托尼老师执哨,你就该知道——接下来肯定要上演一堆扯淡的烂事了。”</p>5、可以看到标题、内容正文等内容被成功采集。至此,我们采集的关键就完成了。
你可以根据界面提示,继续完成其他参数的填写,最后提交即可。

采集内容查询
当你配置好采集后,系统会在你设置好的运行时间,执行采集。采集好的内容,将在“采集内容”列表看到
注意:采集好的内容,是没有经过字符替换的,字符替换操作是在导出时执行的。
你可以通过查看内容,继续在采集规则中设置“字符替换”,以便导出txt

导出txt
内容采集回来了,字符替换也设置好了,我们就可以导出txt了。
导出有几个选项,可以按需选择,导出的txt,将保存在__export目录,接着你就可以按需使用了

采集日志
采集日志,可以很好看到采集器是否工作正常。
另外,采集器通过采集日志来判断这个链接是否采集过,以免重复采集,
如果你想再次采集某些链接,可以删除这些链接,这样,下次碰到这些链接就会再次采集了
