网页文章采集工具

易语言 2020-06-08 14:08:45

但是每次都要敲重复的代码,比如,文本_取中间 等等。这点就不效率了,而且特别浪费时间。
于是,小弟我就写了一款通用的采集软件,能支持绝大部分网站文章的采集。只需要填写规则即可,杜绝了重复代码的编写。
从原来写1个网站的文章要15分钟,现在只要5分钟就搞定了。岂不乐哉!
1、软件属于源码(HTML)抓取版
2、只支持二级目录的采集,即 列表页—> 文章页 。(绝大部分的网站文章都能在2级目录内获取到)
3、手动设置翻页(想采几页就采几页)
4、支持正文内容过滤(这个你可以自行修改使用)
5、自动生成TXT文件到桌面文件夹
6、自动判断UTF8返回文本
7、支持每个节点规则的测试返回

软件的话,基本上就是上面说的这样。已经可以很美丽的使用了,我也采集了N个网站,N万篇文章了。
新手们可以,拿去研究研究,软件特别的地方也没啥,说白了就是1个逻辑思路,如何去实现功能而已。
原理其实也很简单,就是循环取中间(从外往内,一层一层提取),再加点判断就完成了。
正要说特别的地方的话,就是标题的处理了,因为某些网页字符是写入不到本地的。嗯~~有兴趣的可以看看。
当然,二次开发的也是可以的,加入伪原创,加入分页采集,加入多级目录采集,加入HTML发布文本,加入数据库入库等等。