由百度贴吧一系列辅助产品的开发看技术的循序渐进

近段闲着无聊便开发了一系列贴吧的辅助性工具,比如自动发帖机(爆吧必备神器)、自动回复机(挖坟必备神器)、自动删帖机(拆吧必备神器),前面的三个工具百度比较痛恨,当然还有一些好的辅助工具比如贴吧最新消息短信(飞信)推送系统、定向删帖系统(自动识别水贴和匿名贴)、还有各种发帖机器人(发“天气预报”、发“历史的今天”)等,我简要介绍,这四天开发这些工具经历的一个过程。
首先,我以前做的很多项目是根本不涉及网页抓取的,因为不需要这些功能,第一次接触网页抓取是半个月前帮国家重点实验室的一位教授抓取两千六百个城市的天气预报然后处理数据存到数据库供研究用,详情见http://lvxinwei.sinaapp.com/832.html 。然后感觉抓取技术用处很大,正好我比较喜欢玩贴吧,便感觉可以在这块开发一些产品。
首先我想到的是做贴吧消息推送系统,这样我可以订阅一些贴吧,那些贴吧内容更新时可以把更新的内容短信发给我,原理很简单,一个脚本定时抓取订阅贴吧的所有帖子存到数据库或与数据库已经存在的帖子比较是否为最新帖子,设置状态标志符号new,初始为1,然后一个程序定时抓取那些new=1的帖子的所有回复,抓取完毕设置new=0;详情见http://lvxinwei.sinaapp.com/852.html 但是这个系统原理简单却做得不好,首先用了JS语言,数据处理能力太弱,再次就是发到的是139邮箱,接收到的提醒长度有限制,然后大改了下,语言全部采用PHP,并抽象出了飞信接口,用飞信发消息。
在用PHP重写上个系统时,我注意到可以把发帖功能做成接口,然后我做了,完全模拟人工发帖,最后测试时爆了一个学妹的吧,被记恨了几天,同时介绍下我测试的数据,发帖一分钟达到10贴会导致账号被封,一分钟一贴,发够90贴要输入验证码,两分钟一贴随便发,不会出现问题,回复没测试,但是目测一分钟回10贴没问题。
再然后我想做个发帖机器人可以抓取最新的新闻等等自动发到贴吧,但是出现了问题,我没解决自动回复问题,如果每条新闻发一贴就算是变相爆吧了,所以我又巧妙地把回复功能抽取出来了,然后我改进了发帖功能,发帖后可以返回刚发帖子的ID,做这一块时要注意置顶帖的干扰。
做到这,对于普通用户功能够用了,可偏偏我是几个贴吧吧主,并担任学校贴吧吧主,我在想能不能通过技术手段杜绝丧失贴和水贴,分析下,做这块需要的技术是:帖子抓取+帖子内容识别+帖子删除,幸运的是前两个功能在前面已经实现了。于是,我又把删帖功能抽取出来了,再然后一个复杂、强大的贴吧辅助工具成型了。
做那些有点麻烦的功能时不妨分隔成几个部分,不然不好找出头绪。
本文不涉及具体技术,有兴趣联系我索要源代码,我都封装好了、

Leave a Reply

Time limit is exhausted. Please reload CAPTCHA.

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据