由百度贴吧一系列辅助产品的开发看技术的循序渐进

近段闲着无聊便开发了一系列贴吧的辅助性工具,比如自动发帖机(爆吧必备神器)、自动回复机(挖坟必备神器)、自动删帖机(拆吧必备神器),前面的三个工具百度比较痛恨,当然还有一些好的辅助工具比如贴吧最新消息短信(飞信)推送系统、定向删帖系统(自动识别水贴和匿名贴)、还有各种发帖机器人(发“天气预报”、发“历史的今天”)等,我简要介绍,这四天开发这些工具经历的一个过程。
首先,我以前做的很多项目是根本不涉及网页抓取的,因为不需要这些功能,第一次接触网页抓取是半个月前帮国家重点实验室的一位教授抓取两千六百个城市的天气预报然后处理数据存到数据库供研究用,详情见http://lvxinwei.sinaapp.com/832.html 。然后感觉抓取技术用处很大,正好我比较喜欢玩贴吧,便感觉可以在这块开发一些产品。
首先我想到的是做贴吧消息推送系统,这样我可以订阅一些贴吧,那些贴吧内容更新时可以把更新的内容短信发给我,原理很简单,一个脚本定时抓取订阅贴吧的所有帖子存到数据库或与数据库已经存在的帖子比较是否为最新帖子,设置状态标志符号new,初始为1,然后一个程序定时抓取那些new=1的帖子的所有回复,抓取完毕设置new=0;详情见http://lvxinwei.sinaapp.com/852.html 但是这个系统原理简单却做得不好,首先用了JS语言,数据处理能力太弱,再次就是发到的是139邮箱,接收到的提醒长度有限制,然后大改了下,语言全部采用PHP,并抽象出了飞信接口,用飞信发消息。
在用PHP重写上个系统时,我注意到可以把发帖功能做成接口,然后我做了,完全模拟人工发帖,最后测试时爆了一个学妹的吧,被记恨了几天,同时介绍下我测试的数据,发帖一分钟达到10贴会导致账号被封,一分钟一贴,发够90贴要输入验证码,两分钟一贴随便发,不会出现问题,回复没测试,但是目测一分钟回10贴没问题。
再然后我想做个发帖机器人可以抓取最新的新闻等等自动发到贴吧,但是出现了问题,我没解决自动回复问题,如果每条新闻发一贴就算是变相爆吧了,所以我又巧妙地把回复功能抽取出来了,然后我改进了发帖功能,发帖后可以返回刚发帖子的ID,做这一块时要注意置顶帖的干扰。
做到这,对于普通用户功能够用了,可偏偏我是几个贴吧吧主,并担任学校贴吧吧主,我在想能不能通过技术手段杜绝丧失贴和水贴,分析下,做这块需要的技术是:帖子抓取+帖子内容识别+帖子删除,幸运的是前两个功能在前面已经实现了。于是,我又把删帖功能抽取出来了,再然后一个复杂、强大的贴吧辅助工具成型了。
做那些有点麻烦的功能时不妨分隔成几个部分,不然不好找出头绪。
本文不涉及具体技术,有兴趣联系我索要源代码,我都封装好了、

昨晚爆了百度贴吧—-悲催

九级大号被封,不该用大号测试程序。
奉劝爆吧者:
1.不要用大号测试,多注册马甲
2.发帖频率控制在一分钟一贴(每个马甲),但是我测试一分钟一贴一个多小时后再登录要验证码
3.百度验证码不好破解,网上说的value值隐藏加密字符串,然后更改字符串欺骗服务器就是扯淡,用三级号才是王道
代码不上了。

修改hosts文件访问google服务

[html]
127.0.0.1 localhost
::1 localhost

##Chrome 网上应用店
203.208.46.90 chrome.google.com
203.208.46.90 clients0.google.com ##——————##
203.208.46.90 clients1.google.com ##可能和搜索建议有关##
203.208.46.90 clients2.google.com ##可能和搜索建议有关##
203.208.46.90 clients3.google.com ##可能和搜索建议有关##
203.208.46.90 clients4.google.com ##——————##

203.208.46.90 www.googleusercontent.com ##—————————–##
203.208.46.90 lh0.googleusercontent.com ##网页上的图片*好多服务都要用到##
203.208.46.90 lh1.googleusercontent.com ##网页上的图片*好多服务都要用到##
203.208.46.90 lh2.googleusercontent.com ##网页上的图片*好多服务都要用到##
203.208.46.90 lh3.googleusercontent.com ##网页上的图片*好多服务都要用到##
203.208.46.90 lh4.googleusercontent.com ##网页上的图片*好多服务都要用到##
203.208.46.90 lh5.googleusercontent.com ##网页上的图片*好多服务都要用到##
203.208.46.90 lh6.googleusercontent.com ##—————————–##
203.208.46.90 clients1.googleusercontent.com
203.208.46.90 clients2.googleusercontent.com
203.208.46.90 browsersync.google.com ##看域名可能是同步

##网页快照
203.208.46.90 webcache.googleusercontent.com

##Google SSL
203.208.46.90 encrypted.google.com
203.208.46.90 encrypted.google.com.hk

##Google Docs
203.208.46.90 docs.google.com
203.208.46.90 docs0.google.com
203.208.46.90 docs1.google.com
203.208.46.90 docs2.google.com
203.208.46.90 docs3.google.com
203.208.46.90 spreadsheets.google.com
203.208.46.90 spreadsheets0.google.com
203.208.46.90 spreadsheets1.google.com
203.208.46.90 spreadsheets2.google.com
203.208.46.90 spreadsheets3.google.com

#Gmail
203.208.46.90 mail.google.com
203.208.46.90 chatenabled.mail.google.com #Gmail中Gtalk聊天服务

##Google 搜索
203.208.46.90 www.google.com

##Google preview
203.208.46.90 www.googlepreview.com

##Google 翻译
203.208.46.90 translate.google.com
203.208.46.90 translate.googleapis.com

##Google 搜索建议(IE9)
203.208.46.90 clients5.google.com

##Google code
203.208.46.90 code.google.com

##Picasa 网络相册
203.208.46.90 picasaweb.google.com
203.208.46.90 lh0.ggpht.com
203.208.46.90 lh1.ggpht.com
203.208.46.90 lh2.ggpht.com
203.208.46.90 lh3.ggpht.com
203.208.46.90 lh4.ggpht.com
203.208.46.90 lh5.ggpht.com
203.208.46.90 lh6.ggpht.com
203.208.46.90 lh7.ggpht.com
203.208.46.90 lh8.ggpht.com
203.208.46.90 lh8.ggpht.com
203.208.46.90 lh9.ggpht.com
203.208.46.90 lh6.google.com

##Google 个人资料
203.208.46.90 profiles.google.com

##Google+
203.208.46.90 talkgadget.google.com ##Google+中的聊天服务
203.208.46.90 ssl.gstatic.com ##Google+中的聊天服务
203.208.46.90 maps-api-ssl.google.com ##Google+中的地图定位服务
203.208.46.90 images-pos-opensocial.googleusercontent.com ##缩略图
203.208.46.90 images1-focus-opensocial.googleusercontent.com
203.208.46.90 images2-focus-opensocial.googleusercontent.com
203.208.46.90 images3-focus-opensocial.googleusercontent.com
203.208.46.90 images4-focus-opensocial.googleusercontent.com ##不知道有没有这几条
203.208.46.90 images5-focus-opensocial.googleusercontent.com #-_-*
203.208.46.90 images6-focus-opensocial.googleusercontent.com #-_-*

203.208.46.90 569005917268817437-a-wablog-info-s-sites.googlegroups.com ##今天突然发现的 不知道怎么会有这么一串没感的地址
203.208.46.90 safebrowsing-cache.google.com ##Google+里的游戏相关
203.208.46.90 images-oz-opensocial.googleusercontent.com
203.208.46.90 safebrowsing-cache.google.com
203.208.46.90 newsfeed-dot-latest-dot-rovio-ad-engine.appspot.com
203.208.46.90 plusone.google.com
203.208.46.90 r3085-dot-latest-dot-project-slingshot-gp.appspot.com
203.208.46.90 apis.google.com ##Google +1 button调用的JS主域名
203.208.46.90 plus.google.com

##Download 下载
203.208.46.90 dl.google.com
203.208.46.90 dl-ssl.google.com

##Groups
203.208.46.90 groups.google.com

##Google 博物馆
203.208.46.90 www.googleartproject.com

##Google URL Shortener
203.208.46.90 goo.gl

##Google app engine
203.208.46.90 appengine.google.com

##Google Maps
203.208.46.90 maps.google.com
203.208.46.90 maps.gstatic.com
203.208.46.90 cbk0.google.com ##街景
203.208.46.90 cbk1.google.com
203.208.46.90 cbk2.google.com
203.208.46.90 cbk3.google.com

##Google 纵横 ##与Google maps通用
203.208.46.90 mts.google.com
203.208.46.90 mts1.google.com
203.208.46.90 mts2.google.com
203.208.46.90 mts3.google.com
203.208.46.90 mts0.google.com
203.208.46.90 s2.googleusercontent.com
203.208.46.90 ssl.google-analytics.com
203.208.46.90 khms0.google.com ##混合地形
203.208.46.90 khms1.google.com
203.208.46.90 khms2.google.com
203.208.46.90 khms3.google.com

##Google 协作平台
203.208.46.90 sites.google.com
203.208.46.90 accounts.youtube.com ##登录协作平台时发现的 不知道有什么用

##Google Music beta
203.208.46.90music.google.com
203.208.46.90 t.doc-0-0-sj.sj.googleusercontent.com #个人音乐库
203.208.46.90 music-streaming.l.google.com
203.208.46.90 music.googleusercontent.com #音乐播放器 专辑封面 等
203.208.46.90 uploadsj.clients.google.com #客户端上传
203.208.46.90 large-uploads.l.google.com
203.208.46.90 themes.googleusercontent.com
203.208.46.90 csi.gstatic.com
203.208.46.90 video.google.com
[/html]

linux下mv命令使用方法

1.作用
mv命令来为文件或目录改名或将文件由一个目录移入另一个目录中。该命令等同于DOS系统下的ren和move命令的组合。它的使用权限是所有用户。

2.格式
mv [options] 源文件或目录 目标文件或目录

3.[options]主要参数

-i:交互方式操作。如果mv操作将导致对已存在的目标文件的覆盖,此时系统询问是否重写,要求用户回答”y”或”n”,这样可以避免误覆盖文件。

-f:禁止交互操作。mv操作要覆盖某个已有的目标文件时不给任何指示,指定此参数后i参数将不再起作用。

4.第二个参数

当第二个参数类型是文件时,mv命令完成文件重命名,它将所给的源文件或目录重命名为给定的目标文件名。

当第二个参数是已存在的目录名称时,源文件或目录参数可以有多个,mv命令将各参数指定的源文件均移至目标目录中。在跨文件系统移动文件时,mv先拷贝,再将原有文件删除,而链至该文件的链接也将丢失。

5.应用实例

(1)将/usr/udt中的所有文件移到当前目录(用”.”表示)中:
$ mv /usr/udt/* .

(2)将文件test.txt重命名为wbk.txt:
$ mv test.txt wbk.txt

ubuntu下配置sendmail服务使用PHPmail

搞了好久,才最终解决问题。
方法如下,
1.安装 apache2 php5
sudo apt-get install apache2 php5-mysql libapache2-mod-php5 mysql-server
安装php5-mcrypt

sudo apt-get install php5-mcrypt
编辑php配置文件
sudo gedit /etc/php5/apache2/php.ini
在extension下面加上(任何独立一行就行)

extension=php_mcrypt.so (原来的php5-mcrypt.so无效)

保存,重启apache2
sudo /etc/init.d/apache2 restart
2.安装sendmail
sudo apt-get install sendmail
sudo apt-get install sendmail-cf
3.配置一下/etc/php5/apache2/php.ini 找到 ;sendmail_path这句,去掉注释的;然后添加sendmail启动目录
sendmail_path = /usr/sbin/sendmail -t -i
4.可以使用php mail函数发信了,如果不行,出现了
Diagnostic-Code: SMTP; 550 MI:IMF mx51,YcCowEB5qU2aq2xPLjE6BA–.489S2 1332521915 http://mail.163.com/help/help_spam_16.htm?ip=175.41.17.202&hostid=mx51&time=1332521915错误
检查/etc/hostname 文件,把里面的东西改成域名形式比如 lvxinwei.info 就行了