昨晚爆了百度贴吧—-悲催

九级大号被封,不该用大号测试程序。
奉劝爆吧者:
1.不要用大号测试,多注册马甲
2.发帖频率控制在一分钟一贴(每个马甲),但是我测试一分钟一贴一个多小时后再登录要验证码
3.百度验证码不好破解,网上说的value值隐藏加密字符串,然后更改字符串欺骗服务器就是扯淡,用三级号才是王道
代码不上了。

XML介绍

构造良好并且有效的 XML
如果您根据结构规则创建 XML,就很容易实现构造良好的 XML。构造良好的 XML 即遵循所有 XML 规则创建的 XML:正确的元素命名,嵌套,属性命名等等。
要实现构造良好的 XML 取决于如何处理 XML。但考虑一下前面提到的示例,它要求根据菜谱类型进行分类。您需要确保每个 元素都包含 type 属性,以对菜谱进行分类。能够正确验证并确保存在属性值是非常重要的(避免出现双关语)。
验证 就是根据元素规则检查文档的结构,以及如何为每个父元素定义子元素。这些规则是在 文档类型定义(Document Type Definition,DTD)或模式(schema )中定义的。验证要求您创建自己的 DTD 或 schema ,然后在 XML 文件中引用 DTD 或 schema 文件。
为了实现验证,必须在 XML 文档的顶部附近包含文档类型(DOCTYPE)。这行代码将引用用于验证文档的 DTD 或 schema (元素和规则列表)。例如,DOCTYPE 可能类似于 清单 5。
[html]
<!DOCTYPE MyDocs SYSTEM "filename.dtd">
[/html]

使用实体
实体 可以是文本短语或特殊字符。它们可以指向内部或外部。必须正确地声明和表示实体,以避免错误和确保正确显示。
您不能直接在内容中输入特殊字符。如果要在文本中使用符号,必须使用它的字符代码将它设置为实体。您可以将短语(比如公司名)设置为实体,然后就可以在内容中使用该实体。为了设置实体,必须先为它创建一个名称,然后将它输入到内容中,以 and 符号(&)开始,并以分号(;)结束 — 例如,&coname;。然后在 DOCTYPE 的方括号([])内部输入代码,如 清单 6 所示。这个代码识别表示实体的文本。
[html]
<!DOCTYPE MyDocs SYSTEM "filename.dtd" [ <!ENTITY coname "Rabid Turtle
Industries"
]>
[/html]

过滤字符串中的中文和数字

[php]
function getChinese($string,$encode="GBK") {
switch($encode){
case "GBK" :$codelength=2;break;
case "GB2312" :$codelength=3;break;
case "UTF-8" :$codelength=3;break;
case "UTF-16" :$codelength=4;break;

}
$tmpstr = ”;
$arr = array(1,2,3,4,5,6,7,8,9,0);
$strlen = strlen($string);
for($i=0; $i<$strlen; $i++) {
$str=substr($string, $i, 1);
$str1=trim($str);
if( ord($str)>0xA0 ){
$tmpstr.= substr($string, $i, $codelength);
$i = $i+$codelength-1;
}

}
return $tmpstr;
}
[/php]

英文字母和中文汉字在不同字符集编码下的字节数

英文字母:

字节数 : 1;编码:GB2312

字节数 : 1;编码:GBK

字节数 : 1;编码:GB18030

字节数 : 1;编码:ISO-8859-1

字节数 : 1;编码:UTF-8

字节数 : 4;编码:UTF-16

字节数 : 2;编码:UTF-16BE

字节数 : 2;编码:UTF-16LE

中文汉字:

字节数 : 2;编码:GB2312

字节数 : 2;编码:GBK

字节数 : 2;编码:GB18030

字节数 : 1;编码:ISO-8859-1

字节数 : 3;编码:UTF-8

字节数 : 4;编码:UTF-16

字节数 : 2;编码:UTF-16BE

字节数 : 2;编码:UTF-16LE

抓取百度贴吧信息,并短信发送最新动态

貌似网上还没有人做这个东西,或者详细分析贴吧的DOM结构,所以这个应用原创的成分比较大,出于一点点的私心,我就不上代码了,不然被搜索引擎找到就不太好了,有意私下找我要。

我简单说下原理:
1.一个脚本命名为kv.php 每隔十分钟把所有人订阅的贴吧名字与ID,装入内存中
2.一个脚本命名为tieba.php每隔一分钟去抓取一个贴吧的最新50条帖子,抓取完毕把该贴吧信息从内存中删除,以便下次抓取下一个贴吧,因为每一分钟只从内存中读入一个贴吧的信息。抓取完毕后,分析所有帖子信息,做出如下判断:
(1)为最新帖子:
存入数据库,并标记为待抓取的帖子(注意,待抓取的帖子是说,要抓取该帖子的最新回复);
(2)不是最新帖子:
与数据库存在的帖子做比较,判断是否需要抓取最新动态
3.一个脚本为detial.php,每隔一分钟运行一次,抓取标记过的最新帖子
4.一个脚本为mail.php ,查询出每个待发送短信的帖子,查询出订阅该帖子所在贴吧信息的人的电话号码,139邮箱发过去,接下来就等着短信喽,昨晚手机爆掉了,收了五百多条短信。
有想用这个应用的联系我,奋进网群里有我的QQ号,发送格式为手机号+所订阅的贴吧名(限制为最多两个贴吧,且该贴吧会员数不超过一百,河海吧不受限制);、
以后接着更新