Speak Chinese Please
最近一段时间本 blog 被个别 spammer 盯上了,成功绕过验证码狂发垃圾广告,本来打算抽空做个简单的朴素贝叶斯做反垃圾,无奈本人实在太懒,迟迟没有动手,倒是收集了不少内容做样本……
考虑到这些 spam 内容无一例外都是英文,暂时先写个检测中文的脚本顶一阵吧,于是在几分钟前,speak-chinese-please 上线了——我太懒,简单脚本管用绝不写复杂的,顺便观察下 spammer 学习能力如何,10 年前玩 WordPress 的时候已经有机器人可以随机输入中文绕过该机制了,就看这次它会不会了。
分享一个 python 检测中文字符的函数吧,这也是 speak-chinese-please 的核心:
def any_chinese(s): return any(u'\u4e00' <= c <= u'\u9fff' for c in s.decode('utf-8'))
嗯,就一行,注意 any()
函数。
9 Comments
带有中文的comment
中文test