把文本看了┅遍重点怀疑对象: 1.灌水顶贴(论坛大部分人看到水贴直接说水贴,很少看见有说灌水的) 2.播种机(不解释我曾经一个教程帖子就是因為这种词汇才审核的,一用图片就好了) 3.广告(一般评论里有***但是很少有在帖子里直接说广告的) 4.公民(这个...直接就涉及政治词彙了...) 5.报警(网上引发点事报警可不是小事= =) 6.最新的本(.....) 另外并不是在文字上放上链接就可以避免审核~凡是让人感觉容易产生误 ... |
||
|
|
|
|
|
|
这种方式听起来高大上,采用DFA算法这个算法个人不太懂,经测试发现匹配度不行,速度良好或许可鉯改良,还请大神进行改良
这个方式采用了多叉树查找算法,至于这个算法是怎么回事大家可以去查看数据结构相關内容。提供了jar包直接调用进行过滤。
经测试这个方法匹配度良好,速度稍慢
以上就是我的调研结果,希望对大家有所帮助
最后,附上大量敏感词库下载地址: