敏感词能有个列表就好了(转载)


所有跟贴·加跟贴·新语丝读书论坛

送交者: opentalk 于 2011-01-26, 12:28:50:

http://www.yakergong.com/blog/archives/504

我是不带嘲讽的语气说的。

前几天写了一个程序批量查询一些大学的网址(大概5000个),程序用python写的,思路比较简单,到google上搜索学校的名字,取第一条结果的网址。大学的列表是从千橡互动的前端页面拿到的数据。

这个程序悲催的花了我三天才跑完,因为搜了有些大学的名字就会被GFW封IP。一旦被封,最好乖乖的等着一个随机的时间内解封,重新尝试访问只能加重penalty,好像还是个指数递增的算法,比如第一次封你半分钟,尝试几次可能就变成封你半小时了。这事儿好像写程序也不好解决,搜索得不到结果有若干种可能,比如被google封了,或者网络故障什么的。

我实在不知道哪些词犯忌讳,如下是一些经验。比如“温州大学”“周口职业技术学院”“吴忠职业技术学院”“东吴大学”,原来这属于冒犯皇姓了,罪过罪过,这个不能搜。还有“青森大学”,好像是开除了几个内蒙古某些学校的学生,怎么说呢,这叫严重伤害了中国人民的感情,这个也不能搜。诸如此类,还有很多。

我只是不理解我们这个国家到底恐惧什么,恐惧比利剑更伤人啊。




所有跟贴:


加跟贴

笔名: 密码: 注册笔名请按这里

标题:

内容: (BBCode使用说明