在开放提交数据的系统,例如wiki,总是无法拒绝别人用bot提交大量无用、无关或者误导性数据,这是最头痛的一个问题。不要觉得Google懂得对作弊网站使用PageRank Zero惩罚或者wiki自身有一定anti-spam技术就行了,当spam发展到有一定智能??像Google AdWords那样的"针对性投放"的智能,那wiki就会麻烦了!
暂时来说,Google AdWords允许你买一个词,然后在用户搜索这个词的时候就投放你的链接广告,同时按照投放收费,例如Nike就可以买下shoe这个词作为AdWords(不过Nike买下竞争对手的名字作为AdWords是否合法这个问题就很有争议性)。那么我们可以按照同样的原则作一个spam-bot,例如就去Wikipedia等大型wiki上面直接进入[[shoe]]这个WikiName,然后在最后直接tag上Nike的广告,然后开一个[[Nike]]的WikiName也可以,如果竞争对手的名称也是WikiName那就也过去tag上Nike的名称(介绍为竞争对手的竞争对手),这样的内容就算肉眼看起来也绝对不spam啊你觉得在[[shoe]]里面介绍Nike或者在竞争对手的WikiPage里面说它的主要竞争对手是Nike算是spam吗?
2005年6月6日星期一
2005年6月3日星期五
Search Inside!
人类对太空的探索比对地球内部的探索还要多,因而对太空的了解也比地球内部多,可能是因为了解外部比了解内部要更容易。
在MyWallop上面见到wm说雨伞不见了竟然还有用Google Desktop Search来搜索一下的冲动,我觉得这也挺有意思。我们天天用Google搜索外界的信息--我们要的技术资料、新闻、图片,还用Gmail搜索邮件,但是我们对内部信息却常常已往并且无法搜索——你还记得两三年前看过的一份技术资料是在哪本技术书上面吗?你还记得这本技术书现在在你的哪个书柜的哪层吗?
从暂时的技术含量来看,内部搜索基本上是不可能实现的,因为要对内部的物理存在的事物进行Index是非常困难的(之前提到的DVD Indexer则已经是最容易实现的一个方面),而这暂时只能靠人手录入,或者录入的自动化程度很低(DVD Indexer能够完全实现自动化,仅仅是你再刻碟后运行一下就完成索引,那已经是最好的事情了),这可能是在此领域一直无法发展的原因。
在MyWallop上面见到wm说雨伞不见了竟然还有用Google Desktop Search来搜索一下的冲动,我觉得这也挺有意思。我们天天用Google搜索外界的信息--我们要的技术资料、新闻、图片,还用Gmail搜索邮件,但是我们对内部信息却常常已往并且无法搜索——你还记得两三年前看过的一份技术资料是在哪本技术书上面吗?你还记得这本技术书现在在你的哪个书柜的哪层吗?
从暂时的技术含量来看,内部搜索基本上是不可能实现的,因为要对内部的物理存在的事物进行Index是非常困难的(之前提到的DVD Indexer则已经是最容易实现的一个方面),而这暂时只能靠人手录入,或者录入的自动化程度很低(DVD Indexer能够完全实现自动化,仅仅是你再刻碟后运行一下就完成索引,那已经是最好的事情了),这可能是在此领域一直无法发展的原因。
订阅:
博文 (Atom)