2005年10月30日星期日

基于发送者的贝叶斯~

现在在这个荒岛上,好像大家很习惯一种发布Announcement和Ads的方法,就是群传群??通常一个人参加了近十个Q群甚至近二十个Q群,如果他在一个群看到一个Announcement或者Ads,并且他觉得这个Announcement应该转告给其他人或者他觉得这个Ads的发起人值得他帮忙,那么他就会把信息贴到其他所有群。这种方法不能说"有效",因为你永远不知道信息传到多远了,有多少人接受了,但是他在信息流的控制方面看起来也有一定的根据??你觉得值得你转发的东西你就转发吧,而这又影响着你的信誉度,因为如果你转发垃圾太多别人就干脆把这个群屏蔽掉了。

现在我想干脆就做一个基于这个原理和SNS的通讯系统,只支持近邻的发送而不支持DirectMail。其实我很早就觉得Orkut应该禁止DirectMessage,因为我收到的Spam实在太多了,过了一段时间才得到改善。后来看到Linkist有这项功能(你可以设置不接收DirectMessage仅接受来自好友后通过好友传递的Message),觉得这样东西确实值得做。

好了,到说主题了,我想做的这个东西就是基于发送者和传递者的贝叶斯信息过滤系统,允许发送的信息有两种??点对点和广播,这样设计有点类似TCP和UDP。无论是哪一种,信息都只能通过好友传好友,虽然这个过程是全自动的,但是你也可以要求启动过滤。全自动的意思是,如果你的两个好友是陌生人,他们通过你传递信息,你就好像网关一样,你可以选择不阅读这些信息就让他们自动转发;而允许过滤的意思是,作为网关,你其实也有权查看流经你的信息,即使加密了你还是可以大概看出信息类型(或者你干脆不允许加密信息经过),你有权自动(基于规则或基于贝叶斯)或手动的过滤掉一些信息。

情景1:A知道陈扬星期天来东校区做讲座,于是希望身边的好友都知道,于是他用广播模式发送了这条信息。B是A的直接好友,接受到了这条信息,觉得确实应该让大家都知道这条消息,于是点击了消息阅读框下面的"自动转发"按钮,于是B的好友也看到了这条消息,同时基于贝叶斯的统计,B对A发送的信息的信任度增加了。然而很不幸,B的好友C对这些活动毫无兴趣,觉得B整天发这些东西给他很烦,于是他点击了消息对话框下面的"垃圾"按钮,这个按钮拥有"关闭"按钮更多的更能??C对B的信任度下降了,同时C把这条消息的MessageID自动转发给他的好友并告知为Spam,这个Spam提示对于越是信任C的好友效果越明显甚至还会自动转发给下一级好友。

过了一段时间,这个消息又传回到B那里了,不过由于MessageID相同,B的客户端没有提示有新消息更加不会自动转发此条消息,而仅仅是在这则消息上面增加了Hit的数值。

情景2:K下载了这个软件,想用来群发广告——通过P2P的方式发送广告确实是个不错的主意。K加了一些好友,然后开始发送广告,开头他的这些好友还是愿意帮他转发的,不过很快发现他们的好友开始不怎么理睬他们(因为Spam多信任度降低更多的信息被过滤),他们也不再愿意帮K转发广告了,主动把K发过来的广告当作Spam来统计,结果K变成了信息孤岛,他说的话不再有人信了。(这里是基于大家都只加现实中认识的人这一原则。如果是网友的话,先通过中间人的自动转发功能联系一段时间,然后再加为好友。)

主动发送或者转发广告的人都是不受欢迎的,而且这个不需要大家开口来声讨,我们的系统知道如何去处理。

情景3:Z最近认识了好友Y的好友X。可惜Y经常不上线,他们要经过Y进行消息转发的这条Route的Ping值太高了。幸好Z和X之间还有另外一条Route,虽然中间隔着的人比较多,但是Ping值低,他们两个觉得发送的信息又不是什么大秘密,于是选择了走这条虽然可能有几个比较陌生的人,但是Ping值低的Route,很快他们就都主动把对方加为自己的好友了,于是就能够直接通信了。

2005年10月28日星期五

在做“作业提交系统”的那位来看看,你会faint死的~

Windows SharePoint Services 中文网站模板:
http://office.microsoft.com/zh-cn/assistance/HA011929182052.aspx

这个是微软的增值计划的一部分,你去看看下面那个"学校班级网站模板",什么课件上传下载、作业提交,都有了,很faint吧。所以说,如果你有一台足够好的域­服务器,给你一个Sharepoint,就算不作为WebFarm,自己做一下二次开发弄一些WebPart就很好用,剩下的就是要有一个好的ADSI程序用于­账号管理。现在MS连给中国学校用的WebPart都做埋了,那么我们能够做的东西就更少了。

《Joel说软件》中说到,如果我是偏执狂,那么我会说MS肯定不会为它当前领域及纵向相关的潜在领域提供开发工具。这句话看起来也不假,呵呵……

2005年10月22日星期六

发现了一个很好的Wiki:MoinMoin!

http://moinmoin.wikiwikiweb.de

看起来很不错的东西,自动根据客户端语言来显示,用Python写的。不知道在Windows Server 2003上面要支持Python是否麻烦,如果不麻烦,我也想装个来玩一下。

现在我喜欢做的是,像verycd那样用已有的引擎作为后台,然后自己写一个前台的只读门户,那样会很轻松。因为门户不会进行写操作,所以不用担心改乱了数据,­只要后台那个引擎是足够稳定的,那就可以放心了。

2005年10月1日星期六

Google、SNS、Web2.0……这一切意味着专家继续创,但新平庸的人就不要创新了

我的论点只有一个:我们期望有效的控制信息爆炸,特别是通过网络来克服这个网络自身带来的问题时,最"有效"的办法自然是减少信息的创造。

Web farm? Who's farming? Human. Who's harvesting? Machine. Quite like the Matrix, doesn't it?

这真的是一个很奇怪的问题,我们每天在写Blog,上豆瓣列举自己所读所看所听并且还附上评论,还有在Groups上交流,我们到底贡献了多少,其中造成了多少­的成本和收益?或者说不应该用成本/收益计算方法,而有新的计量单位和计算方法?或许现在等着某一个在信息学领域提出一个伟大的计算公式,能够和马克思提出商品­交换的实质以及引申到资本主义剥削实质一样震撼。

反正在当前,没有任何公式可以利用,我们只是凭兴趣去贡献自己的信息,有时候至少保证贡献了感觉没有吃亏,例如上论坛赚精华贴然后升等级换取更多的好处。有些时­候,我们根本没办法判断贡献信息到底对自己是利是弊,对别人也会不会是弊大于利。这听起来很好笑,但是难道有人能够证明你贡献信息就不会对别人造成坏处吗?

Friendster起源于6度空间理论,也就是说世界上任何两个人之间只隔着6个人(以前Coo告诉我的是20个人),也就是任何人都必然在你的朋友的朋友的­朋友的朋友的朋友的朋友(6次"朋友")的圈子之内,不过英文中采用Degree这个词表达经过了多少次"朋友"运算所以叫做6"度"空间。如果Friendster仅仅用在结交朋友的朋友,因为朋友的朋友更加容易成为朋友,那还算是一件好事,不过其应用也仅仅在于交友。如果Friendster,加上Google搜­索模式,那么理想的事情就是当我想办一件事的时候,我会考虑我需要什么人际关系,然后可以搜索,然后Google根据HumanRank排序提供结果给我看,我­通过它给出的"连接"联系上了排在搜索结果前几位的人,然后托其中一位帮我把事情完成了。

然后让我们回到贡献信息的例子,类似6度空间的理论,只要信息足够的多,计算机可以通过组合信息得出任何人类已知甚至人类未知的事情。这个如果在那个Googl­e在2014年垄断传媒界的例子里,会是很好的事情,因为每个人贡献的信息可以选择Private还是Public,而Google的EPIC能够根据Publ­ic信息自动组合出或者说是写作新闻。然而实际上,正如在6度空间理论中你永远不可能知道你是否出于某条关键链上,你现在所贡献出来的一点点信息也可能存在于某­条非常重要的推导链上,然后一旦这个推导完成,到底你做了什么你也不知道。正如《Google成功的7堂课》里面提到的一个案例,某人失踪了10年(至少他的家人如此认为),一直都找不到他的下落,最后是在Google间接搜索到他出现在10年前某一个州的车祸伤亡名单上,这才确认他已经死了。我们根本不知道随随便便­说的一两句话,可能导致什么,呵呵……