Cat in Chinese: 2005.10

2005年10月30日星期日

基于发送者的贝叶斯~

现在在这个荒岛上，好像大家很习惯一种发布Announcement和Ads的方法，就是群传群??通常一个人参加了近十个Q群甚至近二十个Q群，如果他在一个群看到一个Announcement或者Ads，并且他觉得这个Announcement应该转告给其他人或者他觉得这个Ads的发起人值得他帮忙，那么他就会把信息贴到其他所有群。这种方法不能说"有效"，因为你永远不知道信息传到多远了，有多少人接受了，但是他在信息流的控制方面看起来也有一定的根据??你觉得值得你转发的东西你就转发吧，而这又影响着你的信誉度，因为如果你转发垃圾太多别人就干脆把这个群屏蔽掉了。

现在我想干脆就做一个基于这个原理和SNS的通讯系统，只支持近邻的发送而不支持DirectMail。其实我很早就觉得Orkut应该禁止DirectMessage，因为我收到的Spam实在太多了，过了一段时间才得到改善。后来看到Linkist有这项功能（你可以设置不接收DirectMessage仅接受来自好友后通过好友传递的Message），觉得这样东西确实值得做。

好了，到说主题了，我想做的这个东西就是基于发送者和传递者的贝叶斯信息过滤系统，允许发送的信息有两种??点对点和广播，这样设计有点类似TCP和UDP。无论是哪一种，信息都只能通过好友传好友，虽然这个过程是全自动的，但是你也可以要求启动过滤。全自动的意思是，如果你的两个好友是陌生人，他们通过你传递信息，你就好像网关一样，你可以选择不阅读这些信息就让他们自动转发；而允许过滤的意思是，作为网关，你其实也有权查看流经你的信息，即使加密了你还是可以大概看出信息类型（或者你干脆不允许加密信息经过），你有权自动（基于规则或基于贝叶斯）或手动的过滤掉一些信息。

情景1：A知道陈扬星期天来东校区做讲座，于是希望身边的好友都知道，于是他用广播模式发送了这条信息。B是A的直接好友，接受到了这条信息，觉得确实应该让大家都知道这条消息，于是点击了消息阅读框下面的"自动转发"按钮，于是B的好友也看到了这条消息，同时基于贝叶斯的统计，B对A发送的信息的信任度增加了。然而很不幸，B的好友C对这些活动毫无兴趣，觉得B整天发这些东西给他很烦，于是他点击了消息对话框下面的"垃圾"按钮，这个按钮拥有"关闭"按钮更多的更能??C对B的信任度下降了，同时C把这条消息的MessageID自动转发给他的好友并告知为Spam，这个Spam提示对于越是信任C的好友效果越明显甚至还会自动转发给下一级好友。

过了一段时间，这个消息又传回到B那里了，不过由于MessageID相同，B的客户端没有提示有新消息更加不会自动转发此条消息，而仅仅是在这则消息上面增加了Hit的数值。

情景2：K下载了这个软件，想用来群发广告——通过P2P的方式发送广告确实是个不错的主意。K加了一些好友，然后开始发送广告，开头他的这些好友还是愿意帮他转发的，不过很快发现他们的好友开始不怎么理睬他们（因为Spam多信任度降低更多的信息被过滤），他们也不再愿意帮K转发广告了，主动把K发过来的广告当作Spam来统计，结果K变成了信息孤岛，他说的话不再有人信了。（这里是基于大家都只加现实中认识的人这一原则。如果是网友的话，先通过中间人的自动转发功能联系一段时间，然后再加为好友。）

主动发送或者转发广告的人都是不受欢迎的，而且这个不需要大家开口来声讨，我们的系统知道如何去处理。

情景3：Z最近认识了好友Y的好友X。可惜Y经常不上线，他们要经过Y进行消息转发的这条Route的Ping值太高了。幸好Z和X之间还有另外一条Route，虽然中间隔着的人比较多，但是Ping值低，他们两个觉得发送的信息又不是什么大秘密，于是选择了走这条虽然可能有几个比较陌生的人，但是Ping值低的Route，很快他们就都主动把对方加为自己的好友了，于是就能够直接通信了。

2005年10月28日星期五

在做“作业提交系统”的那位来看看，你会faint死的~

Windows SharePoint Services 中文网站模板：
http://office.microsoft.com/zh-cn/assistance/HA011929182052.aspx

这个是微软的增值计划的一部分，你去看看下面那个"学校班级网站模板"，什么课件上传下载、作业提交，都有了，很faint吧。所以说，如果你有一台足够好的域服务器，给你一个Sharepoint，就算不作为WebFarm，自己做一下二次开发弄一些WebPart就很好用，剩下的就是要有一个好的ADSI程序用于账号管理。现在MS连给中国学校用的WebPart都做埋了，那么我们能够做的东西就更少了。

《Joel说软件》中说到，如果我是偏执狂，那么我会说MS肯定不会为它当前领域及纵向相关的潜在领域提供开发工具。这句话看起来也不假，呵呵……

2005年10月22日星期六

发现了一个很好的Wiki：MoinMoin！

http://moinmoin.wikiwikiweb.de

看起来很不错的东西，自动根据客户端语言来显示，用Python写的。不知道在Windows Server 2003上面要支持Python是否麻烦，如果不麻烦，我也想装个来玩一下。

现在我喜欢做的是，像verycd那样用已有的引擎作为后台，然后自己写一个前台的只读门户，那样会很轻松。因为门户不会进行写操作，所以不用担心改乱了数据，只要后台那个引擎是足够稳定的，那就可以放心了。

2005年10月1日星期六

Google、SNS、Web2.0……这一切意味着专家继续创，但新平庸的人就不要创新了

我的论点只有一个：我们期望有效的控制信息爆炸，特别是通过网络来克服这个网络自身带来的问题时，最"有效"的办法自然是减少信息的创造。

Web farm? Who's farming? Human. Who's harvesting? Machine. Quite like the Matrix, doesn't it?

这真的是一个很奇怪的问题，我们每天在写Blog，上豆瓣列举自己所读所看所听并且还附上评论，还有在Groups上交流，我们到底贡献了多少，其中造成了多少的成本和收益？或者说不应该用成本/收益计算方法，而有新的计量单位和计算方法？或许现在等着某一个在信息学领域提出一个伟大的计算公式，能够和马克思提出商品交换的实质以及引申到资本主义剥削实质一样震撼。

反正在当前，没有任何公式可以利用，我们只是凭兴趣去贡献自己的信息，有时候至少保证贡献了感觉没有吃亏，例如上论坛赚精华贴然后升等级换取更多的好处。有些时候，我们根本没办法判断贡献信息到底对自己是利是弊，对别人也会不会是弊大于利。这听起来很好笑，但是难道有人能够证明你贡献信息就不会对别人造成坏处吗？

Friendster起源于6度空间理论，也就是说世界上任何两个人之间只隔着6个人（以前Coo告诉我的是20个人），也就是任何人都必然在你的朋友的朋友的朋友的朋友的朋友的朋友（6次"朋友"）的圈子之内，不过英文中采用Degree这个词表达经过了多少次"朋友"运算所以叫做6"度"空间。如果Friendster仅仅用在结交朋友的朋友，因为朋友的朋友更加容易成为朋友，那还算是一件好事，不过其应用也仅仅在于交友。如果Friendster，加上Google搜索模式，那么理想的事情就是当我想办一件事的时候，我会考虑我需要什么人际关系，然后可以搜索，然后Google根据HumanRank排序提供结果给我看，我通过它给出的"连接"联系上了排在搜索结果前几位的人，然后托其中一位帮我把事情完成了。

然后让我们回到贡献信息的例子，类似6度空间的理论，只要信息足够的多，计算机可以通过组合信息得出任何人类已知甚至人类未知的事情。这个如果在那个Google在2014年垄断传媒界的例子里，会是很好的事情，因为每个人贡献的信息可以选择Private还是Public，而Google的EPIC能够根据Public信息自动组合出或者说是写作新闻。然而实际上，正如在6度空间理论中你永远不可能知道你是否出于某条关键链上，你现在所贡献出来的一点点信息也可能存在于某条非常重要的推导链上，然后一旦这个推导完成，到底你做了什么你也不知道。正如《Google成功的7堂课》里面提到的一个案例，某人失踪了10年（至少他的家人如此认为），一直都找不到他的下落，最后是在Google间接搜索到他出现在10年前某一个州的车祸伤亡名单上，这才确认他已经死了。我们根本不知道随随便便说的一两句话，可能导致什么，呵呵……