Archive for category 风头浪尖

从Web 2.0到推荐引擎2.0

(《新知客》,2010年9月)

互联网应用的新概念似乎总是层出不穷,然而相对于2005年前后中国一下子冒出来的一大批 web 2.0 网站和最近几年出现的“云计算”,此时此刻的互联网业界似乎有点沉闷。人们开始谈论,互联网下一个有趣的事情是什么?

百姓网 CEO 王建硕,最近在《中国企业家》杂志发表文章《2011年注定是中国互联网第三春》,提出一个五年周期理论,认为每隔五年左右就会有一批人出来创业,就会有一批风险投资周转完毕转而支持新的项目,这样经过这两年的沉闷,2011年必将有新东西爆发。王建硕看好的概念是“移动互联网”。紧接着,著名 IT 博客“对牛乱弹琴”,也谈到2005这个奇迹年,不过他并不怎么看好2011年的爆发,认为现有的 web 2.0 公司仍在寻求能真正赚钱的模式,而不会出现什么全新的概念。

有一个东西可能成为未来几年互联网公司的新主攻方向:推荐引擎。

豆瓣网,土豆网和各种视频分享网站,包括博客的流行,在中国都是从2005年开始的。今天的年轻人中可能任何两个人过去一天内看过的节目和新闻都完全不同,每个人都能根据自己的兴趣找到特有的一套内容,这就是 web 2.0 的力量。对2005年的创新公司来说,最重要的革命性思想可能是2004年《连线》杂志主编 Chris Anderson 提出的所谓“长尾”理论。这个理论说互联网使得过去几件流行商品通吃的局面一去不返了,现在哪怕是最不流行的东西也会有人喜欢,是小众市场的时代。

互联网的大趋势,甚至可以说是整个社会的一个大趋势,是人们面临的选择越来越多。过去是全国上下看一个电视剧,而现在中国每年生产一万五千集,其中很多甚至根本没有被播出的机会。1994年,全美国总共有50万种不同的商品出售,而现在仅仅在亚马逊网站上就有超过240万种商品。长尾和 web 2.0,正是选择越来越多带来的现象。 Anderson 提出长尾的三个法则,第一是让所有东西都可以被获得;第二是让这些东西卖的很便宜;第三是帮我找到它。前两点可以说已经做到而且做得很好了,现在的关键是第三点,怎么帮助用户作出选择。这就是推荐引擎的作用了。

据市场分析公司 Forrester 统计,那些在电子商务网站被推荐过商品的用户,有三分之一的人会根据这些推荐买件东西。任何广告都不可能做到这样的成绩。所以推荐引擎不但是 web2.0 的最核心技术,更是广告的终极形式。我们可以设想,当一个人面对购物网站上几十万种商品,有多大可能没有一件是他愿意买的呢?这个人空手而归的最重要原因,也许是那个他一定会买的商品没有被他发现。

多年以前,我曾经在亚马逊买过一本《量子力学》,是物理系研究生的教材。结果很长一段时间内亚马逊不停地向我推荐各种物理教材。这个推荐引擎想的非常周到,只可惜它不知道我早就不需要这种教材了。现在在当当网买书,每一本书的关联推荐往往都是一些流行热卖的类似的书,这些书我早就知道而没有买,难道会因为看到推荐才买么?人们需要的是个性化的,恰到好处的,最好还有一点惊喜的推荐,而传统的推荐引擎太落后了。

在线DVD租借提供商 Netflix,自己有一个算法保密的推荐引擎 Cinematch,根据用户对电影的打分来判断他还可能喜欢什么电影。这是一个相当优秀的引擎 — 如果你想知道喜欢一本书的读者还喜欢什么样的书,亚马逊可以免费告诉你答案,而 Netflix 的电影推荐服务只给付费用户,甚至可以说是一大卖点。但 Netflix 并不满足,它在2006年提出悬赏,希望有人能把推荐引擎的性能提高10%,这10%的奖金是一百万美元。

这件事充分说明一个好的推荐引擎是多么重要,同时又是多么困难。这笔奖金一直到2009年才被一个七人小组得到,其中包括两名AT&T的科学家。

传统的推荐引擎主要根据统计用户记录来发现关联,重点是“买过这本书的人一般还都买了什么书”。这个原理是简单的,它的缺点在于往往推荐的都是一些相似的东西,而且这些东西必须已经有很多人买过了。它无法制造惊喜。这可能也是很多人更愿意逛书店的原因之一,在书店里往往会偶遇一些本来绝对想不到自己会喜欢的,而且不怎么出名的好书。另一方面,传统的引擎不知道一本书或者一个电影到底好在哪里,为什么人们会喜欢,以至于无法做出更精确的推荐。

但现在有两个新的推荐技术,堪称是推荐引擎2.0。

Pandora 是一个专门致力于歌曲推荐的公司,它的办法是分析歌曲。在 Pandora 的算法中,给每一首歌都有400种不同的属性,聘请一位音乐专家,使用20分钟的时间给这首歌的所有可能的属性打分。这样一来每一首歌都被一组数标记了属性。Pandora 的目标是建立一个包含所有歌曲的数据库,称之为“音乐基因组计划”。他们每月能分析一万首歌曲,在过去十年之内已经分析了74万首。推荐算法的原理是,如果你表示喜欢一首歌,程序会自动寻找跟这首歌的“基因”相同的歌曲,并赌你也会喜欢。Pandora 现在已经是 iPhone 和 iPod 中最流行的应用之一,随着播放的进行你可以随时表示喜欢或是不喜欢一首歌,程序通过网络自动提供各种你可能喜欢的歌曲。

Pandora 的独特之处在于它完全根据一首歌的本身属性和你自己的喜好记录来判断你喜不喜欢,而不考虑别人喜不喜欢。显而易见的好处是也许这首歌并不流行,可是你就是喜欢。Pandora “了解”歌曲。统计表明,在使用过 Pandora 的人中,45%买了更多音乐,只有1%的人因为 Pandora 减少了音乐购买。

而另一个推荐引擎公司, Hunch,有更大的野心,它的做法是直接分析人。Hunch 并不去分析歌曲,电影或者书有什么属性,它分析每个用户有什么属性。你喜欢百事可乐还是可口可乐?你喜欢蓝色的笔还是黑色的笔?通过大量的统计分析,Hunch 发现,如果你相信 UFO 存在,那么你更有可能喜欢百事可乐;如果你有一个 MBA 学位,那么你更有可能喜欢蓝色的笔。

现在去 Hunch 的网站,它允许你用 Facebook 或者 Twitter 的账号登陆,然后它会问你20个看上去与电影和书籍一点关系都没有的问题。这些问题包括你住在城市,郊区还是乡下,你会不会自己安装家庭影院的音箱系统,你能不能连续做10个引体向上,喜欢吃什么样的炸薯条等等。然后根据这些信息,它将会向你5本杂志,5个电视剧和5本书。我很少看电视剧,但它推荐的5本杂志中有2本是我早就订阅了的;它推荐的5本书里有一本是我看过的。它其他的推荐我不怎么感兴趣,但这已经是相当不错的准确度。Hunch 的雄心壮志是给每一个用户建立一个个人喜好档案,然后那些电子商务公司就会向它购买完全基于个人喜好的推荐服务。

中国显然需要高性能的推荐引擎,而且考虑到国人的喜好与西方用户未必相同,这种推荐引擎还必然是具有中国特色的。我预计推荐引擎会在中国有很大的发展,但是其中也有困难。

首先,“炼成”一个好的推荐引擎需要大量的真实交易数据,而这些数据往往各公司保密,是一种稀缺资源。Netflix 是为了举办100万美元的优化大奖,才公开了部分用户电影评价数据。Pandora 是自己采用劳动密集型的做法雇人给每一首歌设定属性,而且费时多年才开始盈利。很难想象淘宝或者当当能把自己网站的交易记录交给一个第三方公司研究。

更重要的是,推荐引擎技术很难山寨,它不仅仅是一个编程的问题,而必须请统计学家,艺术家和工程师合作研究。早期的互联网公司最大的不同是它使用了互联网;中国在2005年爆发出来的 web 2.0 公司,最大的不同也许仅仅是一个好主意;而现在则到了需要核心技术的时候。也许那个大学本科退学生,甚至高中生想起来一个好主意,写几个月程序,然后就能拉到风险投资说创业就创业,说上市就上市的时代已经快要结束了。

从 web 2.0 到推荐引擎2.0,是互联网公司从低端到高端的一个进化。…

交通灯,学校教育与小趋势

我每天上班要走一段差不多10英里的准高速路。在这种限速55又没有坡度的路上,开得快不快跟汽车的好坏没什么关系,完全取决于开车者的进取心。我有时候就很进取,识别前方每一辆开得慢的车,想方设法超过他们。但是这条路有五个交通灯。我经常左冲右突好不容易取得领先之后正好遇到红灯,眼睁睁地看着一辆慢车悠闲地跟上来停在我旁边。

只要路足够长,开得快当然有快的好处,你可能被这个灯拦下,但是也可能因为开得快而正好赶上躲过下一个灯。

可是如果车与车之间是一个比赛的关系,需要排名次的话,交通灯就是限制竞争。虽然快还是有快的好处,但交通灯肯定是对开得慢的人有利。这是因为如果完全没有交通灯,快车肯定能确保第一;而有了红灯就等于给慢车在中途再一次获得平等地位的机会。慢车一定特别希望赛道上布满红灯,最好每100米就停一次,大家几乎一起冲过终点,完全靠算不可分辩的小分乱中取胜。

从快车角度看,是红灯制约了快车能力的发挥;从慢车角度看,是红灯使慢车获得了跟快车共同前进的资格。本来,每辆车的快慢不同,车流速度分布是连续的 — 而交通灯则把车流分组,每一组集中起来一起出发。

今天早上跟一辆慢车一起等红灯的时候,我突然想到生活中其实也有很多事情也有这种“交通灯效应”。比如说学校教育。

自动化,工业化,生产线般的学校教育,对学习一般的人最有利。

如果一所大学的录取分数线是600分,其中有的人是以680分考上的,有的人是以正好600分考上的,这所大学其实是为这位600分的学生量身定做的。680分的人早到了,但是赶上了红灯。

最理想的教育模式,应该是每一个人有一个单独的老师,完全根据这个人的情况指定教学方案,实行彻底的因材施教。比如古代有钱人请私塾就是如此。我们看武打书里拜师学艺都是一个师父只教一个徒弟,而主角则更是好几个师父教一个徒弟。只有全真教是一个师父教七个徒弟,到徒孙更是密密麻麻,每次一大帮人一起训练,把武术变成了广播操。

Outliers 这本书讲了一个现在已经广为人知的观点。假定入学年龄按九月一日划线,那么同一个班级里八月份出生的孩子实际上比九月份的孩子整整小了一年,可是他们却要一起上课。年龄大的孩子早早获得更多的自信,这种自信会一直持续到他们的大学入学成绩高10%的可观测效应。在体育中这种效应就更明显。

50个,甚至上百个学生坐在教室里听同一门课,是非常荒诞的事情。每个人的程度可能非常不同,你猜老师会按照谁的程度授课呢?大多数情况下是中等偏下的程度。如果是一个模范班级,这些中等学生会非常积极地记录老师说的每一句话,生怕错过考试的重点。于此同时,最好的和最差的学生都在看课外书。

对这种大课的描写,我最喜欢的是《西游记》。灵台方寸山萨提祖师不是中学老师,他是讲课高手,可以兼顾各种程度学生的需求,这就至少要具备教授水平,以至于孙悟空听得是手舞足蹈。

祖师一看终于有一个真能听懂我讲课的了,道:“‘道’字门中有三百六十傍门,傍门皆有正果。不知你学那一门哩?”孙悟空一派天真模样,像个最听话的好学生一样说“凭尊师意思。弟子倾心听从。”

结果祖师介绍了术字门,流字门,静字门,动字门,都是修道者的流行科目。这时候注意!如果是一般学生,这时候一定要问“考试考什么”,或者“当前经济形势下学什么容易找工作”,或者“大多数人学什么”。可是孙悟空却都不想学。我们完全可以想象,座中那些想拿个名校毕业证早点出去找工作的同学,这时候看孙悟空是多么不懂事啊。

但孙悟空坚决以“自己想学什么”为核心。最后是这个有理想的人学会了七十二变和筋斗云。大课和统一考试会把学生变得随波逐流。

不但如此,如果你看一个电影,尽管你对电影有自己的口味,但你不得不跟几百万人看同样的电影,而不会给你定制一个电影。

但是这种局面正在被改观。据说,在1994年,全美国市场上总共有50万种不同的消费类商品在卖,而现在,也就16年之后,仅仅一个亚马逊上就有240万种商品!

这个 big picture 是人们的选择正在以暴涨的形式增加。大学个数在变多,学生在被细分,这等于交通灯在减少。电影的类型也在增加,比如说恐怖电影进一步分为僵尸类,心理类等等。

人们将越来越追求一些小众的东西。几年前有一本书,《小趋势》(Microtrend),基本意思是说现在的一个大趋势就是出现了很多很多小趋势。只要几亿人口中有区区一百万人干一件事,就足以构成一个小趋势,而这一百万人的市场就足够大,他们的政治影响力足以左右选举。比如克林顿竞选的时候就成功的利用了“足球母亲”这个小群体。

最好的大学都在给学生提供更多可选的课程,哪怕只有几个学生也值得开一门课。学校教育将从流水线生产重新向一对一的师徒式回归。只有用这种办法,才能让每个学生都在自己感兴趣的项目上能走多快就走多快,而不必跟别人一起等红灯。

—-

最近很长时间没更新,已经有人催我了。我其实并没闲着,业余正在干一个很有意思的项目。现在感到写正经文章越来越麻烦,要做大量的调查研究才敢动笔,还是像今天这篇写写随笔比较轻松。…

足球的统计

《足球的逻辑》这篇得到了不少有益的批评,以至于我很想写一个修改版,不过更有意思的做法是接着另写一篇。

本文继续分析足球。更重要的是,这回终于可以提供一点数据支持了。

1. 防守与体能

足球比赛的一个一般规律是下半场比上半场容易进球。在以下几个大赛中,上下半场的进球比率分别是:

98年世界杯:上半场39.2%,下半场60.8%
02年世界杯:上半场41%,下半场59%
04年欧洲杯:上半场42.6%,下半场57.4%
06年世界杯:上半场47.5%,下半场52.5%

首先,关于为什么下半场进球多,你可以猜测是到下半场比赛快结束的时候有些比分落后的球队会采取比较冒险的策略。统计表明比赛最后15分钟的进球往往超过其它的15分钟时间段。但问题是“冒险的策略”很难客观判断,而且这样的局面出现的次数也不是特别多。

专家们的共识,是下半场进球多是因为防守队员的体能下降 [Saltin, 1973; Bangsbo, 1994]。另有证据表明 [Abt et al., 2002, Zeederberg et al. (1996), Abt et al. (1998)],当体能下降,射门能力所受的影响要比防守能力所受的影响小。也就是说同样精疲力尽的情况下,进球容易防守难。

发起猛攻的最佳时机是双方体能都下降的时候。这使人联想到解放军特别喜欢在佛晓时分进攻。

但我想提出更重要的一个论点是,各个球队的防守能力正在提高。这表现在从1998到2006年,下半场进球的比重在减小。这极有可能是各队都越来越重视体能的缘故。

下半场进球多,说明防守与体能密切相关。现在的趋势是下半场进球越来越不多,这说明各队的防守能力都基本达到了一个很高的水平。

2. 怎样进球

对04年欧洲杯的统计表明,44.1%的进球来自有组织的进攻,20.3% 的进球来自反击, 35.6% 的进球来自定位球。
对06年世界杯的统计表明,47.1%的进球来自有组织的进攻,20.3% 的进球来自反击, 32.6% 的进球来自定位球。

首先,职业球队应该多练习定位球,统计表明在业余比赛中定位球进球所占的比重远低于此。进球倚重定位球,我认为这再一次说明防守的成功。

再来分析一下有组织的进攻和反击。表面上看,有组织的进攻进球比反击要多不少,但要注意反击的机会是很少的!大部分进攻都是从后场一步步有组织的进攻。进一步的统计[Armatas, Ampatis and Yiannakos, 2005]表明,有组织进攻的成功率是11.1%,而反击的成功率则是16.9%。

反击的好处是对方半场正空虚,可以迅速在对方半场投入跟对方防守人数相当的队员。一个有意思的事情是我以前看报道说中国队有70%的丢球来自被对方打的反击,不知道是怎么算出来的,明显与主流球队的数据不符。

那么进球之前的具体动作是什么呢?04欧洲杯的统计是34.1%的进球来自长传, 29.3%来自短传配合,17.1% 来自个人盘带, 14.6% 来自直接射们(估计是远射和捡漏之类的),另有 4.9% 是乌龙球。

球都是从哪踢进的?04欧洲杯的数据是44.4%是禁区内射门,35.2%在球门区,20.4%在禁区外。而06年世界杯的数据非常不同:58.3%是禁区内射门,37.5%在球门区,4.2%在禁区外。我非常怀疑世界杯的禁区是否比欧洲杯大,或者说德国的球场比葡萄牙的球场大。

我从这些数据得到的教训是多练定位球,防守反击是好机会,快速把球传到前场。需要说明的一点是我在前文说不要盘带,事实上前锋的盘带寻找更好的机会是必不可少的,应该强调的是中后场队员少盘带。

4. 米兰实验室

这些论文中的数据完全不能令人满意。只统计世界杯和欧洲杯是不够的,最好能有各个顶级联赛多年的数据分析。从统计的项目上来看也非常粗糙,比如我很想知道诸如“射门成功率与禁区内双方人数的关系”,“射门成功率与球从后场到前场运行时间的关系”,“球场大小与进球数的关系”这些数据都没有。另外,这些论文写的也没有什么技术含量,完全可以作为本科生的作业项目。

比赛录像都在那里,统计技术也很简单,但是得到数据却需要大量的人力物力。

可是如果你认为这点数据就是目前足球数据分析的世界先进水平,你大错特错了!

分析比赛数据有专门的软件,比如说 Prozone. AC 米兰俱乐部有个专门的实验室, Milan Lab,它使用计算机分析了这支球队队员的上百万数据。其中一个发现是只看一名队员的跳,就能以70%的准确度预测他是否会在比赛中受伤。

米兰实验室的最重要成果可能是发现了“不老的秘密”。2007年欧冠决赛中,AC米兰大多数队员都在31岁以上!凭借这个发现,米兰实验室可以帮助俱乐部延长球员的运动生命,并且合理评估哪些球员值得购买。这个秘密至今没有公布。

如果一个人真掌握炒股的秘密,他不应该写书,而应该用这个秘密去赚钱。看来,米兰实验室真掌握足球数据分析的秘密。

5. 足球的未来

有的人看输赢;有的人看进球;有的人看球星;有的人看精神;有的人看技术;有的人看战术。但不论怎么看,足球并不是一个特别精确的项目,可能远远比不上NBA精确。英国几乎所有球员都来自社会底层,中产阶级根本不踢球,这直接影响英国队的技术。仍然有很多很多教练和球员再凭感觉训练和比赛。有人甚至认为足球就是拼命。但现在有很多人开始看球看数据了。

我认为足球的发展趋势是变成一个更快更精确的运动。除了精确地传球,更要精确地控制体能。看一帮人筋疲力尽地拼抢没意思,一直到最后一分钟都保持高节奏,才是现代足球的完美比赛。

—-
参考文献:

1. Yiannakos, A., Armatas, V., Evaluation of the goal scoring patterns in European Championship in Portugal 2004

2. Armatas, V., Yiannakos, A., Papadopoulou, S., Galazoulas, Ch., Analysis of the set-plays in the 18th football World Cup in Germany

3. Armatas, V., Yiannakos, A., & Sileloglou, P., Relationship between time and goal scoring in soccer games: Analysis of three World Cups

4. Simon Kuper and Stefan Szymanski, Soccernomics: Why England Loses, Why Germany and Brazil Win, and Why the U.S., Japan, Australia, Turkey–and Even Iraq–Are Destined to Become the Kings of the World’s Most Popular Sport…

足球的逻辑

最近看世界杯有感,本文试图提供一个关于现代足球的“统一理论”。我并不是一个真正的球迷,但进行了一点思考,查了一点资料,不吐不快,乃做此文。这个理论不是什么标新立异的一家之言,而是想从客观科学的角度,谈谈现代足球应该怎么踢。我将避免零碎的规律总结,而是尽量使用逻辑推理的办法去“推导”这套理 论,且看我说的对也不对。

1. 足球是一个防守比进攻容易的项目。

我在中学当过守门员。一开始都是在操场上用砖头摆门,以至于初中时候第一次跑到正规球场踢球,我被真正的球门震惊了。我感到球门这么大进球太容易了,怎么可能守住呢?然而正式比赛中一场往往进不了几个球。因为世界杯进球少,国际足联甚至两次采用新球,结果本届世界杯开赛以来仍然进球很少。

进球少的根本原因是足球场地非常之大。篮球比赛进球多,是因为场地很小,每次进攻都是全队出动在前场形成5打5,进攻成功率要高得多。而足球因为场地太大,队员的体能有限不可能每次攻防都从场地的这头跑到那头。这就决定了绝大多数情况下进攻队员比对方防守队员要少。从这个角度讲“越位”规则其实对进攻有利 — 因为这使得进攻方的后防线敢于往前压。

增加进球的最有效方法也许不是更轻的球,而是缩短场地距离。足球规则对场地大小只设定了一个范围而没有精确规定,我猜测很多联赛的场地要比世界杯场地小一些 (世界杯场地多是新修的,而且大赛事自然要修个大场地),这可能直接决定了世界杯的进球数低于联赛。最好有一个场地大小和进球数之间的相关性数据。

2. 防守的技术的门槛并不高。

我1990年第一次看世界杯,大家都说意大利队防守最好。而这届世界杯给人感觉是所有队的防守都不错。甚至今天朝鲜对巴西,防守也相当不错。

闭门造车很难掌握任何真正的高精尖技术。现在对外交流极少的朝鲜队的防守也能做到如此出色,我猜测防守的技术并不复杂。破坏一个球比做好一个球要容易。

我们看到世界杯上多数进球与其说是进攻方的技术精妙,不如说是防守方的失误造成的。我记得有个意 大利教练曾经说过,进球必然意味着防守错误,一场比赛最完美的比分应该是0比0.

防守的要点大约是补位的意识,斗志,后防线的整体配合,但最重要的肯定是体能。只要后防线的体能充沛,在以多打少的情况下破坏对方前锋进攻是容易的。统计表明世界杯上的进球往往是在下半场,这是因为下半场 大家体能都下降了。今天朝鲜队丢的第二个球就明显是后卫体能下降导致的,而巴西队丢的一个球也是比赛快要结束,体能下降导致精神不集中造成的。

据说,一百年前奥运会马拉松冠军的成绩,放今天也就是中学生水平。这么多年以来运动员的体能普遍上升,所以现代足球的进球越来越少,是贝利那个年代所不能比的。

因为技术门槛低,好的防守已经被各个队普遍掌握。如果不考虑体能因素,也许世界杯上没有哪个队比其他队伍“更擅长防守”。

3. 进攻的正确方法

既然防守人人都会,那么决定强队的因素就是进攻。现代足球进攻的正确方法是一个字:快!

前面说过,防守之所以容易是因为以多打少,那么进攻的追求就是要避免过分陷入以少打多的局面。这就要求一定要快速地推进到对方半场,在对方还没有把大部分人撤回的时候形成射门。我没有看到更全面的统计数字,但据说中国队丢球的70%是在由攻转守的时候被人打了快速反击。

为了想通这一点,我今天特意买了一本 Soccernomics (《足球经济学》)。这是一本一个经济学家和一个记者合写的书,写的比 Freakonomics 还要好。这本书在分析英格兰队为什么不行的时候提到,在欧冠赛场,所有顶级球队都是这个打法:队员极少盘带,任何人拿球都很少超过1秒,立即传球。这本书甚至 说,”… west Europe has discovered the secret of soccer.”

盘带很好看,但盘带的结果是你一抬头发现禁区里到处都是人腿。巴西从90年代起接受了欧洲的这套打法,效果非常好,只是被某些中国记者愚蠢地称为“功利足球”。

反过来说阿根廷还没有转化到这套打法。他们拥有三大联赛最好的前锋,可是这些前锋到了阿根廷队之后,每次拿球都要面对一大堆对方后卫。我很想知道的一个统计数字是梅西在西甲射门的时候禁区里平均有几个对方后卫,在阿根廷队的时候又要面对几个。最好的射手需要欧洲队友的支持。

据黄健翔说,马拉多纳不用里克尔梅的最重要原因是里克尔梅太慢。老马要求他改变自己的踢球方式。如果这是真的,那么马拉多纳不愧是球王,他敢于引进现代足球。不过也许阿根廷最需要的是一个欧洲教练。

4. 体能经济学

既然进攻的推进速度一定要快,这就进一步强调体能。而当体能下降,防守比进攻吃亏多。

我猜测,关于体能也许存在这么一个规律。假设现代足球中最好的球队的体能和技术都是100:

体能是80的情况下你可以很好的防守。如果对手防守体能是80,你的体能必须达到90的情况才可以很好的进攻。而过去进球多的年代,人们的体能是60,而这个弱体能更有利于进攻。

为什么强队往往在世界杯上“慢热”?我认为很可能是因为强队里球星多,这些球星刚刚打完欧洲联赛非常疲惫。而弱队由于集训时间早,往往在世界杯一开始的时候拥有更好的体能准备。朝鲜队今天表现出来的体能就不错。体能充沛,也是为什么世界杯一开始的时候进球都比较少。

但随着世界杯比赛的进行,各个队伍的体能下降,这时候强队的优势就体现出来了:强队更擅长对体能的恢复和管理。而弱队往往在前几轮把体能耗尽,所以淘汰赛中 还是强队胜出。对弱队来说,打好第一场相对容易,越往后越难打。真正的球星必须能坚持在欧洲赛场每年60场的比赛中保持状态。

中国队在世界杯被巴西干了个5:0,但中国队那时候已经在前面的比赛中用了不少体能了。我深刻怀疑朝鲜队以后的比赛中是否还有这样的体能。

现代足球中各队越来越重视体能教练。Soccernomics 这本书说,英格兰队很不擅长分配体能。别人都是下半场进球,而英国人关键场次总是在上半场进球。在英格兰队被淘汰的比赛中,他们打进的8个球中有7个是在上半场进的。在2002年在日本,英国队从未在下半场打进过球。英格兰就好像放电不均匀的次等电池。卡佩罗教英格兰队的第一件事可能就是“足球比赛有90 分钟”。

相比之下,意大利队非常擅长分配体能,他们在比赛中有“安静的时间段”,保守的踢。意大利队非常擅长在比赛的最后关头进球,比如黄健翔很激动的那场。

5. 世界杯不是最好的足球比赛

世界上最好的足球比赛是欧洲冠军联赛。联赛不受国籍限制,一个顶级俱乐部完 全可以把全世界最好的队员组成一个队。从队员之间配合来看,俱乐部的长期磨合也比国家队的短期集训要有效得多。

最关键的是,队员踢完联赛 已经很累了,更不用说受伤。

世界杯是最热闹的足球比赛,但不是最好的足球比赛。

世界足球的最顶端在欧洲。落后国家发展足球的关键是请欧洲教练。而请欧洲教练的关键是学习欧洲这套打法。另外别忘了请一个欧洲的体能教练。…

我们能从机器人世界杯学到什么

(《新知客》,2010年6月)

“如果你不知道往哪踢,就往门里踢”,多年以前施拉普纳曾经这样教中国队。也许这只是德国人调侃,但很多球队即将怀着这样简明易懂的战术参加本届世界杯赛 — 好在他们不是去南非,而是去新加坡参加另一场世界杯足球赛:机器人的世界杯。这项由日本发起的赛事规模越来越大,它的目标是在2050年,让一支机器人足球队战胜人类世界杯冠军。人类球员对此不必过分担心,从目前的发展水平来看,我们距离把足球比赛外包给机器人的那一天还非常遥远。

即使是这样,我们仍然能从机器人比赛中学到非常有价值的东西,这个价值不是关于机器,而是关于我们。通过考察机器人球员的弱点,我们可以了解人的优势到底是什么。更进一步,我们可以了解人到底是怎么学会各种技能的。

最引人瞩目的比赛是类人组。这是目前最先进的机器人球员,他们身高相当于一两岁到四五岁的小孩,本届世界杯甚至首次有了成人身高组。他们直立行走,用脚来踢球,而不像小型组球员那样被装在轮子上。除了发现球,追上球和射门这些基本功能之外,如果机器人在比赛中跌倒,还必须能以一个变形金刚式的动作自行站立起来。看他们做这些动作的时候你会几乎觉得他们是活的。然而面对近在咫尺的球门线上一个几乎不会动的守门员,球就在停脚下,在没有干扰的情况下,一个机器人球员需要30秒的时间来调整自己跟球的相对位置,然后才能完成一个很轻的射门动作。这已经足够成为一个必进球,因为距离太短,球速太“快”,守门员来不及做出任何反应。比赛不但谈不上技战术,甚至谈不上拼抢,大多数情况下能踢到球就很不错了。

相对于机器人研究的现状而言,能踢到球已经是一个相当了不起的成就。据悉尼技术大学的Williams教授介绍,作为机器人,你要在各种状态之间切换。如果你处于无球状态,程序给你的任务是“找到球”,而在球场上的众多物体中判断哪个是球已经是很难的技术。发现球以后你的状态变成“走向球”,你要计算球的方位,调整自己的姿态来面向球,然后才能迈步走过去,这还不算球可能在移动。一旦球在你脚下了,你的状态将变成“拿球”,然后你不必考虑什么复杂的传切配合,只需听从施拉普纳的简单忠告,射门。不过在此之前你还必须完成一个复杂的任务,那就是首先找到球门,然后计算射门角度并寻找一个合适的你跟球和球门的相对位置。

问题在于,人踢球的时候并不做任何数值计算。MIT的计算机科学家Rodney Brooks最近指出, 要想让机器人拥有人的基本智能,它至少需要2岁儿童的物品认知能力,4岁儿童语言能力,6岁儿童的动手能力,和8岁儿童的社交认知能力,而目前的技术水平据此相距甚远。实际上,当前机器人科学家正在研究的问题,是如何让机器人学会怎么区分不同的物体,怎么伸手去把一个物体拿起来,而这些都是人类在一岁以前就掌握的技能。小孩伸手拿东西的时候既不计算出手角度也不用考虑手指组合的姿态,他们几乎是无意识的就能把各种复杂的物体,使用每次都不太一样的姿势抓取过来。我们都会做,可是我们都不知道我们怎么做的。

绝大多数计算机程序,比如传统的专家系统,本质上都是融合了海量知识的一系列 “if… then…”逻辑判断,而这样的系统无法适应真实世界的千变万化,不能算真正的“智能”。在人工智能领域的最前沿,科学家必须一边研究计算机,一边研究人脑。现在美国国家科学基金的 Project One 项目中,来自多个大学的计算机科学家,认知科学家和发展心理学家正在团队合作,目标是创造一个具备一岁婴儿的认知和交流能力的机器人。他们邀请婴幼儿到最尖端的计算机实验室来跟妈妈玩躲猫猫之类的游戏,使用高速摄像机记录每一个动作和反应。在这个项目中,发展心理学家 Lev Vygotsky 发现了婴儿在一岁左右的一个智力跃进:当一个婴儿想要一个玩具而够不着的时候,他会示意妈妈把这个玩具递给他!Project One 正在努力研发世界上第一个具备这种能力 — 不是人指导机器人,而是机器人反过来指导人 — 的机器人。

科学家们发现与其说他们现在更加了解怎么造一个机器人,不如说他们现在更加了解人类自己。当前的一个共识是小孩出生的时候大脑里并没有预存任何关于怎么拿一个物体之类的程序,家长也没给输入,是孩子自己在实践中的不断摸索,试错和练习使他们掌握了这些技能。我们不是通过阅读说明书学会的开车,我们通过上路练习,被人鸣笛抗议,被教练和交警训斥学会开车。人的学习过程不是对动作要领的记忆,而是通过反复练习使得控制身体的各个脑神经元之间不断地连接,以至于从硬件层面对大脑重组。

人工智能研究的趋势就是让机器像人一样具有学习能力,使用软件模拟人的神经网络。机器人球员不再是一出厂就会,他们也需要大量的训练和比赛。比如当机器人做对了一个动作,就给他一个正面的激励,做错了给一个惩罚。通过神经网络的训练,机器人已经学会了从众多物体中识别一个人脸之类的技能。

人的这种学习和判断过程往往是无意识的。畅销书《异类》的作者格拉德威尔的另一本书,Blink(《决断两秒间》)中,就记载了大量的无意识判断的神奇例子。比如一个网球教练每次看电视转播都能预知运动员的发球失误,可是他无法解释自己是根据什么做出的判断。格拉德威尔说不清这个能力来自哪里,归结为人具备的一个超级计算机系统。清华大学赵南元教授在《认知科学揭秘》一书中指出,这套系统来自进化,人工智能研究必须考虑人是进化的产物这个事实。Jonah Lehrer 的 How We Decide 一书也提到,人脑的确有两套计算系统:一套是有意识的用于数值和逻辑计算,这套系统在人类历史中出现较晚,所以速度很慢;而另一套系统,靠神经元的连接重组形成的感情系统,则是数十万年进化的产物,其速度要快得多。

所以人的优势在于“感觉”,在于对“感觉”的训练。美式足球联盟曾经认为球员应该像计算机一样打球。鉴于四分卫的重要性,他们给四分卫候选新秀进行很高难度的智商和数学测验,内容是12分钟内50道越来越难的数学题,认为四分卫在最短的时间内判断场上形势需要用到这些能力。然而事实证明很多最好的四分卫在这种考试中得分很差,他们不是用数学比赛。如果你采访一个四分卫是怎么在关键时刻传出绝妙一球的,他的回答很可能是“我不知道。传球并没有一定之规,我只是感觉应该把球传向那里。”

人类中的大师都这样。在机器人学会说“我只是感觉”之前,他们不可能战胜人类冠军。…

数字如潮人如水

结果这篇文章被CCTV2《第1时间》报道了:

欢迎来到数字时代。很可能你已经有了能够随时随地上网的手机,玩3D网络游戏,想看任何电影都能在几小时甚至几秒钟之内下载到高清版本。十五年前尼葛洛庞 帝的《数字化生存》中描写的那个无限带宽,一千多个电视频道外加无处不在的界面友好的计算机的世界,正在慢慢变成现实。然而相对于我们正在经历的另一场静 悄悄的数字革命来说,这个把数字化等同于玩电脑的境界已经过时了。

有这么一位富有的美国老太太,她的业余爱好是赌博。她经常抱着小赌怡情 的态度光顾赌场,输点小钱从不放在心上。可是如果有一晚上输得太多,她也有可能会痛定思痛从此戒赌。有一个下午她总是输,当她输的钱接近900美元的时 候,一个服务员笑容可掬地走了过来。“看来您今天运气不太好啊。不如就玩到这吧,我们的牛排很不错,要不您跟您先生去吃顿晚饭?算我们请客!”

这 位老太太可能连手机都不会用,但是她正在经历另一种数字化生存:她本人被数字化了。这家赌场实时地知道每一位顾客的赌博记录,他们根据这位顾客的年龄,收 入和住址等个人信息以及赌博习惯,可以计算该顾客的 “疼痛点”:一晚上最多输多少钱下次还能再来玩。赌场一旦发现某位顾客今天输的钱接近疼痛点,免费牛排之类的节目就出场了。

其实我们每个 人都正在被数字化。网上书店会根据你以往买书的记录向你推荐你可能感兴趣的书,这个算法的准确性可以超过任何专家或朋友。世界最大的在线影片租赁服务商 Netflix超过三分之二的DVD是通过这种关联推荐被租借的。而正因为这个推荐系统,90%的电影每个月至少会被租借一次,实现所谓的“长尾”现象。

这 仅仅是冰山一角。据耶鲁大学法学院教授 Ian Ayres 的 Super Crunchers 一书介绍,每个人的各种个人信息,经常在哪个商店购物,常买哪个牌子的衣服,甚至每一次消费的记录,收到的每一张超速罚单,都正在被商业公司收集利用。根 据这些信息,使用统计回归算法,商家可以知道你的很多事情。以前航空公司的原则是你飞得越多就对你越好,而现在则利用你的所有数据来计算你的“忠诚度”。 一次航班误点或者行李丢失事件发生之后,如果数字算法判断某个长期顾客有可能要因此从此不飞这个公司了,这位客户就会得到特别好的照顾。类似地,租车公司 可能会拒绝为信用历史差的人服务,因为数据分析显示信用分数差的人更容易出车祸。而政客则可以根据你的一揽子数据判断你支持哪个党,可能捐多少钱,从而实 现精确募捐。商家甚至知道连你自己都不知道的事情,比如 DVD 出租店可以预测你不能按时还片的可能性。

最可怕的是商家可以精确估算每 一个顾客的价格敏感度,从而实现自古以来所有商店的梦想:给每个人看一个不同的定价。据说亚马逊就做过,同样一个商品,那些花钱大手大脚的顾客在网站看到 的价格比精打细算的顾客看到的高。在顾客的抗议下亚马逊保证永远都不再这么做了 — 但商家有更好的办法,比如给对价格敏感的顾客寄减价券。

在 这场数字化革命中,每个人都是一大堆数字,而数字有价。Acxiom 号称是“你所没听说过的最大的公司之一”,它拥有几乎所有美国家庭的消费信息。根据这些记录,该公司把所有人按消费习惯分为70类,知道比如那些人爱出国 旅游,哪些人喜欢呆在家里。实际上,它不但知道你现在属于哪种类型,而且可以预测你明年将会属于哪种类型。Teradata 则是一个专门给企业提供数据分析服务的公司,它可以根据货架上剩下商品的实时信息来预测沃尔玛是否需要立即增加库存。

这些公司获得个人数 据的一个渠道是政府和容易得到的公开信息,比如婚姻状况,车辆和房产注册,当然还包括信用记录。更重要的数字来源则是直接从零售商买。消费者在亚马逊和沃 尔玛的所有记录都被当成一种重要资源出售给了 Acxiom 这样的数据集成公司。另一方面,零售商对各种数字的收集则达到了惊人的程度:比如说超市会精确记录一个品牌的牙膏在货架的摆放位置,因为摆放位置可能会影 响到牙膏的销量,而牙膏放在第几层最好卖这个知识是有人愿意花钱买的。

除了获得已有的数据之外,商业公司还可以在原本没有数据的地方“采 集”数据,这就是随机试验方法。比如说有个公司想搞个促销活动,有两种可供选择的促销手段无法定夺。这个公司可以随机地选择一小部分顾客分为两组,把两种 促销手段分别作为广告寄给这两个组。这样一来,被当成小白鼠的这些顾客对广告的反映,可以告诉公司哪种手段值得推广到所有顾客。有了随机测试这个办法,商 业公司在采取新策略的时候会变得更加大胆,从而有一些意想不到的成功。

在网上书店买过几本书,书店就会经常向你推荐类似的书。刚刚找到一 份好工作,高档消费品的广告就寄到家里来了。走进一家从没去过的餐馆,服务员居然知道你喜欢哪种啤酒。这种生活看上去相当不错 — 可是事情还有另一面。书店知道你对喜欢的书根本不在乎多花10%的钱。服装店知道没必要让你这种顾客知道最近正在打折。餐馆服务员知道什么啤酒能让你多喝 几瓶。

如果一个人在什么时间买了一双价值多少钱的鞋这样的信息可以直接影响她将来消费要面临的价格水平,那么买鞋算不算需要保护的个人隐 私?如果人脸识别技术成熟以后,我们随便上趟街都会被记录在案,那么这个记录是否应该允许被商业公司拥有?

但是消费者也可以利用数字反 击。2008 年,微软收购了 Farecast 公司,这个公司干的事儿是帮助消费者对各个航空公司进行数字分析。它使用一大堆数字指标,实时地监测机票价格,然后预测票价的走向。我们都知道买机票并不 是越早买越便宜,但是什么时候最便宜? Farecast 知道。实际上,它甚至可以卖给你一个价格保险,如果到时候机票价格没降下来,它承担损失。去年,Farecast 已经被集成在 Bing 之中。

在 这个新数字时代,人是一堆数字。我们到底是数字的主人,还是数字的奴隶?也许第一步是要知道数字的重要性。如果你不想被数字玩,你最好学会玩数字。

(此文发表于5月1日的《新知客》,杂志应该已经上市了。我还没看到最终版本,上面也许还会有对四个玩数字的公司的介绍。)…