Privacy

Privacy-Law20180801.jpg

隐私——是指个人的与公共利益、群体利益无关的不愿他人知道或他人不便知道的信息,不愿他人干涉或他人不便干涉的个人私事,以及不愿他人侵入或他人不便侵入的个人领域。

方法论

周鸿祎:保护用户隐私的三个原则

一是数据所有权的归属问题,也就是用户使用互联网公司的服务功能产生的数据,所有权到底归谁?周鸿祎认为应该归用户,互联网公司只是对这些数据进行临时托管。有一天如果你不用某个服务了,应该有权要求它把你的数据删除。

二是用户应有知情权和选择权。周鸿祎说,虽然互联网公司提供的是免费服务,但用户和互联网公司之间还是有一种服务的契约关系,是互联网公司的消费者。所以,用户应该有知情权和选择权,也就是说,互联网公司应该告诉用户,采集了什么数据,怎么使用这些数据,这是知情权;而用户在享受互联网公司服务的时候,可以接受,也可以拒绝,这是有选择权。

三是互联网公司应保护好用户的数据。周鸿祎觉得,互联网公司有责任,也应该有这样的能力,把数据很好地存储和传输,并进行加密。否则用户无论打车、叫外卖,还是看视频,甚至是上传照片,都有可能泄露自己的信息,而这些信息数据最终掌握到一两家公司手里,是很可怕的事情。

观点:怎样面对“隐私的悖论”

在Facebook发生了用户数据泄露事件之后,舆论再度掀起了关于数据使用与用户隐私的讨论。科技专栏作者弗雷德里克·费洛克斯(Frederic Filloux)写文章说,当用户有了隐私意识时,不管是平台还是监管部门,都要面临着一种“隐私的悖论”问题。就是说,一方面,人们希望保护自己的隐私,另一方面,人们从消费服务中获得的便利与好处,涉及到用户个人隐私数据,都是更多数据优化的结果。只有数据越多,优化效果才会越好。 公众号“极客公园”介绍了这篇文章。

首先,处理隐私的悖论是很复杂的,弗雷德里克用自己的行车记录仪举例说,行车记录仪给他带来的好处是,可以很精准地收集他的驾驶数据,并且指导他的驾驶行为,还能更好地帮他导航。但是,他的驾驶习惯和个人信息经过处理之后,成了对保险公司来说非常有价值的“档案”,这将影响他将来购买车险的费用。

其次,弗雷德里克认为,随着人们对隐私保护的重视程度越来越高,大平台搜集到的数据会越来越多,大公司会变得“大而不倒”。早在2013年,弗雷德里克就在《隐私监管和市场架构》这篇文章中,提到了隐私监管对小公司的负面影响:监管要求平台对用户数据的收集更小心翼翼,这个过程中双方产生的交易成本会让大多数人放弃掉小平台。

最后,数据的使用过程会带来信息不对称。弗雷德里克说,虽然人们知道自己想要获得服务,就要交出一部分数据,但这里面存在着信息不对称,也就是说,你不知道平台为什么要收集这类数据,以及这些数据会用在哪里,平台也往往不会在后续使用中通知你。

总之,弗雷德里克认为,隐私的问题不是光靠打击科技巨头就能解决的,它涉及了集体行为、心理学、市场营销和计算机科学,需要各方共同参与。监管机构在处理问题时,也要把这些要素考虑进去。

法律法规

通用数据保护条例 GDPR, General Data Protection Regulation

《通用数据保护条例》(英语:GDPR, General Data Protection Regulation、(EU) 2016/679[2]),是在欧盟法律中对所有欧盟个人关于资料保护和隐私的规范,涉及了欧洲境外的个人资料出口。GDPR 主要目标为取回公民以及住民对于个人资料的控制,以及为了国际商务而简化在欧盟内的统一规范。

本法案在2016年4月27日通过,两年的缓冲期后,在2018年5月25日强制执行。 GDPR取代了1995年的《数据保护指令》(Data Protection Directive)。

因为GDPR是个规范(或译为“规则”)(英:regulation、德:Verorderung),不是指令(英:directive、德:Richtlinie),所以不需经过欧盟成员国立法转换成各国法律,而可直接适用(参见欧洲联盟运作条约第288条第2项)。

摘要
GDPR延伸欧洲资料保护法的领域至所有处理欧盟住民的境外公司。[6] GDPR使通行欧盟的资料保护规章一致,因此使欧洲以外的公司能够更容易地遵守这些规章;然而,其代价是严格的资料保护规定,且有着公司全球收益4%或两千万欧元(择高者)的高额罚款。

热点:保护人们数据隐私的GDPR是什么

在大数据和AI时代,互联网公司掌握着海量用户的完整数据,但人们对自己的数据却没有控制权。用欧盟司法专员维拉·朱洛娃的话说,“今天的个人数据,就如同(观看)人们在水族馆里裸泳一样。”不过,一项在5月25日正式生效的新条例将会带来改变。

《欧盟一般数据保护条例》(General Data Protection Regulation,GDPR),是由欧盟颁布的保护欧盟区内所有人数据隐私安全的法案。咨询公司埃森哲在一份报告中则直接将GDPR形容为“近二十年来数据隐私规则领域发生的最重要变化”。第一财经整理了报告中的部分内容。

GDPR将给全球高科技企业带来巨大影响。报告指出,这个条例适用于所有欧盟实体的数据,无论企业身在何地或其数据被放在什么平台。高科技公司存储、处理或交换任何欧盟公民的数据时,都必须符合GDPR。 报告介绍,GDPR与以往的隐私规定,有两点不同:

第一,GDPR要求责任共担。过去,只有收集和使用数据的数据拥有者需要对数据保护负责。如今,数据处理者(比如提供数据处理服务的云服务提供商等)也将要直接承担合规风险和义务。在数据保护上,数据供应链自上而下的每一方都会被问责。大多数企业尚未对此做好准备。

第二,不遵守GDPR的后果很严重。埃森哲指出,GDPR对获取和管理个人信息提出了新的、更严格的要求,增加了数据保护的强制性和责任性,同时,也把违规的处罚金额提高到2000万欧元或企业全球年营业额的4%(二者取较高值)。

小米首席架构师崔宝秋接受第一财经采访时说,GDPR对用户而言是好事,用户需要对自己的数据有一定的控制权,“任何一家公司如果要遵循隐私保护的原则,就应该在做任何产品之前,从用户的角度出发来设计产品。”他认为,违反了GDPR的企业有三种选择:要么退出欧洲市场;要么努力合规;还有就是承担被高额罚款的风险,“真正的选择就只有前两个。”

GDPR只是保护个人隐私的第一步

欧盟《通用数据保护条例》迫使人们就数据使用展开辩论。欧洲官僚完成了将数据监管转化为热门话题这一看似不可能的任务。

更新于2018年5月30日 06:13 英国《金融时报》 约翰•桑希尔

本周,欧洲任何一个有电子邮箱帐户的人都会收到众多组织发来的请求他们同意继续接收通信的邮件。有些顺便提醒了我们现在触手可及的信息有多么丰富。其他的读起来像来自被抛弃的恋人的哀怨信件。

这波电子邮件是由欧盟《通用数据保护条例》(General Data Protection Regulation,简称GDPR)上周五在28个成员国生效实施引发的。该法旨在让用户就他们的个人数据如何收集、存储和使用有更多的控制选择

对一些人来说,GDPR只不过带来了一次管理挫折。我收到的最能引起共鸣的电子邮件之一来自伦敦初创企业孵化器Second Home:“我们知道,这个时候在收件箱中看到‘GDPR’可能会促使你自己选择四个字母的单词……”

但毫无疑问,GDPR迫使人们就数据使用展开亟需的辩论。欧洲官僚完成了将数据监管转化为热门话题这一看似不可能的任务。在本月的某个时候,GDPR在谷歌(Google)搜索排名中甚至超过了歌手碧昂斯(Beyoncé)。

即使欧盟日益缺乏硬实力和经济实力,但它一直梦想成为规范方面的超级大国,让其监管法规成为全球性规则。有证据表明,这正是围绕GDPR发生的情况——鉴于世界其他地方缺乏成熟的数据法规。即使是实力强大的美国科技公司也不得不承认它的影响力——美国在这方面的监管较为宽松。

本周,微软(Microsoft)首席执行官萨提亚•纳德拉(Satya Nadella)在伦敦描述了他对我们的科技未来的展望。他说:“我们的基本信念是,隐私是一项人权。GDPR是一部非常强大的法律。我们将会确保合规。”

两个重要问题是,GDPR在实践中是否会让我们更安全?以及接下来会如何?

有一个思想流派认为,隐私只是过去一种古怪而暂时的现象,出现在19世纪末叶匿名盛行的城市社会。在那个世界里,陀思妥耶夫斯基(Dostoevsky)笔下用斧头杀人的疯狂凶手能够在圣彼得堡的街道上随意走动而无人认得出来。

一些技术人士认为,这个时代已经结束了,无论是好是坏(好的方面是就用斧头杀人的罪犯来说,坏的方面是就匿名而言)。早在1999年,太阳计算机系统公司(Sun Microsystems)首席执行官斯科特•麦克尼利(Scott McNealy)就说过,在数字社会中试图保护消费者隐私是徒劳的。他向一群记者表示:“无论如何你都没有隐私,别提它了。”

从这个观点来看,GDPR只不过是在九级大风中吹口哨而已。全世界在使用的连接设备很快将达到90亿台,从智能手机到汽车到数字助理,这些设备将泄露我们的每一个日常想法和愿望。再加上闭路电视摄像机、面部识别技术和卫星图像,我们任何人都几乎不可能保持匿名。

但这并不意味着实施GDPR的意图是不明智的。作为消费者,我们都应该更仔细地阅读我们的用户协议的条款和条件。我们应该立即删除那些过度侵入个人领域的应用程序和服务。我们应该切换到在保护我们的数据方面做得更好的服务。我们应该用我们的点击投票。

然而,第一代完全数字化的人看起来将会明白数据滥用的危险,并且似乎在取关Facebook等服务,他们认为这些服务过多暴露了他们的个人生活。

伦敦国王学院(King’s College London)讲师伊丽莎•菲尔比(Eliza Filby)就年轻一代撰写过大量文章,她说,千禧一代(1981年至1996年出生)与Z世代(1997年至2010年出生)之间正在出现明显差异。

她表示:“我与一个17岁的孩子交谈,他说:‘我意识到我的数字足迹是我的简历’,他们更关心数据并真正认真对待他们的隐私。”

更严格的监管机构和更聪明的消费者对于捍卫数据隐私至关重要。但鉴于挑战巨大,即使他们做出最大努力也不太可能足够保护隐私。现在需要做的是让我们的技术永远为用户着想,而不是偶尔对他们不利。

数据和隐私专家约翰•泰索姆(John Taysom)认为GDPR是让我们更安全的重要一步。但是,随着微软和苹果(Apple)等公司推动数据保护成为竞争优势的一个来源,更加重要的将是全球隐私运动发展壮大的方式。

隐私工程师的“圣杯”是在数据生成器和用户之间创建一层半渗透膜,从而允许从我们的数字足迹中得出一般推论,而不会泄露个人身份信息。

泰索姆说:“我们现在拥有的数据架构和计算速度,可以让我们在对运行性能产生可接受影响的情况下有意识地落实隐私(政策)。”

如果这种说法正确的话,那么GDPR最大的潜在益处将是使更安全的数据架构加快得到采用。所有那些烦人的电子邮件背后可能都有一个更宏伟的目的。

事实案例

中国意外成为亚洲数据保护的先行者

在欧洲推出《一般数据保护条例》之际,中国也推出了受其启发的《信息安全技术个人信息安全规范》,走在亚洲前列。

更新于2018年5月31日 11:38 英国《金融时报》 路易丝•卢卡斯 香港报道

中国出人意料地在制定数据隐私保护规定方面走在了亚洲的前列。中国的公司和政府部门都在致力于收集个人数据,以便为每个人创建一个“社会信用评分”。

律师们指出,上周五生效的欧盟《一般数据保护条例》(GDPR)已促使许多亚洲监管机构和公司做出回应,以确保这一有关数据处理、存储、使用和转让的严格新规不会危及全球数据流动。

“从某些方面看,中国是最直接接受GDPR的国家,不过是以非常中国的方式,”富而德律师事务所(Freshfields)的合伙人理查德•伯德(Richard Bird)说。

虽然中国要求本国公民的数据保存在境内,且并不以数据隐私保护著称——例如,即将建成的社会信用体系是以个人数据和行为为基础——但中国却在本月推出了受GDPR影响的非约束性规定。

“仔细研读这一规定,你可以清楚地看出,规定的起草参照了GDPR,”霍金路伟国际律师事务所(Hogan Lovells)驻香港的合伙人马克•帕森斯(Mark Parsons)说。“我们认为这一规定会被严肃认真地对待。”

伯德也同意帕森斯的说法。“规定的起草人说,GDPR是中国新出台规定的主要灵感来源,并允许这一评论见报,”他说。不过,这些规定的严苛程度不及GDPR,也通不过欧洲更为严格的要求。

然而,在接受GDPR方面,中国企业的行动滞后于本国政府和美国企业。一位驻北京的律师表示,她在欧洲、美国和日本的同事说,那里的公司都已“聘请了律师”……但在中国,除少数几家大公司之外,大部分中国公司还没有真正开始行动。

亚太地区只有一个国家——新西兰——被列入了欧洲现有的数据可以自由出口的国家白名单。

“由于GDPR,该地区关于改善数据保护的立法势头非常强劲,”帕森斯说。“人们正在审视他们的国家法律,并表示:‘欧洲正在向前迈进,是否有种感觉我们可能被抛在后面?’”

中国的规定、以及印度于去年12月在一份长篇白皮书中发布的一系列类似指引,与很多东南亚国家(包括泰国和印尼)在数据保护方面缺乏进展形成鲜明的对照。多年来印尼加强数据保护的努力一直处于计划中。

根据新加坡个人资料保护委员会(Personal Data Protection Commission)的说法,即使是被普遍视为东盟最发达经济体的新加坡,也要到2019年才会将其拟议的《个人资料保护法令》修订草案提交议会讨论。律师们表示,从某些方面看,新加坡的修订草案是放松而不是收紧个人资料保护机制,要求人们默认同意允许机构存储他们的数据,而不是采用GDPR规定的明示同意。

Facebook数据门的两点启示

巴菲特曾说:“既然人必须从错误中学习,那么,最好的就是从别人的错误中学习”。美国社交网站Facebook泄露用户数据,导致公司多年建立的诚信体系几乎崩溃,股价也大幅下跌,这一重大错误的背后又有怎样的启示呢?中国人民大学金融科技与互联网安全研究中心副主任许可,在FT中文网写文章分享了他的思考。

首先,对于运营者而言,要学会从免费到付费的转变。

《连线》杂志主编凯文·凯利在《新经济,新规则》一书中提到:“任何能被复制的东西,价格都将趋近于零或者免费。”受这一规则的影响,许多平台的运营策略都是将免费作为定价的终极目标,由于不能向用户收费,运营者只能采用“羊毛出在狗身上”的方法,通过吸引广告投放来赚钱,“免费+广告”的模式也就成为了Facebook等平台的主要商业模式。许可认为,Facebook数据门事件恰恰让运营者有机会重构这一商业模式。运营者完全可以借助用户对个人信息泄露的担忧,在“普遍免费”的模式之外,引入“个别收费”制度。在“免费模式”下,用户的个人信息享有统一的法定保障,运营者可以在遵守法律的前提下对外分享;而在“付费模式”下,用户只要支付一定费用就可以享有定制化和高标准的合同,保障个人信息一般不被收集,更不能用于广告或其他目的。通过观察用户的选择,运营者就能把“对个人信息迟钝的人”和“对个人信息敏感的人”区分开,从而更好地维系用户关系。

其次,对于监管者的启示,就是要学会从标准化管理转向基于风险的管理。一直以来,对个人信息的保护普遍都是通过标准化分类来进行的。在美国,用户信息被分为“一般信息”和“敏感信息”,种族、政治观点、健康数据等属于“敏感信息”,收集和使用受到严格限制,而其他的“一般信息“则没有这些限制。但这次的数据门事件中,剑桥分析公司正是通过收集和处理Facebook用户的城市、兴趣、点赞等“一般信息”,从而分析得出用户的“政治观点”这一“敏感信息”的。许可认为,有了人工智能和大数据等新技术,当前的数据分析已经超越了监管者对个人信息的分类和想象。因此,监管机构需要吸取教训,从立足于标准化转向立足于具体场景和相应风险,进行差异化监管。

网络晒娃,警惕安全隐患

《中华人民共和国未成年保护法》
《中华人民共和国治安管理处罚法》

基本概念

隐私——是指个人的与公共利益、群体利益无关的不愿他人知道或他人不便知道的信息,不愿他人干涉或他人不便干涉的个人私事,以及不愿他人侵入或他人不便侵入的个人领域。

隐私权主要包括:未经公民许可,不得公开其姓名,肖像,住址和电话号码;不得非法侵入,搜查他人住宅,或以其他方式破坏他人居住安宁;不得非法跟踪他人,监视他人住所,安装窃听设备,私拍他人私生活镜头,窥探他人室内情况;不得非法刺探他人财产状况或未经本人允许公开其财产状况;不得私拆他人信件,偷看他人日记,刺探他人私人文件内容,以及将它们公开;不得泄露公民的个人资料或公之于众或扩大公开范围;不得收集公民不愿向社会公开的纯属个人的情况等。




大卫·布鲁克斯:拯救社交媒体的3个建议

在美国,人们对社交平台的不满正在上升。新媒体Axios与网络调查公司SurveyMonkey在一项调查中发现,与五个月前相比,Facebook、Twitter和YouTube在美国的受欢迎程度明显下降。在《纽约时报》专栏作家大卫·布鲁克斯(David Brooks)看来,如今社交网络的主要问题是,它们已经太过庞大,被困在一个以市场导向的体系中,被迫继续扩张,“Facebook无法停止将我们的个人数据变现,就像星巴克无法停止销售咖啡一样——它是这个企业的核心”。大卫·布鲁克斯在一篇专栏文章中,提出了三个拯救社交媒体的建议。微信公众号“全媒派”编译了这篇文章。

第一,把权力交给用户。布鲁克斯介绍了《新势力》(New Power)书里的观点。这本书的作者认为,社交媒体如今有两种势力在斗争,一种是集中的、自上而下的机构所代表的“旧势力”,另一种是分散的、自下而上的运动所代表的“新势力”。Facebook就是一个为旧势力服务的新势力机构。它收获了数十亿人的创造性成果,把自己变成了一个集中的巨大企业,但大多数用户并没有获得自己创造的经济价值所产生的任何利益,对平台的治理也没有任何发言权。所以,社交网络应由其用户来运营,“如果你为产生如此庞大社会影响力的东西贡献了经济价值,那么你应该分享你创造的价值所产生的利益。

第二,建立一个社交联盟。这个办法就是让社交网络变得更像电子邮件,独立的应用之间就可以通过共同的协议无缝连接。布鲁克斯说,这样的联盟看上去就像是聚在一起的独立节点,它们不必共享一套共用的政策,每个节点都设计出适合自己的规则,如果一个节点的不良影响太大,可将其移除,而不用关闭整个网络。

第三,为社交图谱设置有效期。社交图谱(Open Graph)是Facebook创造出来的一个术语,指的是我们在社交平台上创建的数字连接网络,反映出我们通过各种途径认识的人。布鲁克斯认为,人们积累多年的社交图谱,不仅杂乱,还会被恶意行为利用,“这些平台巨大的规模和影响力让它们成了坏家伙们无法抗拒的蜜罐”。他建议社交网络应给用户提供自动“自我清理”的选项,定期清理不再使用的个人资料、不再互动的朋友和粉丝,以及不再需要存储的数据。这种做法显然不利于大部分社交网络的商业模式,但“它可以形成新的、健康的隐私和数据卫生规范;在社交网络变旧、变拥挤的过程中防止问题堆积。它甚至还能重新带回社交网络创立之初的一些魔力,那个时候,一切都还新鲜迷人,没有这么可怕。”

新研究:信息时代的信息不对称

互联网带来的一大好处是,通过制造出海量信息来缩小信息不对称。比如,你在选择到哪家餐馆吃饭时,可以通过查看其他用户的评论,帮助自己做出决定。如果很多人都说某家餐馆很难吃服务又差,你显然就不会选择它了。但是,这种信息不对称并不能完全被消除,甚至可能会制造出新的信息不对称。

《金融时报》发表的一篇文章,介绍了诺贝尔经济学奖得主约瑟夫·斯蒂格利茨最新发表的一篇论文。斯蒂格利茨在这篇论文中的观点是:完全放任不管的信息市场,并不会造福所有人,反而可能带来市场扭曲,制约创新并损害大众的利益。

斯蒂格利茨的论点是,完美的、充分的信息本身是无法实现的。为了牟利去隐藏和扣住数据的动机,会不断制造出信息不对称。斯蒂格利茨举了金融行业和日用消费品行业的例子。金融行业以追求创新闻名,但是在现实世界中,金融创新增加的复杂性往往强化了信息不对称,让消费者更难以理解,也给金融机构带来更多利润。比如造成2008年金融危机的次级贷款产品,就复杂到很多金融行业的人也难以弄懂。在日用消费品行业,很多人会认为,用户可以借助其他用户的评论来更好地获得产品和服务的信息。但是,“缺乏时间对这些信息的可靠性进行研究、评估或验证意味着,消费者可能实际上并未获得力量。”你没有时间去验证这些评论是水军发的,还是真的是体验过的消费者写下来的。

而且,“消费者越是依靠第三方代表他们过滤、分类或分级这些信息,信息不对称的规模就越大。”这种第三方在美国的典型例子就是谷歌和Facebook。只有在第三方可以利用信息优势获取利益的情况下,它们才有动机去为用户梳理各个选项。而这也就意味着它们可以利用信息优势来对付每一个用户。斯蒂格利茨还认为,当前的第三方信息平台拥有访问海量数据的特权,这种优势很难复制,因此也让竞争变得困难。斯蒂格利茨提出的纠正措施是,“在数据带给个人的回报远超对社会的回报时,依靠政府进行干预。”

为什么必须保护Robots协议?

林华 2014-08-11 07:01

一、从Spider程序到Robots协议

即使不是工程狮,关注互联网的人也很少不知道Robots协议。百度和360从2012年起展开的一场屏蔽与反屏蔽战把原本程序猿才知道的Robots协议变成媒体热词。北京一中院8月7日对3B搜索不正当竞争纠纷案(3B案)刚刚作出的一审判决让Robots协议在新闻里又火了一把。Robots协议的法律地位或法律效力问题是3B案一系列法律问题中最大的争点,分析这个问题就必须先了解Robots协议的内容和意义。

Robots协议和搜索引擎的爬虫程序(Spider)其实是一对同胞兄弟。

1994年之前,AltaVista、Infoseek等代表的搜索引擎在互联网可以通过Spider直入网站管理后台,把所有网页信息系数收录。除了涉及隐私外,爬虫程序的反复收录在20年前对网站带宽也是不小的负载。荷兰工程师Martin Koster深感互联网丛林之乱,提出通过设立名为Robots规范的网站访问限制政策(Access Policy)方式在整个互联网统一解决Spider无所不在所带来的威胁。Robots协议在技术实现上并不复杂,网站管理员只要按规则在网站根目录下创建Robots.txt的文本文件就可以禁止搜索爬虫收录指定网页内容。从早期的AltaVista、Infoseek到后来居上的Google 、Yahoo和美国以外的Baidu等各大搜索引擎都群体接受了Robots协议,避免和内容网站为Spider陷入一场危机。

二、Robots规则可以受法律保护

反对3B案一审判决的理由集中对Robots协议法律效力的否定上。Robots协议并不是法律,也没有被IETF、ITU和W3C等国际标准组织接纳。但国际标准也不是法律,逻辑上成为国际标准不等于自动享有法律保护。法律和规则并不是同一个概念,法律属于规则,而规则远远大于法律。百度是以不正当竞争为案由起诉360,反不正当竞争法本身就是通过列举加兜底的方式,在少数明确规定的违法行为外以原则性规定了根据不正当竞争行为的判断标准。司法者的权限并不局限于寻找包含Robots协议内容的具体法条,而是可以根据实际案情裁量违反Robots协议是否就违反了反不正当竞争法第二条对经营者应当遵循自愿、平等、公平、诚实信用和公认商业道德的强制性规定。认定违法并不需要将Robots协议上升为法律作为前提,违反规则就可能导致违反法律的结果。况且3B案发生背景之一,是被告奇虎360本身就通过签署《互联网搜索引擎服务自律公约》承诺“遵守机器人协议(Robots协议)”和“限制搜索引擎抓取应有行业公认合理的正当理由,不利用机器人协议进行不正当竞争行为”。360在明确承认Robots协议约束力后又规避了协议,既是违法又构成违约。

法律之外的规则受法律承认和保护是普遍现象。

合同不是法律而是当事人自由达成的一致意思表示,但依法成立的合同当然受法律保护。《合同法》第八条即规定:“依法成立的合同,对当事人具有法律约束力。…依法成立的合同,受法律保护。”被互联网广泛采用的Robots协议属于行业惯例,仅《合同法》就在第二十二条、第二十六条、第六十条、第六十一条、第九十二条等九个条款承认交易习惯的效力,如第九十二条就规定:“合同的权利义务终止后,当事人应当遵循诚实信用原则,根据交易习惯履行通知、协助、保密等义务”。《物权法》第八十五条也规定:“法律、法规对处理相邻关系有规定的,依照其规定;法律、法规没有规定的,可以按照当地习惯”。根据法理及以上法条的规定,惯例完全有可能获得法定效力及执行力。3B案判决认可Robots协议的效力是法官依职权对Robots协议合法性进行认知的过程,并不存在法官造法或逾越职权创造新权利。

百度在360推出网络搜索后迅速启用Robots协议,在百度旗下的知道、贴吧、文库、百科等产品屏蔽了360爬虫。百度屏蔽360的产品基本属于用户创造内容(UGC)类型的上传平台。百度对平台内容并不直接享有著作权,360因此质疑百度无权拒绝收录。但UGC平台身份也无碍百度根据《著作权法》第十四条对相关内容享有作为汇编者的权利。在百度主张反不正当竞争保护情况下,举证责任更简化到证明原告合法投入因被告竞争行为受到实际损害及被告竞争行为违反诚实信用或商业道德,而360强行利用百度网站内容已构成搭便车的不正当竞争行为。

三、互联网拒绝丛林法则

360在3B案中以百度滥用Robots协议作为抗辩,但换个角度看真正容易被滥用的倒是Spider程序。互联与分享是网络的基本性格,而信息的多元化也决定了很多情况下网络传播必须受到控制。不受Robots协议限制的Spider程序必然使互联网陷入严重混乱,网站后台隐私无法保护,网页更新的旧信息必须完全删除而不能仅仅屏蔽,音乐、视频等内容的收费盈利模式遭到毁灭打击。互联网经过长期博弈逐步摆脱无序状态,难道只因搜索爬虫失控又将回到比拼技术暴力的暗黑丛林?这种情景绝非法治下的互联网可以接受的。

Robots协议自成立以来在全球受到严格遵守,利用Robots协议屏蔽搜索的案例举不胜举。Facebook和Twitter长期屏蔽谷歌,后者除了发牢骚不敢采取任何规避手段;默多克的新闻集团一度全面屏蔽谷歌,谷歌一直忍到……忍到默多克自己忍不住投降;搜索屏蔽360的除了百度各网站还有腾讯的QQ空间,更有意思的是QQ空间屏蔽360爬虫却在2012年后对百度和Google开放,360甚至都没有为此指责腾讯歧视;腾讯尽管向百度开放QQ空间却将腾讯微博的内容屏蔽至今,新浪微博也一度加入屏蔽百度的队列;电商领域可能是互相屏蔽的高地,淘宝从2008年起一直屏蔽百度搜索,京东、苏宁、当当网等也屏蔽了阿里旗下一淘搜索的爬虫。

各国法院承认Robots协议效力的判决同样不胜枚举。美国联邦法院早在2000年就在eBay诉BE(Bedder’s Edge)案 中就通过禁令支持了eBay屏蔽BE爬虫的主张。内华达法院2006年审理的Field v. Google 案 也明确认可Robots协议是有效保护网站权利的通行标准。北京一中院同样于2006年在审理著名的浙江泛亚诉百度著作权侵权案 判决书中认定原告有权利用设置Robots.txt文件拒绝百度收录。上述通过Robots协议屏蔽搜索爬虫的互联网实例和认可Robots协议法律效力的中外法院判决,都证明Robots协议的效力并不是在3B案中才成为争点,也证明Robots协议在产业实践和司法实践中都一直得到认可和尊重。

金杜知识产权主题月 | 数据之争:网络爬虫涉及的法律问题(一)

瞿淼 合伙人 上海 电话 +86 21 2412 6000

在大数据时代,除直接通过用户采集之外,另一大数据来源就是使用网络爬虫采集公开信息。爬虫的使用到了何种程度?有业内人士称,互联网50%以上,甚至更高的流量其实都是爬虫贡献的。对某些热门网页,爬虫的访问量甚至可能占据了该页面总访问量的90%以上。[1]

目前我国还没有专门针对爬虫技术的法律或者规范。一般而言,爬虫程序只是在更高效地收集信息,因此从技术中立的角度而言,爬虫技术本身并无违法违规之处。但是,随着数据产业的发展,数据爬取犹如资源争夺战一般越发激烈白热。数据爬取带来的各种问题和顾虑日渐增加。而“爬”与“反爬”的技术对抗成为军备竞赛一般永无休止,成为所有行业主体的痛。而爬与反爬之间的对抗赛,还存在无法避免的误伤率,导致正常用户的困扰。

数据爬取行为的界限应当如何确定?应当注意哪些问题?除了技术的解决途径,是否存在或应当存在法律层面的解决方案?这些需要技术与法律人群的深度沟通。

网络爬虫是个啥?
网络爬虫是一种按照一定的规则,自动地抓取互联网信息的程序或者脚本。[2] 可以理解为一个自动访问网页并进行相关操作的小机器人。本质上就是实现高效、自动地进行网络信息的读取、收集等行为。在大多数情况下,爬虫技术的本质就是通过代码实现对人工访问操作的自动化操作。但是,由于爬虫系通过解析代码的方式工作,因此爬虫还有可能访问到人工访问不会访问、或者无法访问的内容。

最早的爬虫程序是1994年休斯敦大学的Eichmann开发的RBSE。著名的谷歌公司使用的Google Crawler是当时还是斯坦福大学生Brin和Page在1998年用Python开发的。[3]

网络爬虫有啥用?
网络爬虫的应用场景很多,例如(1)搜索引擎都会使用爬虫程序;(2)抓取网络公开数据,建立某种专业数据库,例如股票交易数据库、外汇数据库、商户信息数据库等;(3)用于自身分析及经营行为,如各电商行业之间的比价;(4)建立数字图书馆;(5)其它可以进行数据利用的无限想象空间。

网络爬虫的行为举止
通常来说,一个网络爬虫的行为流程可以分解为几个步骤:(1)采集信息;(2)数据存储;(3)信息提取。

如同人类一样,爬虫根据其设计者的意志,会有不同的特点和行为举止。例如通过不同的算法设定,有的爬虫是爬得宽但是不深,或者反之,甚至有效抓取暗网;有的是主题爬虫,只关注某些内容;有的擅长爬取文字,有的擅长爬取视频或图片;有的长于爬取速度,有的长于准确,等等。

此外,还有的爬虫比较有礼貌,去爬取时会自报姓名(我是哪家的小爬),遵守网站主人的“家规”;有的野蛮粗鲁,生硬闯入,并且不遵守网站的规则。

网络爬虫造成的问题
网络爬虫造成的最主要问题和顾虑如下:

1. 技术方面,过于野蛮的爬虫可能造成网站负荷过大(尤其多线程爬虫),从而导致网站瘫痪、不能访问等。

2. 内容方面,网络爬虫可能导致网站所有人丧失对自己网站数据的控制权,例如有的数据是网站所有人不愿被他人获取的;或者如果网站数据来源付出了较大代价,却可能因为网络爬虫轻易大量被他人获取;

3. 在结果方面,网络爬虫还可能造成他人数据被不正当地复制、使用。网站数据如果涉及他人个人信息,还可能因网络爬虫导致数据大量被他人未经数据主体同意而获取,从而伤害其利益。

目前的网络爬虫行为规则是啥?
对爬虫来说,目前的网络世界仍类似WILD WEST,处于自由发展、技术为王、规则自定的状态。这很大程度源于网络行为的匿名性和不可追踪性。尽管,程序和机器的行为目前仍然是人类行为的结果、受人类意志的控制、并服从于人类的目的。但相关的行为结果和责任却难以归结于操控其的人类主体。

但是,如果我们回忆一下,在过去网站人类使用者也曾经经历过身份难以被识别、法律责任难以追究的历史。但是,随着实名制的强制推行,互联网渐渐不再是匿名黑箱,而是能够在很多情形下实现身份识别和法律追责。所以,我们认为,即便在目前爬虫所有人身份难以被精确识别的情况下,仍然应当认识到爬虫的规则界限及法律风险。

使用爬虫的法律风险
如上所说,爬虫的行为举止各不相同。尽管目前没有非常直接的规定,但我们已经可以从现有的法律规定及司法案例中推导出部分规范和原则。

(一) 不遵守robots协议的法律风险
Robots协议是技术界为了解决爬取方和被爬取方之间通过计算机程序完成关于爬取的意愿沟通而产生的一种机制。另一种类似的机制为设置Robots Meta标签。[4]

根据中国互联网协会《互联网搜索引擎服务自律公约》第七条的定义,机器人协议(robots协议)是指互联网站所有者使用robots.txt文件,向网络机器人(Web robots)给出网站指令的协议。具体而言,robots协议是网站所有者通过位于置于网站根目录下的文本文件robots.txt,提示网络机器人哪些网页不应被抓取,哪些网页可以抓取。

该文件中主要包括以下几个语句:(1)User-agent:用于指明搜索引擎网络机器人的名字;(2)Disallow:用于指明不希望被访问或抓取的网页或目录;(3)Allow:用于表示允许网络机器人抓取的范围。在实践中,大多数网站在设置robots协议时,主要使用的都是“Disallow:”语句,较少使用“Allow:”语句。

关于Robots协议的法律属性,我国目前法律下并没有明确规定,但《互联网搜索引擎服务自律公约》第七条规定,“遵循国际通行的行业惯例与商业规则,遵守机器人协议(robots协议)”。第八条则规定“互联网站所有者设置机器人协议应遵循公平、开放和促进信息自由流动的原则,限制搜索引擎抓取应有行业公认合理的正当理由,不利用机器人协议进行不正当竞争行为,积极营造鼓励创新、公平公正的良性竞争环境。”

虽然《互联网搜索引擎服务自律公约》仅适用于中国互联网协会会员单位和自愿加入《中国互联网行业自律公约》的互联网从业单位,但在司法实践中,robots协议已经被认定构成互联网行业搜索领域内工人的商业道德:北京市第一中级人民法院在百度诉奇虎不正当竞争案件中,将为行业内所公认的Robots协议认定为互联网行业搜索领域内公认的商业道德。法院在判决中指出“在被告推出搜索引擎伊始,其网站亦刊载了Robots协议的内容和设置方法,说明包括被告在内的整个互联网行业对于Robots协议都是认可和遵守的。其应当被认定为行业内的通行规则,应当被认定为搜索引擎行业内公认的、应当被遵守的商业道德”。

因此,无视网站设置的robots协议而随意抓取网站内容的行为将涉嫌构成对《反不正当竞争法》的第二条的违反,即违反诚实信用原则和商业道德的不正当竞争行为。

至于robots协议是否构成网站运营者与爬虫控制者之间有约束力的合同,目前尚未看到有关于此的司法认定。这需要一个细致的法律分析的过来加以论证,此不赘述。

(二) 强行突破网站设置的技术措施的法律风险
如前所述说,由于爬虫的批量访问会给网站带来巨大的压力和负担,因此许多网站经营者会采取技术手段,以阻止爬虫批量获取自己网站信息。常见的技术措施包括:(1)通过UA 识别爬虫、(2)设置IP访问频率,如果超过一定频率,弹出验证码(3)通过并发识别爬虫;(4)请求的时间窗口过滤统计;(5)限制单个ip/api token的访问量;(6)识别出合法爬虫(7)蜜罐资源等。

虽然存在多种不同的技术,但该等技术本质上都是网站运营者采取的阻止爬虫批量访问和抓取信息的技术手段,因此从法律上并没有实质性区别。而针对该等技术手段,爬虫开发者可以通过优化自己的代码、使用IP池等多种方式规避上述技术措施,实现对网站信息的批量抓取和复制。

如前所述,由于网络爬虫会根据特定策略尽可能多的访问页面,因而爬虫的使用将占用被访问网站的网络带宽并增加网络服务器的处理开销,甚至无法正常提供服务。另一方面,虽然网站上的信息是公开的,但在没有爬虫的情况下,一般经营者较难批量复制网站上的信息,例如抓取竞争对手的价格以进行比价,或者实时调整自己的价格。而在使用爬虫技术的情况,则能够实现上述模式。

对此,我们认为《反不正当竞争法》第十二条第二款规定有可能得以适用。即,经营者不得利用技术手段,通过影响用户选择或者其他方式,实施列妨碍、破坏其他经营者合法提供的网络产品或者服务正常运行的行为:…(四)其他妨碍、破坏其他经营者合法提供的网络产品或者服务正常运行的行为。

虽然上述规定仅仅是一个《反不正当竞争法》网络条款中的兜底条款。但是,其体现了法律禁止通过技术手段进行对他人产品的非法干扰的总体原则。因此,如果网站运营者已经采取了一定的反爬虫措施,而爬虫控制者基于经营目的、强行突破网站运营者采取的反爬虫技术措施,并客观导致被抓取网站的正常运行,则大可能构成上述规定所规制的不正当竞争行为。当然,此种情形下,鉴别实施者身份仍然是追责的巨大障碍。

此外,强行突破某些特定被爬方的技术措施,还可能构成刑事犯罪行为。《刑法》第二百八十五条规定,违反规定侵入国家事务、国防建设、尖端科学技术领域的计算机信息系统的,不论情节严重与否,构成非法侵入计算机信息系统罪。《刑法》第二百八十六条还规定,违反国家规定,对计算机信息系统功能进行删除、修改、增加、干扰,造成计算机信息系统不能正常运行,后果严重的,构成犯罪,处五年以下有期徒刑或者拘役;后果特别严重的,处五年以上有期徒刑。而违反国家规定,对计算机信息系统中存储、处理或者传输的数据和应用程序进行删除、修改、增加的操作,后果严重的,也构成犯罪,依照前款的规定处罚。

(三) 爬虫抓取特定类型的信息的法律风险
由于爬虫系通过解析代码的方式工作,并且爬虫控制者有可能会为规避网站经营者设置的反爬虫措施而采取伪装行为,因此通过爬虫,爬虫控制者将有可能访问和抓取到一般用户无法解除到的内容。正因为如此,除采用爬虫技术实施数据抓取本身的风险外,爬虫控制者还可能由于抓取到某些受法律保护的信息,而构成违法、违规,甚至刑事犯罪的风险。

1.爬虫抓取的信息属于著作权法保护的作品
无论是网络上的文章、图片、用户评论,甚至网站自身的数据库,都有可能在具备独创性的情况下构成著作权法保护的作品。对于该等信息的抓取和使用是否构成著作权侵权,笔者认为:

1) 就网页访问行为而言,由于爬虫本身仅仅是对人类访问行为的模仿,因此就访问行为而言,对于那些人工访问本身已经可以访问的信息,访问行为并不会构成侵权。但是,如果被抓取的网站本身设置了某些技术措施以保证只有特定用户才能接触该等信息,而爬虫突破了该等限制,则爬虫的访问行为有可能涉嫌破坏技术措施的违法或者侵权行为;

2) 就数据保存行为而言,从著作权法的角度来讲,抓取行为的本质上是对信息的复制,因此该等行为有可能侵犯著作权人的复制权。当然,我国对于临时复制的行为持宽容态度。如果该等信息的保存属于

3) 就数据提取和使用行为而言,如果爬虫控制者抓取信息后在自己的网站上公开传播抓取到的信息,则还有可能进一步侵犯信息网络传播权。

  1. 爬虫抓取的信息属于商业秘密
    虽然网络上公开的信息较难构成商业秘密,但由于网络上某些信息可以通过采取技术措施使得仅有特定的用户可以接触,因此网络上的信息仍有可能具备商业秘密要求的秘密性和保密性,构成商业秘密的可能。

根据《反不正当竞争法》第九条,以不正当手段获取他人商业秘密的行为即已经构成侵犯商业秘密。而后续如果进一步利用,或者公开该等信息,则构成对他人商业秘密的披露和使用,同样构成对权利人的商业秘密的侵犯。

因此,如果爬虫控制者在抓取信息的过程中有意地规避了网站经营者设置的保护措施,接触、保存甚至披露了一般用户原本无法访问的信息,而该等信息又构成商业秘密,则爬虫控制者的该等行为存在侵犯他人商业秘密的可能。

  1. 爬虫抓取的信息属于用户的个人隐私
    在微博、微信、博客等社交平台,用户可以上传自身的信息后设置访问限制,或者使用加密功能只有自己可以访问,因此,该等信息仍有可能属于用户的个人隐私。因此,如果爬虫控制者绕开上述限制,而抓取用户的该等隐私,又或者在抓取后公开传播该等信息,造成对用户的损害后果的,则有可能侵犯了相关用户的隐私权。

  2. 爬虫抓取的信息属于反不正当竞争保护的数据
    在大众点评诉百度不正当竞争案件、以及新浪微博诉脉脉不正当竞争等案件中,法院都认定被告未经许可抓取、使用原告网站中的数据的行为,违反了诚实信用原则及公认的道德,损害了互联网的市场竞争秩序,损害了原告的竞争优势,从而构成不正当竞争。

笔者认为,该等案件的共性在于原告网站中的数据系由用户生成,且该等数据和内容系原告网站的主要竞争力来源。因此,如果抓取大众点评、新浪微博、知乎等UGC模式的网站上用户发布的信息,并在自己的产品或者服务中发布、使用该等信息,则有较大的风险构成不正当竞争。

  1. 爬虫抓取的信息属于用户的个人信息
    根据《民法总则》第111条任何组织和个人需要获取他人个人信息的,应当依法取得并确保信息安全。不得非法收集、使用、加工、传输他人个人信息;《网络安全法》第四十四条 任何个人和组织不得窃取或者以其他非法方式获取个人信息。因此,如果爬虫在未经用户同意的情况下大量抓取用户的个人信息,则有可能构成非法收集个人信息的违法行为。

当然,这里涉及到两个层次的个人信息。对于用户自行公开发布的个人信息(例如在微薄上自行公开的邮箱、电话号码等),用户的自愿公开行为是否可以被认定为获得了用户的同意、从而可以任意抓取仍存在疑问;而对于用户不愿公开发布的非公开个人信息,其抓取行为则有很高可能性被认为是非法行为。

此外,更为严重的是,如果涉及到个人信息,不仅抓取行为本身具有很大法律风险。其后续行为也可能构成违法犯罪。

我国《刑法》修正案(九)中将刑法第二百五十三条进行了修订,明确规定违反国家有关规定,向他人出售或者提供公民个人信息,情节严重的,构成犯罪;在未经用户许可的情况下,非法获取用户的个人信息,情节严重的也将构成“侵犯公民个人信息罪”。

根据《最高人民法院 最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》第五条规定,对“情节严重”的解释,(1)非法获取、出售或者提供行踪轨迹信息、通信内容、征信信息、财产信息五十条以上的;(2)非法获取、出售或者提供住宿信息、通信记录、健康生理信息、交易信息等其他可能影响人身、财产安全的公民个人信息五百条以上的;(3)非法获取、出售或者提供第三项、第四项规定以外的公民个人信息五千条以上的便构成“侵犯公民个人信息罪”所要求的“情节严重”。

此外,未经被收集者同意,即使是将合法收集的公民个人信息向他人提供的,也属于刑法第二百五十三条之一规定的“提供公民个人信息”,可能构成犯罪。

结语:如何避免爬虫带来的法律风险?
如前所述,使用爬虫技术可能的法律风险主要来自几方面:(1)违反被爬取方的意愿,例如规避网站设置的反爬虫措施、强行突破其反爬措施;(2)爬虫的使用造成了干扰了被访问网站正常运行的实际后果;(3)爬虫抓取到受法律保护的特定类型的信息。其中,第(3)类风险主要来自于通过规避反爬虫措施抓取到了互联网上未被公开的信息。

基于此,笔者认为,为规避使用爬虫技术带来的风险,爬虫控制者在使用爬虫时应:(1)严格遵守网站设置的robots协议;(2)在规避反爬虫措施的同时,需要优化自己的代码,避免干扰被访问网站的正常运行;(3)在设置抓取策略时,应注意编码抓取视频、音乐等可能构成作品的数据,或者针对某些特定网站批量抓取其中的用户生成内容;(4)在使用、传播抓取到的信息时,应审查所抓取的内容,如发现属于用户的个人信息、隐私或者他人的商业秘密的,应及时停止并删除。

当然,现实中的“爬”与“反爬”行为情况要复杂的多,难以通过简单的原则全面覆盖。还需要针对不同的具体情况具体进行分析。但是,认识到网络社会仍如同现实社会,需要遵从一定的行为规范,这一点是非常必要和重要的。

[1] 见崔广宇《爬虫与反爬虫:一个很不阳光的行业!一文揭秘那些你不知道的套路》,http://www.sohu.com/a/217594662_185201 http://www.sohu.com/a/217594662_185201
[2] https://baike.baidu.com/item/%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB/5162711?fr=aladdin
[3] 见罗刚《网络爬虫全解析:技术、原理与实践》,电子工业出版社,第65-66页。
[4] 见罗刚《网络爬虫全解析:技术、原理与实践》,电子工业出版社,第45页。

参考资料

经验丰富、注重实效的数据保护律师

经验丰富、注重实效的数据保护律师

信息是现代企业的战略性资产,如何妥善地管理信息是跨领域、跨地域组织的头等挑战。在数据保护立法和监管不断加强的今天,您可以依靠我们全方位服务的团队帮助您管理隐私与数据保护的风险问题。

从社交网络、消费者信息在线存储的兴起,到维基解密引发的广泛传播,侵犯隐私的事件日益增多,而其中潜藏着重大的法律、商业和声誉风险。

同时,企业还面临着力度前所未有的隐私合规执法和不断变化的国际法律法规。

让您始终占据数据保护先机

数据保护和隐私的责任与披露和公平处理义务之间的平衡,是我们许多客户每日关注的问题。确保您始终掌控合规风险、避免不利后果,以及尽可能消除对您商业运营的干扰,是我们就数据保护法提供专业法律意见的重要组成部分。

由于我们投入大量时间创造实用性的核对清单,我们因此能够提供数据保护审核服务以评估您的合规水平。我们能发现任何需要采取补救措施的领域,并指出改善合规状况应采取的实际步骤。

就信息获取、使用和传输方式蕴含的风险,金杜律师事务所为信贷提供者、政府部门和顶级商业组织提供法律意见。我们尤其就下列领域提供法律意见:

制订隐私合规计划
详尽的合同和交易审查、隐私审核、合规体系、合同条款的起草和谈判
向监管者提交文件
参与隐私权立法,回应侵害隐私的投诉、决议请求、隐私声明、同意和政策
经许可或未经许可获取数据
选择进入或选择退出(Opt Ins, Opt Outs)
跨法域数据传输
安全港原则和示范条款
数据访问请求
信息自由相关事宜。

我们在该等领域的经验包括为St George Bank, General Electric, AMP Group, Telstra和the Data Advantage Group就信贷提供者体制的合规事宜提供法律意见。除了职业惩戒程序、终止履职、政策制定、限制性协议等方面,数据保护事宜也是我们向Lion Capital提供的法律意见中的一部分。

我们在数据法律保护的其他方面的经验还包括:

代理Activision Blizzard Advice的在线销售和游戏项目(包括电子商务、电子货币和支付服务的法规、许可、反不正当竞争、知识产权和数据保护事宜)
代理一家全球娱乐公司的在线平台(电子商务、条款和条件、数据保护、反不正当竞争和青少年保护)
代理多种联名卡的隐私保护,包括Telstra/ANZ、Telstra/ANZ/Qantas和Woolworths Ezy Banking
代理Lion Nathan就资助人身份隐私和保密义务提供法律意见
为一家首席电信公司的隐私和通讯截取事宜提供法律意见,包括制定隐私保护政策、为产品和营销提供隐私保护方面的法律意见,以及开展隐私权保护培训
审查一家大型金融机构的商业计划书,包括就隐私和数据安全的法律要求/风险提供法律意见、参与其证券化项目中有关隐私和保密相关条款的起草和谈判。

罗辑思维:致终将逝去的隐私 63

欢迎各位到《罗辑思维》捧场。前不久我去拜见了一位长者,我很尊敬的一位老同志。老同志了解了一下这一年我在干什么,《罗辑思维》不错,很有价值,但是好像不怎么挣钱。我说确实不怎么挣钱,您给划条道呗。

哎呀,老人家就说,说这个生意这个事,跟你们平常做一个普通事业不一样。生意讲究的是两个开关,一个叫恐惧,一个叫贪婪。你只有把这两个东西打开,才能挣大钱,像你这种事挣不了大钱的。我说是是是,然后老人家又跟我讲,他说其实分析人类社会的很多现象,都可以放在这个框架当中分析,就是恐惧和贪婪。

比方说,现代社会的人为什么生活得很纠结呢?或者幸福感不高呢?其实,他的生活品质比古时候人要强太多了,为什么?就是因为恐惧和贪婪这两个东西都变得非常强烈,而且相互之间张力变得非常之大,因为恐惧和贪婪发生在同一个情境当中。

比方说要不要逃离北上广啊?我们此前的节目讲过,所有在北京生活的人都知道自己恐惧的是什么,堵车啊,是吧,医院拥挤啊,雾霾呀。但是与此同时,生活在这里,我们也有贪婪的可能性。因为这个城市提供的可能的人生发展机遇要大得多。所以这两个东西二合一之后在一个处境当中,我们就纠结了嘛。所以老同志谈话的最后,跟我讲,说看来曹雪芹当年写的那首诗还是对呀,所谓《红楼梦》里面的《好了歌》:世人都晓神仙好,只有功名忘不了,古今将相今何在,荒冢一堆草没了。

你看,老人家可以用这种潇洒的方式,来谈论我们现在的纠结。但是我们这二十郎当岁到四十郎当岁的人,我们不能这么想,我们必须要破开这个题目。当我们面对一个巨大的诱惑的贪婪,和与此同时要为之付出恐惧的代价的时候,我们怎么破呢?这就牵扯到我们今天讲的话题,大数据时代的隐私保护。

“大数据”这个词这两年特别熟,所有人都知道,这好像是未来商业的前途,会带来人类繁荣的一轮大喷发。但是与此同时,所有人都有隐忧:隐私保护这个事怎么办呢?为了做这期节目,我们还真的去听了好多讲座、论坛。那些专家们只要提”大数据”这三个字,眼光都放亮,在台上跟念咒语似的,听不懂听懂得懂的一通话,唵嘛呢叭咪吽,一通咒语,只要谈到隐私保护这个话题,基本都哑火了,讲几句不咸不淡,不冷不烫的片儿汤话。什么政府应该加强立法,个人应该加强隐私保护意识,企业家应该讲究道德底线。总之所有人血液里流荡道德血液就可以了。这种回答实在是不过瘾,就没有一种叫什么,叫直抵繁华尽头,戳穿事实真相的那个力度,这个事到底应该怎么看?

所以带着大数据这个问题,我们就特地在人民大学请了一位专家,大数据方面的专家,就是这本书的作者,《智慧政府》的作者冯启娜老师,来当我们这期的节目策划。我们俩开了几次会之后,我们突然发现,好像大数据时代个人隐私保护是个伪命题,似乎在这个时代我们就应该按照没有隐私的方式去生活。这个结论出来,把我们俩都吓了一跳。今天罗胖,不代表人家冯老师,只代表我自己,我就给大家讲一讲我们的这个推断,是怎么来的。为什么在大数据时代,我们不得不放弃自己的隐私?

好。我们先回到这个词,大数据。你认真研究你会发现,原来名字起错了,这是一个假象,大数据的本质不在于它的大。过去我们都认为,随着人类信息记录技术和传输技术的发达以及成本越来越低,所以人类的数据记录就从一些小数据慢慢变成一个巨大的数据包。大数据是指这个吗?错。

大数据的本质不在于它的大,而在于它的全。我们是通过多维的、多角度的记录一个世界,或者一个人的真相和行为轨迹,我们来判断它原本的本来面目。其实我们人类一直是靠这种方式来判断世界的好不好,只不过原来没有这么丰富的信息记录工具,对吧。

比如说你闭门家中坐,有人敲门,你问谁啊,外面说我。你说你这个王八蛋,等着啊,马上来开门。你看,在刚才的这则对话当中,其实没有信息的,你问谁,他说我,我是谁啊,对吧。但是你通过第二个通道,就是声音的识别,甚至是脚步声,甚至是敲门的节奏,通过这些其他通道,你知道原来是那个王八蛋的,所以你敢去开门,是你熟悉的人,对吧。就像我们平时看的《福尔摩斯探案集》,福尔摩斯是怎么接近真相的?他不是把罪犯吊起来打,对吧。罪犯嘛,那隐私嘛,人是我杀的,肯定不说,那怎么办?福尔摩斯不跟你正面的、你想保护的这个信息来冲撞,他绕到周边,通过罪犯的整个的行为轨迹,在现场,在其他时空里留下来的蛛丝马迹,来判断真相。就像最近一个英剧,福尔摩斯第一眼见到华生,就说你刚从阿富汗回来吧,华生说你怎么知道的?你看这个真相很容易就被福尔摩斯这个人就分析出来了。

在最近有一本特别火的书叫《信息简史》,其中第一章就讲了一个特让我们吃惊的段子。就是非洲丛林里的那些原始部落用的通讯工具,是一种鼓,鼓语,就是通过打鼓的节奏和鼓点,来传达信息。他们没有纸、没有电报、电话,就靠打鼓。我们刚开始知道有鼓语的时候,我们都以为,鼓语能够传达的信息一定是非常简单的、简洁的。因为你想就是声音嘛,它又没有曲调,对吧,它只是靠鼓点的节奏,它信息肯定非常简单。

但是当欧洲的学者深入到这些丛林当中,一研究发现不是这么回事。非洲的鼓语不仅不简单,而且极其复杂,不仅复杂,而且极其的啰嗦。比如说叫男人回家吃饭,那个鼓语是这么说的。翻译成今天的现代汉语:”远方的男人呐,请停住你的脚啊,远方的男人呐,请停住你的腿啊,你把腿转个方向啊,你把脚转个方向啊,这里是你的村庄啊,我们等你回来吃饭”等等,他这么罗里吧嗦地讲,这就很有意思。

因为你本来能够表达的信息就很简单,你再这么啰嗦,你怎么可能呢?后来学者就发现,原来它是通过大量的信息冗余去校正信息。你比如说,光说一个月亮,而鼓语能够表达出月亮这个词,可能代表好多其他的意思,既表示爸爸,又代表公鸡,对吧。所以它要表达月亮的时候,它就必须加很多限定词,比如说俯瞰大地的月亮,那这个就是,爸爸不可能在天上俯瞰大地嘛,对吧,这个词就代表月亮。

所以它是通过多维的,请注意,一个词出现了,叫”交叉复现”,通过信息的交叉形成对真相的判断,这就是大数据。那大数据在商业中怎么用呢?

举个简单的例子,比如说有个大牌叫Prada,它在纽约的旗舰店最近几年就搞了一个小改革,每一件衣服上都有一个芯片。这个芯片当这件衣服被拿到试衣室的时候,试衣室有一个记录仪,就记录一次,就说明这件衣服进过试衣室。但是这件衣服是不是被买了,这个探测器不管。你看,过去的所谓的商业数据就是进销存,我销售出去多少,进来多少,库存有多少,它只记录这些信息,这叫大数据吗?这不叫大数据。因为它虽然数据量非常大,但是它记录的是一个单维信息,对吧。

可是当Prada做了这个小实验,虽然只记录一个不太大的一个数据规模,但是由于它角度变了,于是大数据的价值就突然一下出来了。大家想啊,原来prada只能知道我哪件衣服好销。但是有一类衣服是这样的,大家一看很喜欢,很不错,摘下来到试衣间试,试完了之后,因为某种缺陷,大家把它撂下了,没买。所以当这两个数据,就柜台边的销售数据和试衣间里的试衣数据两个一碰,Prada就能找出一些衣服的款型,它们很好看,第一感觉很好,但是卖不掉,一定因为有什么缺陷。把这个缺陷改进完了,等于Prada就马上多了几款热销的品种。所以在商业上,这种多维的交叉复现就这样用起来了。

再比如说,互联网金融,最近学界争论非常多,我们以后罗辑思维肯定要讲一期的。但今天我们不讲别的,我们就说互联网金融,它为什么一定是一种先进的方式?因为它正在用大数据的方法,一点一点地去逼近在传统社会当中要用极高的成本去解决的一个问题,就是信用的判别。传统的银行要决定给一个贷款客户给你钱,我老天,这得下多少功夫啊。这得老师傅带一个团队,做各种各样的调查,最后发现信用不错,我们放心把钱借给你。

可是在互联网时代,所有的信用判别,要用大数据的方法,它的成本会低到不像话。比方说。当然我声明一点,我在这儿绝没有劝大家参与互联网金融的意思。因为互联网金融目前来看,它的风险还是不确定性的,没有劝大家参加的意思。但我们来分析它的理论,我就看过一家互联网金融公司,它做这种P2P的贷款。你要找这家公司贷款,它只要你填一个简单的表格,就行了。姓名、住址、电话号码、你的公司,然后你的工资卡的卡号,就是证明有人正常给你发工资,你有基本的信用记录就行了。你申请贷款几万,甚至几十万,就这么给你了。那你说这不是不负责任嘛?对,在传统社会看来,这就叫不负责任。但在大数据时代看来,未必如此。首先你看,它可以通过这几个信息,通过交叉复现,得知你很多东西。比如说你的住址,这是不是一个好小区,你住不住得起好房子。那你说我填一个假地址行不行,不行的。

大数据交叉验证,对吧,它可以到你微博上看呀,看你微博上你在哪儿发。因为发微博最多的可能性一个是家,一个是公司,你如果又有公司。因为你有工资卡,对不对。那另外一个点,发微博最多应该就是你家,那你常住的地址和你填的这个地址是不是吻合,这就是交叉去验证。

然后再比如说,它能够知道你每个月交的电费,它就知道你家里的电器的使用量,这基本上也可以衡量出一个人的生活水平和收入水平。再比如说,它知道你的电话号码,那你电话费交的情况是怎么样呢?你买这个电话是分期付款还是一把付掉的呢?你用的电话是一种什么类型的电话呢,等等。所有这些信息通过交叉验证,就又能够呈现出来。

甚至在洛杉矶,有一家专门就做给那种叫高风险贷款,就是你没啥信用记录或者信用记录不好的人,我给你放贷款。这家公司就用了很多大数据的手段,它甚至细到什么程度,比如说你在银行,你总要填自己姓名吧,它就看你怎么填,它不会告诉你的。你如果全是小写,这是一种很不规范的填法,这说明你这个人有点粗枝大叶。如果你全是大写,说明你这个人有点自大狂。那最标准的填法是什么?首字母大写,后面小写,就说明你这个人很精细,那很精细的人通常来说,你的信用度要好那么一丢丢,那它就把这一丢丢记入对你的信用的判别的整体的数据库。所以你看人家监控的这么细,所以这家公司,就是洛杉矶这家公司实验下来看,它的坏账比同样做这一行,但是没有用大数据的整个坏账率要低到60%。这是我们用最简单的方法给大家讲,大数据起作用的原理,好。我们再回头来看我们今天要讲的主题,保护隐私,可能吗?不管保护隐私你有多么强烈的需求,这件事在道德上有多么大的正当性,我们先考虑,它可能吗?首先你会发现,很多信息因为交叉复现,所有的信息是你自己泄露出去的。

有一个著名的段子。老公有一个初恋情人,老婆也知道。初恋情人在上海,老公就老想去见一面。有一次出差广州,顺带绕道去了一趟上海,回家之前把所有的跟前任女友的什么短信,微信记录全部删除了,回家之后跟没事人似的。他老婆一进门就说,把手机交出来,老娘看看。拿过来手机一看,看完之后,啪一个大嘴巴就上去了。男人说怎么了?你去上海了。没有去。你去了。没有去。看,中国移动发一短信给你,上海移动欢迎你。这条短信怎么出来的?你看,你注意到删除的只是一个单维信息,但是你没有注意到的其他多维信息仍然在出卖你,何况就算中国移动不干这个事,你在上海见前任情人,可能吃了一顿饭,你刷卡,信用卡记录会有啊,如果你再有开房记录,那就不得了啊。

前一阵,真的,中国就有一家公司,一个巨量的开房记录信息整个被泄露掉了,那些聪明的老婆们,那一阵就全部趴在网上去查记录的。你以为,所以大数据时代一个最要命的问题是,你自己以为这个不重要的信息,会利用交叉验证、交叉复现的原理,把你想刻意隐藏的真相给曝露出来,最要命的是这个。

你说那我加强警惕性可以不可以,我们别吹牛,每个人都别吹牛。咱们就自个儿想想,如果你用的是智能手机的话,智能手机甭管,苹果咱们不说,咱就说我最熟悉的安卓,安卓系统。安卓系统你新装软件的时候,它会有一条提示的,说这个软件会调用你的通话记录、短信、WiFi、LBS、你的地址,所有这些东西要调用,可不可以?可以你就装,不可以你就别装,对吧。人家软件公司做的有问题嘛?人家没问题,全告诉你了。

时间长了之后,你根本看都不看。大家扪心自问,有几个人安装每个软件的时候,把这些提示条款全部看清楚的?几乎没有吧。我身边至少没有这样的人。所以大数据时代泄露隐私已经,原来你保护隐私的那一整套方法全部失效。原来就是你愿意告诉别人你就告诉,不愿意告诉你就留着。现在,你把愿意告诉的告诉出去,不愿意告诉的自然也就泄露了,请问,这个城你怎么守?

更重要的是,人是处于社会系统当中的。当整个商业社会都在全马力发动,来刺探你的信息的时候,你觉得你这个城还守得住吗?大家说,那为什么商业社会这么大劲头呢?我给你打一个比方,比如说保险公司,我们就说汽车险吧。保险公司就特别有积极性去搜集你驾车的一系列的记录。我们假设,现在我们穿越到十年后,大家用的都是全自动的大数据的那种汽车,所有的数据都被记录。保险公司当然要知道啊,你基本上一天要开多少公里,你是从哪儿到哪儿,是风险路段还是低风险路段,然后通过你踩油门、踩刹车的行为习惯,来判断你有没有很好的驾驶习惯,对吧。你这个人是白天出去还是晚上出去,是愿意开快车还是愿意开慢车等等。这些数据搜集来了之后,保险公司有大用场。现在保险公司来判断你的驾车习惯,只能根据你一年的事故量,然后确定你明年的保险额。

但是未来保险公司可以制作非常精细的产品,对于那些上班族,开不了几分钟就到单位的,车一下进了豪华地库,对吧,开车习惯很好,他可以把保险费用降得非常之低。而对那些,就是说白了开车习惯又不好,然后经常在风险路段上的,他可以把保险费用提高,如果一个保险公司拥有了大数据以及相应的分析手段。你想,它跟它竞争的那些保险公司,不要玩了,其他公司怎么竞争得过它。所以商业竞争就靠这么一丝一毫的妙到毫巅的竞争差距。

所以你想,这些保险公司还不疯了似的去搜集你的这些数据。所以我们去看,个人隐私保护,我们假设它是一次守城,那这个守城战就呈现出一个非常搞笑的场景。所有的商业社会的力量都调动起来,千军万马,如浪涛拍岸一样不断地去搜集、持之以恒地去打听你的相关隐私。而守城的你呢?不仅无心守城,而且战斗力很薄弱。因为你就一个人嘛,而且不断地要发条微博,泄露一下地址,然后发一个微信,泄露一下自己的喜好等等,你又在不断地给自己当内应,当内贼,请问你这个城还守得住吗?那如果守不住,如果隐私不存在,我们又该怎么办呢?

刚才我们打了一个比方,说在大数据时代,一个人想保护自己的隐私,像一场绝望的守城战。你一个人站在城头,城下的是连山连海,不眠不休的攻城部队拍击着你的城墙,而城头您就一个孤家寡人,而且自己还不靠谱,经常发微博暴露自己的位置。对吧,所以自己当自己的内应,你说这个城怎么守?但是即使把比方打成这样,我们还是不到位,还是太温柔,还是没有说出来大数据时代那个残酷的真相。哪里是什么古代的冷兵器的守城战啊,压根就是热武器对冷兵器的战斗,是飞机、大炮、导弹,对一个用刀矛器械守城的古代部队的战斗,这是一个注定绝望的战斗。

大数据时代还有一个词,刚才我们说的叫交叉复现,或者说交叉复用。其实大数据还有一个特征,叫全息可见。就像一个人看澡盆里的鱼那样,真相看得清清楚楚。很多科幻小说是用四维世界对三维世界的比方来说明这个道理。四维世界需要点想象力,我们打另外一个比方,就是三维对二维。我们假设二维世界,就是一个平面上有生物,这些生物是平面的,两个生物见面打招呼,这个生物看另外一个生物是什么,它不是个图形,对吧,它就是一个线段,俩图片就这么遇到了。这个图形长什么样,隐私,不告诉你这哥们儿,对吧。

但是对我们三维世界的人哪有什么隐私可言呢?往下一放,站在太空一看,清清楚楚,每一个图形是什么样。对,四维世界的人看我们,也是这样。所以中国古代的诗人就说得好啊,”会当凌绝顶,一览众山小”、”欲穷千里目,更上一层楼”。只要站得高,只要你有足够的视野,你看到的真相不仅全,而且真。所以这个大数据时代,几乎每一个人都在裸奔,这才是残酷的真相。那这会引发什么样的动荡呢?其实可能人类有史以来,我们所习惯的很多思维路径都在发生崩解,你能够清晰地听到它们崩解的那个咔吧咔吧的声音。有些东西说来也许你不信,比如说因果关系。这是人类认知世界的一个最重要的工具,对吧。我们小学老师告诉我们,知其然,还要知其所以然,你知道这个东西是这样的,这可以,但是你还要知其所以然,它怎么来的呢?

所以小学老师最恨的我们学生的一个毛病就是什么?抄作业。但是前不久我听一个小学老师跟我讲,现在抄作业这个事太严重了。我说现在学生难道这么互相之间没有节操吗?他说哪里是啊,他说你这儿布置一个题目,学生直接上网一搜索,百度,原题原答案,甚至原解题过程,人家直接拷贝粘贴,人家连抄都懒得抄。他说除非我们每出一道题,我们把所有的那些数字全部都改掉,而且要确保网上没有一模一样的题,我们老师才能出作业,他说你说怎么弄?

对呀,这个成何世界呢?互联网来了之后,似乎我们直接拿结果就行了,根本不需要演算过程,那孩子们还怎么成长呢?我们人类还怎么思索呢?等等。你看,我们从传统社会来的人就会觉得困惑。但是商业世界里的人没这个困惑,直接要结果就好了,我为什么要知道过程呢?我知道过程,知道因果关系,不就是为了推导结果吗?如果我已经拿到了结果,我为什么要知道过程呢?你看,商人思考问题和老师思考问题是不一样的。

给大家打一个比方,大数据时代有一个非常经典的例子,很多人在很多场合都听过。就是沃尔玛发现,这个啤酒和尿布这两个东西的销售量严重相关,有的人买啤酒多了他就会买尿布,为什么呢?或者反过来说,买尿布多了就买啤酒。就分析啊,找理由。有的人这么解释,说你看,买尿布的一般是爸爸,为什么?因为孩子在家刚生出来,妈妈在家看着呢。所以爸爸出来买尿布,爸爸一看,我一个人出来买尿布,正好有啤酒,拎一瓶,所以这个就相关的。你看,这还能回头倒出点联系,倒出点因果关系。

可是我要再告诉你沃尔玛的几个数据,你就傻眼了。比如说刮飓风的时候,就是刮暴风雨的时候,蛋挞卖得好,你说为啥呢?雨天的时候,蛋糕卖得好。随着气温的升高,三明治卖得好。对商家来说,他才不像我们的学者们,老师们还得研究为啥。他需要知道为啥干什么,他只需要有这个结果就可以了。啤酒和尿布相关,在尿布的货架上做啤酒的广告,在啤酒的货架上做尿布的广告,对吧。下雨天的时候多备蛋挞,晴天的时候蛋糕的存货量减少,然后随着气温的升高多备三明治,他只需要做这个就可以了。

所以我看到的一个材料,在欧洲的超市里面,就因为利用了大数据这种分析。让欧洲的蛋糕店、面包店它的平均利润提高了20%,对于商家来说,这已经是他要的结果了,我不需要推导过程,我甚至不需要知道它为什么要发生。所以前任的《连线》杂志的总编叫克里斯·安德森,还是很著名的互联网研究者。他提出了一个我第一次看到也大惊失色的一个观点,说随着大数据的到来,理论终结了。因为人们只需要知道相关关系就可以了。

在中国的一篇材料当中,我还看到有人打了一个比方。他说其实最早使用大数据的就是中国人,中国人的《周易》,周易算卦,卜一卦,你明天死,至于为什么死,不告诉你,我也不知道,反正算出来卦相就是这个。对呀,这是比方了,咱们不是宣传封建迷信,这是比方。大数据就是有周易的能力,就是我直接告诉你结果,什么过程你要知道它干吗呢?这个毁三观吧?

更重要的是,人类达成认知的其他一些手段,你会发现也失效了。比如说统计,统计这个事说白了,也是二十世纪最重要最重要的一个社会科学成果,其中的里程碑的人物叫盖洛普。盖洛普公司现在还是世界上最大的做这方面业务的一家公司,它怎么崛起的呢?其实这个真的是对人类的文明进程做出巨大贡献的一家公司和一种思维方式。它刚开始就是美国大选,因为所有的选民都有期待,要知道这次大选的结果。所以刚开始就预测,最开始是用的特别笨的办法,你还别说,真有点像大数据。当时在大选预测方面做得最好的一家媒体叫《文学文摘》,美国的,它用的什么方法呢?就是海量的调查。它最多的一年发出去2000万份问卷,如果都是用邮政,你想想看,那是多大的工作量。有一年,最高的一年收回500万份,然后分析,然后决定,预测今年很可能是哪位总统当选。这一招很管用,从上个世纪二十年代到三十年代,连续预测三次全准。

可就在最后一次出问题了,这就是1936年那一次,就是我们知道的著名的富兰克林·罗斯福,小罗斯福总统,共和党的兰登,他们之间对决的那一次。就在这个《文学文摘》杂志想要搞这次调查之前,有一个人年轻人,就是我们刚才讲的盖洛普。盖洛普突然开了一个新闻发布会,他说我发布两件事:第一、我已经预测完了,罗斯福会胜。第二、我还预测《文学文摘》会预测兰登会胜,但是他们错了。

这是巫术吧,妖怪嘛,你怎么提前就知道人家会发布什么预测呢?但是果不其然,没过多少天,《文学文摘》发布的结果真的就是这样,他们预测兰登以55%的选票数获胜。但是结果当然大家都知道了,罗斯福获胜。

所以后来有人问这个盖洛普,说你怎么调查出来的?盖洛普说,说这个《文学文摘》用的是一个笨办法,他们发2000万份,但是他们数据从哪儿来的呢?它是一个局部数据。它的数据是从电话本和拥有汽车的那个汽车的修理名录上来的。他说你想,家里有电话,有汽车的都是富人,对吧。富人基本上会倾向于共和党的兰登。但是我用的方法不是啊,我是随机的找的各种性状的样本,这就牵扯到统计学了,今天咱们不讲这个。

他说,我用的是一种更先进的统计学的方法,是一种更具有代表性的小样本,我根本没有必要发2000万份,我可能发几千份,一统计就可以了。我的统计结果罗斯福胜,但是更重要的是,我统计过程当中,我发现一个特点,就是富人喜欢兰登赢,所以我就预测《文学文摘》肯定会预测兰登赢,所以他败了。

自此之后,《文学文摘》这一套就完蛋了,盖洛普这套方法就整个统治了二十世纪人类想要预测社会问题的一整套方法。当然这套方法也不仅仅是盖洛普一个人发明的,社会学家们,比如说社会学的可以说是大师、鼻祖级的人物涂尔干。涂尔干在研究自杀的这个社会现象的时候,就利用了大量的社会调查,利用样本,然后来推测,来得出自己的学术结论。所以你现在看搞社会学的基本上就是这样,他通过大量的调查,发现两个数相关,然后学者们就琢磨,什么原因呢?然后讲一个故事,把这两个结果的相关性把它总结起来。

但是在大数据时代,说句不好听的话,这些人可能将来饭碗都没了,因为不需要样本。大数据给的是全样本,我不需要在人群中抽样,我知道的是整个人群,我不需要你去想象一个故事,因为这个不重要,我直接就能达到你传统方法想达到的第三步,就是结果和真相。传统的统计学有很多的问题,你比如说在1994年,芝加哥大学有一个著名的性学报告,对美国人的整个的性生活的状况进行了一个调查,最后出版了一份读物,在性学界简称叫芝加哥报告。这份报告那是高大上的,有很多明星站台发布的,权威学者,科学方法。但是有人在发布完了,就提出一个质疑,说你这数据不对吧?哪儿不对啊,都对,这是科学的。说你看你里面有一个数据,说男人拥有的性伙伴的数量,比你调查出来的女人拥有的性伙伴的数量,我们特指异性恋,要多好多倍,那你说这为啥呢?没道理的呀,对吧,因为一个男人出轨,如果异性恋的话,肯定是跟女人出轨,那除非全美国有足够数量的妓女,如果把妓女这个因素剔除,那不可能啊,有一个男人搞婚外情,就有一个女人配合他的奸情嘛,对不对。

这就说明什么?说明调查统计是靠问,而问这个东西你怎么能得来真相呢?对吧。跟男人说,男人可能吹牛,我睡过谁谁谁,我睡过谁谁谁,对吧。女人不好意思承认,所以这是一个正常的一个偏差。更重要的是,社会学的统计方法,它没有办法去阻止人的主观性的偏差,即使他不是成心想撒谎。比如说有人做过一个实验,说问,说你觉得应该允许美国出现反民主的言论吗?有将近50%的人说不应该允许,不准许。但如果你稍微换一个问法,说应该禁止美国人发表反民主的言论吗?禁止,用这么一个词,只有26%的人说应该禁止。你看,同样一个意思,调查出来的结果差一倍,所以说传统的社会学统计方法,我们不能说它不科学,它是尽可能在传统的技术条件下逼近真相,但是它真的没有办法得到彻底的真相。就像盖洛普,他们是以预测大选结果而著称的,可是他们在预测大选结果上又能赢几次呢?其实他们的胜算是少得可怜的,即使是猜对了,那也是蒙的。

所以在大数据时代,你看因果关系这种方法论不奏效了。在大数据时代,你看调查统计这种具体的手段也不奏效了。人们直接可以直扑真相,这是一个全新的时代,所以说归纳法、演绎法,这是人类传统获得知识的两条路径。但是大数据一来,告诉你闪开,我有独特的方法,我可以直接获取世界的真相和知识。

我们再回到隐私的话题,当大数据可以把我们看得跟澡盆里的鱼那么清楚的时候,你刚才说什么交叉复现、交叉复用,那都属于笨办法,有的时候直接就看见了,对吧。最典型的两个例子,一个是美国有一家公司就是卖百货的,叫塔吉特。这家公司就是通过很多消费数据来猜一个女顾客怀孕的趋势,因为你可能到怀孕几个月的时候,你会倾向于买什么样的东西,然后又到几个月的时候,你会买什么样的东西,如果时间轴上,你连续呈现出某种特征,那我基本可以猜到,你可能怀孕了。那知道这个信息很有用啊,我可以往你家寄什么婴儿的衣服、摇篮这些物品。有一个父亲有一天就特别愤怒,冲进店里,说你们王八蛋,凭什么给我女儿寄什么摇篮的传单啊?什么婴儿用品的传单啊,你们不是挑拨我女儿怀孕吗?我女儿才15岁,然后店里也没法跟他解释。过几天这个男人给店里打电话,说对不起,不是你们错了,是我错了,我女儿真的怀孕了。

那你说,隐私就是这样在大数据似的这种空对地导弹的俯视下,你任何隐私是藏不住的。再比方说,美国现在侦测有一种犯罪就是种植毒品。假设我罗胖爱抽大麻,那我不能满院子种大麻呀,那怎么办呢?我在家种,家里没阳光怎么办呢?用那个LED灯,弄一个小屋子,一地种大麻,LED灯照着,这时候我把窗帘一拉,谁知道?电表知道呀。美国现在正在给全民铺开,我估计中国也快了,装这种智能电表。要知道,每一个电器它用电的那个行为特征是不一样的,电冰箱用电和电烤箱用电,那个用电的那个行为特征是不一样的。如果是LED灯,是看得非常清楚的,所以智能电表会非常清楚你们家正在用LED灯,而且用的那个时间,那个开关的节奏,基本上就和种大麻这个特征是吻合的。警察就会上门敲门,所以这个事不用什么交叉复用,直接通过智能电表,把你的所有行为看得清清楚楚。

说完了这些,我不知道你对保护个人的隐私,还会不会还存留一丝幻想呢?刚才我们说了,在大数据时代,个人想保护自己的隐私,是一场绝望的战斗。绝望得简直像部恐怖片嘛,对不对?意味着我们每一个人在未来都只能赤身裸体地面对四面八方和千秋万代,说实话,我们这代人没有做好相应的准备和心理建设。那怎么办呢?那就要转换观念,所以这个节目的最后一Part,我跟大家交流三个观念:第一、隐私它就是桩买卖。你别把它看得太重,对吧。你走过路过的时候,周边商家给你推送各种好吃的,好玩的打折信息,你获得了方便吧。但是与此同时,交出你的信息,交出你的隐私,某时某刻你打某地路过,商家要的不是留下买路财,要的是你留下买路的信息。这是一桩买卖,双方你情我愿,有何怨乎呢?那你说我就不愿意。可以啊,扔掉手机,关掉电脑,离群索居嘛。因为隐私让你交出来,获得方便,这是现代社会的一个协作网络,你只要脱离这个网络,学美国人梭罗。几百年前,人家就在瓦尔登湖边自己弄一个小木屋住着,那隐私保护得好好的。但是对不起,那是你不喜欢的生活嘛,对吧。你要是喜欢,你可以选择,所以这是一桩公平的交易。而且我敢断言,绝大多数人都把这笔交易的收益算少了,算小了。大数据其实远远不像我们所感知的那样,只是解决一个生活更方便的问题,它其实还顺带解决了人类文明当中几千年都解决不好的一个问题,就是我们如何共同的生活,更简单地说,如何让我们共同组织起来的政府有善治,有良好的治理。

给大家举个例子,前不久国家统计局那个前任的总经济师姚景源,他就有一场演讲,他就讲,他说大家都在骂统计局,对不对?说统计局数字不准。他说我告诉你,统计局是最想对这个数字负责的,。我们最不相信的就是地方政府报上来的数字,但是原来没办法。你国家统计局,对吧,地方政府报上来数字,你加加减减,你只好得出你的数据。可是后来我们就用很多种方法,比如说城调大队等等下去。可是互联网来了,大数据时代来了,我们就彻底有办法了。比如说我们前面讲的交叉复现、交叉复用这个功能。他说我们只需要多一个维度的信息,我们马上就知道真相。地方政府你们尽管报,报上来之后,我空中的遥感卫星对中华人民共和国国土一监控,知道有多少耕地,然后呢?我们就在那个图样上打格子,然后选定一些随机的格子。然后我们到这个格子里去调查,这块农田今年的产量是多少。然后整体上再通过算法一加总,我们就可以得出全年的粮食产量,而这个却是精确的。所以说地方政府关于粮食产量的问题,不管它怎么虚报、漏报、瞒报,我们其实心里都有一个大数。

原来的环保局局长,全国的环境问题,对吧,只有县环保局向市环保局报,市环保局向省环保局报,一直报到中央,对吧,中央也没办法。现在PM2.5,美国大使馆也在监控,潘石屹个人都在监控,上哪儿瞒着去?所以政府本身的功能正在发生转型。原来政府受制于那种信息不对称,比如说腐败的问题等等,都会靠大数据获得最终极的解决方案。这一点此前的节目我们讲过,出门左转,第一季我们有一集节目专门讲反腐败的曙光,讲的就是这个问题。但是我们在那一集节目里,没有讲到的是什么?就是很多过去政府,提出来的观念,比如说我们要做服务型政府、平台型政府、智慧型政府等等这些口号,为什么在原来的技术条件下,它仅仅是口号呢?它不能落地呢?

没有技术基础嘛。有了大数据就好办多了。你看,新一届领导人上台之后搞的这个反腐败,对吧。政府公务员不准大吃大喝,一系列什么中央八项规定等等。你会发现,一段时间之后,好像没有松懈的迹象。过去中央新官上任三把火,强调一下纪律,过一段就松弛了。现在为什么不能松弛呢?大数据嘛,至少是大数据的原理在其中起作用。官员们都知道,中央有一个规定,在上面紧箍咒箍着,下面只要出去吃一顿饭,一个网民拿手机一拍,你就完蛋了,乌纱帽就要掉了。所以这上下两层监控,这就是大数据时代呈现出来的一个结果。

我们这期节目的策划冯老师,冯启娜老师,就告诉了我们一个他们人大发生的一个事。人大有一个在校学生,普通的不能再普通的学生,不是官方指定的,没有五毛钱补贴,那种学生,他就注册了一个微博,叫RUCRumor,RUC就是人民大学,Rumor就是谣言,简单说叫人大谣言,就这么一个微博网站。很多人就是把学校里发生的很多事情就@给他,这儿水管子漏了,今天食堂哪个菜做得不好,或者价格太贵,哪个选修课的老师这堂课说了一句什么特别不合适的话,哪个老师上课点名,大家一定要准时去上课。所有这些乱七八糟的信息,全部@给这个账号。而这个账号只需要做一件事情:转发。结果是什么?结果就是人大上至校长,下至后勤部门的一个小科员,天天就扒在微博上等着看这个同学的微博转发。因为大数据时代,让底层参与决策,所有的任务不再是由上面来发布,而是大家来发布。路灯坏了,水管漏了等等,大家来发布信息,而且是在公开的环境发布信息,后勤部门你给他几个胆,他能不上去修呢?

所以过去我们讲政府的善治,都是在讲官员要勤政爱民,要多做马克思主义的道德教育,那个东西有用,但是没有太大的用。真正有用的是什么?就是大数据时代这种倒逼效应。最近几年铁道部特受这种指责,尤其他们新上线的12306那个订票网站,铁道部年年被骂得个臭死,但是你能说铁道部退步了吗?错。铁道部进步了,因为它用了互联网手段。所以各种底层的声音,比如说原来买不着票,你喊哪,对吧,你喊破喉咙也没有人理你。现在你订不到票,微博上就嚷嚷成一团,瞬间就能形成一种舆论声势。那反过来,再倒逼12306网站和铁道部本身的业务的改良,这就是智慧型政府的本质。

智慧型政府不是政府怎么样吃了药变聪明了,不是。是互联网大数据环境倒逼它不得不形成一种服务型的政府人格和智慧型的政府能力。这个方面我们不多举例子,因为给大家推荐一本书《智慧政府》,这就是我们本期节目策划冯启娜老师他们执笔写的,大家有兴趣可以看,这就是收益。

我们很多人以为大数据只是带来方便,何止如此呢?这是给大家讲的一个观念。第二个观念,就是隐私它只是一个历史阶段。我不知道您各位去过农村没有,很多传统的农场互相之间哪有什么隐私可言,?都是几百年在一起聚居的熟人社会,哪家祖上干过什么丢人的事,互相之间知根知底。尤其是农村,我们城里人经常会遇到一幕,特别让人害羞的一幕,老娘们儿一排,在墙根下晒太阳,奶孩子,上衣掀起来,露出乳房,就在那儿奶孩子,她们没有这种相关的隐私概念。这种情况在城市里现在越来越少见到。而我小时候在农村是经常会见到,那为什么呢?

因为在前现代化社会,隐私的概念和我们今天是不一样的,刚才讲的是中国农村。其实古代的欧洲,也有这样的情况,给大家推荐一本书,叫《文明的进程》,这也是一个历史学家写的。它其中有一些特别有意思的细节,比如说,你到德国和法国的很多皇宫,现在是古迹、文化遗产,你到那儿去参观的时候,你会发现那个宫殿里有一些房间莫名其妙,它有个马桶。但是那个规模又不像个厕所,因为房间特别大,这是什么意呢?我告诉你,这是国王的会议室,那个时候国王就是早上一边上马桶一边大便,一边跟大家讨论国策,哪个地方该减免点税收,该派兵打谁。

国王转身就可能上厕所,甚至就蹲在马桶上跟爱卿们讨论国家大政。这件事就是欧洲中世纪时候的事。而且在《文明的进程》这本书里,你看到非常有意思的细节,我们今天很难想象。古代欧洲的一些贵族,他们在大小便,包括做爱这种事情,是不回避下人的。包括做爱,如果身体不太好,经常流点汗,下人要在旁边负责擦汗的,他们不觉得这件事情在下人面前赤身裸体,或者做这些事情有什么不得体。

其实这件事情即使在今天也还有。我就在网上看到过一篇文章,一个中国学生,他有一个印度同学,在印度是贵族。有一年他就跟他放假嘛,就回家,到印度去住了几个月。他就特别不习惯一件事,就是上厕所。因为印度甭管是贵族还是贫民,家里厕所都特脏。他就讲出了这个麻烦,这个厕所不行。印度人说这个好办,这个好办,我们这个有传统,然后就弄了一个马桶到他屋里来,说你就在这儿弄。然后每次擦屁屁的时候呢,有仆人用热毛巾、湿毛巾来帮你擦,刚开始他特别不习惯,但是据说住了几个月之后觉得很舒服,渐渐地也就习惯了。

说这些是什么意思?就是隐私实际上是文明社会发展到一个特定阶段出现的一个历史性的概念。你想,大家从熟人社会进入到生人社会,在大城市里发生城市化的聚积,各种陌生人在一起打交道,大家就开始出现了隐私。我们俩只是同事,我们俩没有必要需要知道你家住哪里,我一个月挣多少钱,这些事就会变成隐私,渐渐地它固化为一种道德。比如说很多公司打听别人挣多少钱,这是一件很没有规矩的事情,这是不道德的事情。但是既然它是一个历史阶段才出现的现象,那么随着这个历史阶段过去,它会不会隐私本身这件事就解体了呢?

我们打个比方,大家想想,我们什么时候需要隐私?说得不好听一点儿,绝大多数隐私实际上是跟性相关的,对吧。但是你想,有一位奇葩老师木子美老师,就是微博上著名的那个不加V,她经常在微博上,俗名叫约炮,她有这种行为。那你说这个行为怎么着呢?人家说我又没结婚,我又不想跟谁结婚,我这种行为就是正常的谈恋爱行为啊。于丹老师在电视节目里还呼吁呢,大家结婚之前,这个方面要试一试,否则会不和谐的,对吧。这种言论都可以公开播放,在电视台播放,我自己谈恋爱,然后试一试,有什么不可以呢?这在道德上没有问题。

所以你看,为什么会有隐私?因为你是在特定的人际关系网络当中,而且是固定的人际关系网络当中会出现隐私的需求。我的收入,我不愿意让同事知道。我有一个红颜知己,我不愿意让我老婆知道。这种事情它都是在固定的社会关系里发生的。可是如果你听完《罗辑思维》前面第一季的所有内容,你会知道,我们有一个清晰的预见,就是在未来哪有什么固定的组织啊?共产主义所宣扬的那个伟大理想,叫自由人的自由联合,随着互联网的前方,你是看得到的,如果未来我们假设婚姻真的解体了,那关于性方面的隐私,她就会变得少得多了,渐渐地我们就不需要那么多不可告人的事情了。所以我们讲隐私的解消,不是中国古人讲的那一套,”书有未曾经我读,事无不可对人言”。咱们不是讲圣贤之法,我们就讲人的实际需求,随着人脱离固定的组织关系,隐私的需求本身就在消解。这是我们想跟大家交流的第二个观念。

第三个观念,就是大数据真有那么可怕吗?最近关于大数据我们看到所有材料里面,吹得最神的一个是,是关于美国电视剧《纸牌屋》,它的那个公司叫Netflix。这家公司号称,这个剧我们是花了大本钱的,高科技做的,我们在网上搜集了几千万人看电视剧的各种各样的行为习惯,哪怕是一次快进,我们都统计下来。然后我们发现这个导演叫大卫·芬奇,还有史派西,就是这个主演,这些人他们导的片子和演的片子非常受欢迎。所以我们通过大数据分析,最后决定这么拍,而且每一个细节,每一个场景,我们这都是用大数据搭建的。因为大数据最近热,很多人都觉得了不起,大数据前途无限。

今天罗胖子铁口直断告诉你,谎言。这不是我说的,也是我看来的,分析的有道理。第一,《纸牌屋》这个剧被买到美国,而且通过经纪公司把导演找到,把演员找到,所有这些工作完成,是在Netflix这家公司进驻之前,所以这个班子根本不是你配的,别吹牛,这不是你大数据计算的结果。第二,你这家公司,你此前拍过片子,做完《纸牌屋》之后你还拍过片子,那怎么没见红呢?说白了,《纸牌屋》这部电视剧火,那就是人家电视剧好,你瞎猫撞死耗子,或者说你非常有本事,你拍出了这个号电视剧。这个咱们不吹牛,但是你非要把它跟大数据挂钩,可能有一点言过其实。

我想说这个是什么意思?就是这个世界,那些互联网科学家,互联网的研究者,他总是想,你看原来的人类社会是那么大的不确定性,我能不能通过大数据把它按住呢?让它赋予某种确定性呢?

所以你看,所谓第三代搜索引擎,那么多算法,其实都是想把人类行为做到可预测、可监控,对吧。最近网上我就看到一个段子,在嘲笑这种算法,都调侃了一遍。他们说,比如说你去买馒头,新浪就会告诉你,它微博嘛,新浪就会告诉你,你周边有一万个人正在吃馒头。那如果淘宝呢?它会告诉你,你买这个馒头,我告诉你,同时我还给你推荐500个馒头,都是一模一样的东西。然后如果是百度呢?百度就会在右边给你挂出来,浙江萧山馒头机生产制造有限公司,推荐这个设备。如果是亚马逊呢?就会告诉你,你吃馒头,你看这个包子你要不要啊,这个懒笼你要不要,这个枣糕你要不要啊,他推荐类似的产品。如果是腾讯呢?腾讯会拍你肩膀,兄弟,你别吃这馒头了,上我那儿,我那儿不仅有馒头,而且还有豆馅儿,腾讯什么产品都有。如果是360.360就会跟你说,馒头不要买,免费给你,但是让我摸一下可不可以啊,等等等等。

这是一个段子,但是大家想想,当你吃了三顿馒头之后,你不会觉得所有这些推荐都是扯淡吗?因为吃了三顿馒头,你可能想吃一顿日本料理,1你想;来一顿涮羊肉或者广东的打边炉,你不要吃馒头的好不好,哪怕跟馒头长得有点像的你都不要好不好。

所有大数据神吗?神。但大数据永远不会神到像一个缰绳一样,把整个人类捆住的那个程度。举个例子讲,《罗辑思维》不仅有这个视频节目,我们还有个微信公众号,我们每天早上讲一分钟60秒整的语音。我就坚决不信哪个大数据算法,哪天能够算得出我明天早上说什么。我明天早上说什么我都不知道,你能知道?

而且人和机器之间将来就会形成这样的配合,机器负责去制造确定性,而我们人呢?利用那种丰富的、灿烂的、永远不靠谱的人性,我们去为这个世界制造不确定性。所以说我们再回到《纸牌屋》这个电视剧,电视剧它就是个艺术。知道艺术有一个经典的定义吗?什么是艺术?艺术就是把人从不确定性当中拯救出来的那个东西,是把不确定性发自人性的那个最光辉的瞬间,给凝固下来的那个东西,那才叫艺术。谁有本事预测艺术呢?所谓《纸牌屋》的神话,他们预测,不用预测嘛,对吧。如果拿最好的导演,家最好的演员,就一定能拍出上座率最高的电影,吗电影业早就不是现在这幅样子了。为什么现在冯小刚拍《一九四二》那么多明星,最后票房还是惨败,冯小刚也看不懂呢?对啊。说明所有的大数据在面对人性深处的这种不确定性,它是无能为力的。

好了,到最后关于大数据和隐私,我们就归结三句话:第一句,不要只看到成本,我们要看到收益,我们有可能用我们被激发出来的未来收益的贪婪,来克服我们眼下的恐惧。

第二,如果一件事情你不能拒绝,那怎办呢?就学会享受它了。

那第三句就是,人性制造的不确定性和科技在努力制造的确定性,这是一次无始无终的赛跑,你活得有多精彩,你赢的可能就有多高。

0%