什么是语义网?什么是 SoLiD?

语义网是互联网设计上的下一个阶段,是 Web 开发者和使用者在有生之年很可能要经历的一场技术升级。

可以在这个知乎问答里看到鲍捷博士等人对语义网的理解。

而 SoLiD (Social Linked Data)是图灵奖得主、Web 发明者、W3C(万维网联盟)主席 Tim Bemers Lee 筹划已久并于最近发布的一组协议,可以认为是 Web 3.0 The Data Web(语义网实现过程中的一步)的基础设施。简单来介绍的话,它就是一个可以把你现在分散在微信朋友圈、微博、推特、谷歌日历、Todo 应用等等产品上的自己几十个账号内的数据都保存到一个地方的分布式社交应用设计规范。

按着它来的话应用的用户可以把数据存到自己想存的加密存储空间里,而不是疼讯、新浪或者某些国外不存在公司的服务器上。对于用户来说好处是你可以把刷到的一条研讨会预告微博拖到日历里作为未来待办事项(语义互操作性),以及以后不是你求渠道爸爸上你的文而是每一个渠道花钱来求你上你的文(内容生产者完全拥有数据)。

SoLiD 是一场革命,革的就是体大不尊的巨头的命,把数据还给人民,让人民能用自己的数据做更多自动化,让人民能用自己的数据赚更多的钱。

更详细的介绍见来看看分布式社交协议栈 SoLiD 和人人可用的内容分发网络 IPFS,相关讨论可以在论坛上查看。

但是使用了这个技术栈和数据自有的理念之后,应用开发者要怎么盈利呢?

数据与应用分离

数据还给人民后,聊天记录和朋友列表就不会被禁锢在微信上,聊天数据可以用比微信体验更好的第三方应用,比如巨信,来打开。这鼓励了应用在用户体验上的充分竞争,因为应用没法禁锢住用户和用户的关系网,所以沉淀下来的用户关系网络不再是应用的竞争力,用户会迁移到他们觉得体验最好的应用上。

所以可以猜测一种商业模式是:

(在 SoLiD 平台成熟后)

  1. 开发并推广体验比现有产品更好的 SDAPP(Solid Decentralized App),与用户体验不好的微信等应用竞争
  2. 在 SDAPP 里放置不影响体验的广告以盈利
  3. 或让用户在试用期后付费订阅 SaaS

这类盈利方案只需要很小的前期投入,因为它们建立在 SoLiD 平台已经成熟的假设上,要注意到这一点。在很多用户在 SoLiD 上已经积攒了数据后,新的 SoLiDApp 不需要冷启动成本(吸引用户生产数据),可以直接使用用户以前生产的数据。

但在 SoLiD 平台成熟前,早期的 SoLiDApp 需要设计方案引导用户从现有的中心化平台上迁移数据,也可以用优质体验或烧钱吸引用户把数据存储在 SoLiD POD 上。

自私的应用

然而早期的 SoLiDApp 开发者不仅无法享受到后期才有的热启动优势(不需要冷启动),还得付出各种成本吸引用户把数据放到不受开发者控制的 POD 上,真的会有开发者愿意这么做吗?

我觉得会有的,因为 SoLiD 已经吸引来了一批网络自由主义者

互操作性

此外,SoLiD 使用 W3C 国际规范中的 RDF 格式来存储元信息,因此同一份数据可以轻松地被多个不同应用读取,说轻松是因为后续开发新的利用数据的程序时,程序员不需要做数据清洗就能直接写业务代码利用数据,所以可以推测另一种商业模式是:

  1. 做社区打响名气
  2. 与企业老板喝酒拉项目
  3. 为企业做数据治理,构建智能数据平台

用 SoLiD 的框架来建设企业的数据仓库,能更快打通不同的子系统,不再为异构数据所困扰。

(逻辑上的)去中心化存储

由于数据自有,一个论坛 SDAPP 不可能像传统论坛那样由运营方提供存储和分发,而是把每个人所发的内容存放在每个用户各自的存储空间里。

这也就是 SoLiD 去中心化的地方,没有一个「论坛数据库」来把论坛中所有的用户发言存在一起。

但是实际的应用又要求把和某个论坛相关的所有用户发言重新聚合到一起,所以论坛 SDAPP 可能类似于爬虫,从一些种子用户的存储空间开始,爬取得到用户授权的、开放的、与论坛主题相关的内容。这类似于互联网早期的搜索引擎,把去中心化、分散在四处的网页重新聚合起来,帮助读者获取内容的同时,也在帮助内容传播。

这个过程相当于撮合「关注某个话题的人」和「话题内容的生产者」,而「关注者」和「内容生产者」之间可以隔好几个撮合商。因此推测另一种商业模式是:

  1. 了解社区,收集种子用户列表
  2. 构建类似好东西传送门(http://awesomeport.cn/)这样的爬虫,提供高质量的内容库或体验良好的内容聚合产品
  3. 偶尔打打广告,或是做其他流量生意

SoLiD 还有一个优势,就是聊天记录可能也能成为个人档案的一部分,比如我今天跟俩外国产品经理聊了 SoLiD 上的各种可能的商业模式,我可能懒得把这件事记在日历上,也懒得把聊天大纲记到日记里,但是我会在社交应用上跟 SoLiD 社区里的人分享我今天的行程和讨论结果,这些聊天记录要是能提取并格式化,就能逐渐构建出我的日历和日记等个人档案。

也就是说 SoLiD 的「去中心化」模糊了各种应用的边界,它们产生的数据不仅为自己所用,而可能会为其他程序所用。

不过得考虑到这种应用间的互操作性是建立在格式良好的数据上的,它要求聊天记录被提取为语义良好的 RDF。这会让用户更有动力去购买 NLP 服务,允许一些人工智能助手定期访问自己的 SoLiD POD,帮自己整理数据,就像雇用财务人员定期梳理自己的账务一样。梳理后的社交数据就能阻力更低地利用了,所以只需要付一点小钱,就能用社交聊天记录等随意的文本来构建日记和个人档案等等正式的文本。

(物理上的)中心化存储

区块链存储的特点是:逻辑上中心化,每个区块链节点的内容都是一致的;而物理上去中心化,得有很多不同的用户在维护一条链。

而 SoLiD 存储的特点是:逻辑上去中心化,很多用户就算在用同一个应用程序,他们的数据也不一定存在一起;但物理上可能是中心化的,在使用不同应用程序的不同用户,他们的数据可以使用同一个 SoLiD POD 提供商来存储。

SoLiD POD 提供商类似于 Dropbox 这样的网盘提供商,它们与网盘的区别在于它们都遵从同一个 API 协议,所以用户可以把自己的数据从一个提供商无缝迁移到另一个提供商,而依然能够用之前习惯使用的应用程序来读取自己的数据。

不过 SoLiD 只规定了 POD 提供商需要遵循 LDP 等 W3C 规范,并没有规定底层的存储层如何实现。有的 POD 提供商会在存储层使用 IPFS 来降低用户的分发成本,有的则会直接使用文件系统(比如在家里的 NAS 上自己部署),有的则会使用 SSD 并接入超高速上下行网络以提供奢华的输入输出体验,有的则用分布式文件系统来支持大量用户的使用。

不同的存储层实现会有不同的优劣和成本,因此 POD 提供商可以:

  1. 构建有自己特点的数据自有的网盘
  2. 对存储或带宽收费,或收取服务订阅费用
  3. 推广合作伙伴开发的 SDAPP

互联网访问控制

WebACL 建模了互联网上的「信任」,你信任那些朋友、哪些服务提供商、哪些掮客?你愿意让他们看到你的个人档案并用于盈利吗?你愿意让陌生人了解你的哪个人设?

SoLiD 上细致的访问控制机制,会带来建模「信任」的丰富的工具,这是很多区块链应用想做但是没做到的。

WebACL 与中心化系统或区块链系统上的 ACL 不同之处在于,WebACL 是有广泛共识的,每个 SoLiD 服务器都遵循同样的规范,所有 SoLiD App 可以把「WebACL 可用」作为前提假设来设计应用,这使得 WebACL 上可以出现一些需要网络效应或规模效应的商业模式。

搜索中间商

在分布式系统中搜索内容,肯定比不上在专门存储特定内容的中心化系统里搜索来得有效率。

在 SDAPP 繁荣后,每个人的 POD 里都会存有数以百万计的聊天记录、自拍合照、长短视频、论文博客,此时在千万上亿的用户 POD 中搜索和《范界统一角色扮演系统》有关的内容就不是很高效了。

这种情况下,允许自己 POD 中各个主题的公开或半公开内容,被一个个专精特定主题的垂直搜索引擎抓取,可能是比较好的选择。一个个搜索引擎也就是一个个数据掮客,招揽来的林林总总实际上也就形成了一个个垂直主题的内容社区。

如果 SoLiD 上搜索是得靠中间商的,那么中间商就得向用户购买他们的 ACL 开放权,这样它们才能有更多搜索结果。但用户可能也得向某些强势的中间商免费甚至付费请求他们收录自己的数据,以获得更高的传播效果。

数据提供者可以把中间商归为一个用户组,向他们免费开放 ACL,或付费让中间商收录数据提供者的数据,但设置书面协议要求他们只能让数据变成「可发现的」而不是「可见的」,这时候 ACL 是对中间商开放的,但不是对搜索者开放的。这样搜索者就可以搜到数据提供者的数据,然后每当有搜索者想要查看实际的搜索结果的时候,就要付费来向数据提供者申请 ACL 权限。

比如你想让自己的数据只在 LinkedInSoLiD 这种专家发现系统上被搜到,那么搜索方在中间商处搜到你后,还需要为查看你的 profile 而向你付费。

除了数据提供者直接向搜索者开放 ACL 以外,他也可以授权中间商在收到付费后直接向搜索者开放 ACL,让搜索者能查看中间商缓存的,来自数据提供者的数据。而搜索者如果也是一个中间商,他可能也会构建自己的缓存,然后也提供类似的搜索服务,所以 ACL 就会形成一个链条,像多级直销一样为金字塔顶的数据提供者输送利润。

协议巡检

书面协议要求他们只能让数据变成「可发现的」而不是「可见的」

ACL 是信任的体现,数据提供者信任中间商,信任他们只会提供搜索服务,而不会直接把自己的数据暴露出去,或者拿去洗稿后自己重新二次发布。

但这种信任就像手工作坊,对于早期的个人用户可能足够,但对于社交能力更强的超人类、组织来说,他们要管理的信任关系可能会很多,需要有工业化的方式来管理。

特别是当一级级的中间商缓存内容后,又再把 ACL 再对搜索者开放,要如何保证这个去中心化的直销机构能健康地运作呢?这时候就需要一个周期性的扫描器关注 ACL 链条上的变化,分析关于原始数据的副本的 ACL 是否给新的搜索者开放了可读权限,如果发现了,就勒令中间商向数据开放者付费。

知识付费

每个用户的每条公开内容都会有 URI 和访问控制列表(Web ACL)以及开放协议(例如 creative common),也就是说用户可以对自己发表的言论进行任意粒度的知识付费、分组可见等等控制。

可以在 ACL 中设置对某个用户组开放可读,因此可以把付费用户、订阅用户归入一个用户组,然后让专栏的 VIP 文章对这个付费用户组开放,从而允许知识付费应用的出现。

把一篇文章切碎了放在一个 LDP Container 内,并设置不同的 ACL,就能允许读者试读部分内容。

而每一个文章片段都有自己的 URI,这也使得 Project Xanadu 中设想的 每个文档可以包含任何所需粒度的版税机制来确保任何允许访问的支付,包括文档全部或部分嵌入。 得以实现,别的作者可以引用你的 URL 来嵌入你的付费内容,最终读者仍然需要对你的内容付费才能看到被嵌入的内容。

交互式分析报告

服务器上的智能程序也能有自己的 WebID,能像人一样被信任,被授予访问权限。而且智能程序守口如瓶,就算智能程序是开源的,它们也可以把中间状态保存在服务器上,不让用户看到。

所以用户 B 可以通过一个智能程序来访问用户 A 的 SoLiD POD,得到一些分析结果,而不需要直接访问用户 A 的 SoLiD POD 上的原始数据,智能程序是一个一定程度上可信安全的中间方,只要用户 A 相信智能程序的 WebID,用户 B 就不需要向用户 A 申请信任了。

这种中间商让陌生人社交有了新的想象空间:

  1. 用户 A 和用户 B 各自在不同的社区里有发言、聊天和撰文
  2. 用户 A 和用户 B 都授信一个陌生人社交助理应用访问自己 SoLiD POD 上的数据
  3. 社交助理收取一些费用后,分析出两个用户之间可能聊得起来的聊天话题有哪些,并引导他们社交

除了聊天数据以外,还有很多商业数据也是隐私的,直接暴露它们不太可能,但数据源可以授权开放一些脱敏的分析结果,用户通过 User Agent 与 Analysis Agent 交互来得到分析报告。

信任分

经过一段时间的经营,你可能已经用你的 WebID 和很多别的 WebID 建立了信任关系,可能有数百个其他 WebID 对你开放了不同程度的 ACL。

那么就可以统计对你的 WebID 开放了 ACL 的其他 WebID 的数量,来计算你的 WebID 的可信任度。而对你的 WebID 开放 ACL 的其他 WebID 也不是孤立的,它们也必须要被其他 WebID 信任,所以通过扫描这种信任链条,我们可以构建出一张图,用类似 PageRank 的原理,在图上计算出每个人的 TrustRank。

这种扫描可以作为一个服务,你对服务付费或免费开放自己的 ACL ,它才会帮你计算,算完可以得到一个类似芝麻信用的分数。

引用分析

互联数据终将形成一个可以一层层探索的知识库,你在某一个三元组中引用了其他内容的 URI,在 Web2.0 中被引用的那一方只能通过 referrer 被动地知道哪些页面引用了自己的 URI。而在 Web3.0 中你可以用 SPARQL 搜索以自己的 URI 为宾语的三元组,从而知道其他页面对你的 URI 的描述,而且这个描述不是简单的「引用」这个无类型关系,而是有具体的谓语描述了主语与你的 URI 的关系。

更精细的引用分析让源 URI 有了精准获客、精准陌生人社交的能力。

订阅中心

理论上用 w3c 的订阅方案是可以像用 rss 订阅博客那样订阅名人的 pod,但是现在大家不会去一个个订阅东西,而是需要默认的信息流,有一个发现新东西的基础,然后再进一步去订阅某些真正关心的人。

分布式身份

有的 SDAPP 发行商或者独立开发者可能会赠送 POD 和 WebID 给用户,特别是在 SoLiD 的早期,很多人并没有自己的 POD 和 WebID,所以赠送 POD 可以降低使用者的门槛。 这样每个人可能都会同时拥有多个 POD 和 WebID,怎么利用好这些存储和身份,让自己的数据自动得到适当冗余,就需要额外的工具来管理了。 不同身份之间可能还需要同步数据,或者隔离数据来塑造不同的形象。

农村包围城市,一开始推出的各种和社交无关的应用和游戏不会被微信等等现有平台封杀,但随后因为玩过这些小应用和游戏的用户都已经有 SoLiD 账号了,所以迁移到 SoLiD 上就不会有太大的阻力,就不太会遇到「加个 SoLiD 好友吧」「但是我没有 SoLiD 账号」这种情况了。而子弹短信就会有这种问题,你想加个别人的好友,说不定别人还没有子弹短信账号呢?

涌现

当互联网在上个世纪刚刚出现时,没人能第一时间想到计算广告学和 SaaS。区块链刚刚出现时,也没人第一时间想到用分布式的时空证明(PoST)来构建廉价的 CDN。

当数据自有了、数据互操作性增强了、应用不需要冷启动了之后,用户的隐私概念、应用的商业模式、社群的组织方式还会发生哪些变化呢?

我们还处在互联网初级阶段(Web 2.0),SoLiD 也才刚刚开始借助商业的力量推动,在这个全球性的社交语义网络构建的过程中还会演生出哪些商业机会?谁也没法第一时间想尽。

这片新的沃土还待你我来开垦。