原文作者:Mohamed Baioumy Alex Cheema
原文编译:BeWater
因报告全文篇幅较长,我们分拆成了两个部分发布。本篇为上篇,主要讲述了 AI x Crypto 的核心框架、具体的实例、建设者的机遇等。如果想要查看翻译全文,请点击此链接。
1. 导言
人工智能(AI)将引发前所未有的社会变革。
随着 AI 的快速发展以及在各行各业创造出的新可能性,它将不可避免地引发大范围的经济混乱。加密行业也不例外。我们在 2024 年的第一周就观察到了三次重大的 DeFi 攻击,DeFi 协议中 760 亿美元面临风险。利用 AI,我们可以检查智能合约的安全漏洞,并将基于 AI 的安全层集成到区块链中。
AI 的局限性在于坏人可以滥用强大的模型,恶意深度伪造的传播就证明了这一点。值得庆幸的是,密码学的各种进步将为 AI 模型引入新的能力,极大丰富 AI 行业的同时解决一些严重的缺陷。
AI 和加密领域(Crypto)的融合将催生无数值得关注的项目。其中一些项目将为上述问题提供解决方案,而另一些项目则会以浅显的方式将 AI 和 Crypto 结合起来,但却不会带来真正的好处。
在本报告中,我们将介绍概念框架,具体的实例和见解,帮助您了解这一领域的过去、现在和未来。
2. AI x Crypto 的核心框架
在本节中,我们将介绍一些实用的工具,帮助您更详细地分析 AI x Crypto 项目
2.1 什么是 AI(人工智能技术)x Crypto(加密技术)项目?
让我们回顾一些同时使用 crypto 和 AI 项目的例子,然后讨论它们是否真正属于 AI x Crypto 项目。
这个案例展示了加密技术如何帮助和改进一个 AI 产品——使用密码学方法来改变 AI 的训练方式。这导致了一个仅使用 AI 技术无法实现的产品:一个可以接受加密指令的模型。
图 1 :使用加密技术对 AI 栈进行内部更改,可产生新的功能。例如,FHE 允许我们使用加密指令
在这种情况下,AI 技术被用来改进加密产品——这与我们之前讨论的情况刚好相反。Dorsa 提供了一种 AI 模型,使创建安全智能合约的过程更快、更便宜。虽然它是链下的,但 AI 模型的使用仍然有助于加密项目:智能合约通常是加密项目解决方案的核心。
Dorsa 的 AI 能力可以发现人类忘记检查的漏洞,从而防止未来的黑客攻击。然而,这个特殊的例子并没有利用 AI 使加密产品具备以前做不到的能力——编写安全的智能合约。Dorsa 的 AI 只是让这个过程变得更好、更快。不过,这是 AI 技术(模型)改进加密产品(智能合约)的一个例子。
LoverGPT 并不是 Crypto x AI 的一个例子。我们已经确定了 AI 可以帮助改进加密技术栈,反之亦然,这可以通过 Privasea 和 Dorsa 的例子来说明。然而,在 LoverGPT 的例子中,加密部分和 AI 部分并没有相互作用,它们只是在产品中共存。要将某个项目视为 AI x Crypto 项目,仅仅让 AI 和 Crypto 为同一个产品或解决方案做出贡献是不够的——这些技术必须相互交织配合以产生解决方案。
加密技术和 AI 是可直接结合以产生更好解决方案的技术。将它们结合使用可以使彼此在整体项目中更好地发挥作用。只有涉及这些技术之间协同合作的项目才被分类为 AI X Crypto 项目 。
2.2 AI 与 Crypto 如何相互促进
图 2 :AI 和 crypto 在 3 种不同产品中的结合方式
让我们回顾一下之前的案例研究。在 Privasea 中,FHE(即加密技术)用于生成能够接受加密输入的 AI 模型。因此,我们正在使用 Crypto(加密)解决方案来改进 AI 的训练过程,因此 Crypto 正在帮助 AI。在 Dorsa 中,AI 模型被用于审查智能合约安全性。AI 解决方案被用来改进加密产品,因此,AI 正在帮助 Crypto。在评估 AI X Crypto 交叉点的项目时,这给我们带来了一个重要的维度:是 Crypto 被用来帮助 AI 还是 AI 被用来帮助 crypto?
这个简单的问题可以帮助我们发现当前用例的重要方面,即要解决的关键问题是什么?在 Dorsa 的案例中,我们期望的结果是一个安全的智能合约。这可以由熟练的开发者来完成,Dorsa 恰好利用 AI 提高了这一过程的效率。不过,从根本上说,我们只关心智能合约的安全性。一旦明确了关键问题,我们就能确定是 AI 在帮助 Crypto,还是 Crypto 在帮助 AI。在某些情况下,两者之间并不存在有意义的交互(例如 LoverGPT)。
下表提供了每个类别中的几个例子。
表 1 :Crypto 与 AI 如何相结合
您可以在附录中找到 150 多个 AI x Crypto 项目目录。如果我们有任何遗漏,或者您有任何反馈意见,请联系我们!
2.2.1 小结
AI 和 Crypto 都有能力支持另一种技术以实现其目标。在评估项目时,关键是要了解其核心是 AI 产品,还是 Crypto 产品。
图 3 :区别说明
2.3 内部与外部支持
让我们举一个 Crypto 帮助 AI 的例子。当组成 AI 的特定技术集合发生变化时,AI 解决方案作为一个整体的能力也会发生变化。这种技术集合被称为栈(Stack)。AI 栈包括构成 AI 各个方面的数学思想和算法。用于处理训练数据、训练模型以及模型推理的具体技术都是栈的一部分。
在栈中,各个部分之间有着深刻的联系——具体技术的组合方式决定了栈的功能。因此,改变栈就等于改变了整个技术所能实现的目标。在栈中引入新技术可以创造新的技术可能性——以太坊在其加密栈中添加了新技术,使智能合约成为可能。同样,对栈的改变也能让开发者绕过以前被认为是技术固有的问题——Polygon 对以太坊加密栈所做的改变使他们能够将交易费用降低到以前认为不可能达到的水平。
内部支持:加密技术可用于对 AI 栈进行内部更改,例如改变训练模型的技术手段。我们可以在人工智能栈中引入 FHE 技术,Privasea 就是例子,在 AI 栈中直接内置了一个加密的部分,形成了一个经过修改的 AI 栈。
外部支持:crypto 用于支持基于 AI 的功能,而无需对 AI 栈进行修改。Bittensor就是一个例子,它激励用户贡献数据——这些数据可用于训练 AI 模型。在这种情况下,模型的训练或使用方式没有任何改变;AI 栈也没有发生任何变化。不过,在 Bittensor 网络中,使用经济激励措施有助于 AI 栈更好地实现其目的。
图 4 :前面讨论的说明
同样,AI 也能为 Crypto 提供内部或外部帮助:
内部支持:AI 技术用于 crypto 栈内部。AI 位于链上,直接与 crypto 栈内的部分连接。举例来说,链上的 AI agents 管理着一个 DAO。这种 AI 不只是协助 cypto 栈。它是技术栈中不可分割的一部分,深深嵌入技术栈中,使 DAO 正常运行。
外部支持:AI 为 crypto 栈提供外部支持。AI 用于支持 Crypto 栈,而不对其进行内部更改。Dorsa 等平台使用 AI 模型来确保智能合约的安全。AI 在链外,是一种外部工具,用于使编写安全智能合约的过程更快以及更便宜。
图 5 :这是升级的模型,包含了内部和外部支持的区别
对任何 AI x Crypto 项目进行分析的第一阶段就是确定它属于哪个类别。
2.4 确定瓶颈
与外部支持相比,以深度技术整合为特点的内部支持往往有更多的技术难度。例如,如果我们想通过引入 FHE 或零知识证明(ZKPs)来修改 AI 栈,我们就需要在密码学和 AI 方面都有相当专业知识的技术人员。但很少有人属于这一交叉领域。这些公司包括 Modulus、EZKL、Zama和Privasea。
因此,这些公司需要大量资金和稀有人才来推进其解决方案。让用户在智能合约中集成人工智能同样需要深入的知识;Ritual和Ora等公司必须解决复杂的工程问题。
反之,外部支持也有瓶颈,但它们通常涉及的技术复杂性较低。例如,为 AI agents 添加加密货币支付功能并不需要我们对模型有太大修改。实现起来相对容易。虽然对于 AI 工程师来说,构建一个ChatGPT 插件,让 ChatGPT 从 DeFi LLama 网页上获取统计数据在技术上并不复杂,但很少有 AI 工程师是 crypto 社区的成员。虽然这项任务在技术上并不复杂,但能够使用这些工具的 AI 工程师却寥寥无几,而且很多人都不知道这些可能性。
2.5 测量效用
所有这四个类别中都会有好项目。
如果将人工智能集成到加密技术堆栈中,智能合约开发者将能够访问链上的人工智能模型,从而增加可能性的数量,并有可能带来广泛的创新。这同样适用于将加密整合到人工智能堆栈的情况——深度技术融合将产生新的可能性。
图 6 :在加密堆栈中加入人工智能,为开发者提供新功能
在人工智能为加密提供外部帮助的情况下,人工智能的集成很可能会改进现有产品,同时产生较少的突破,引入较少的可能性。例如,使用人工智能模型编写智能合约可能会比以前更快、更便宜,也可能会提高安全性,但不太可能产生以前不可能产生的智能合约。这同样适用于加密技术从外部帮助人工智能——代币激励可以用于人工智能堆栈,但这本身不太可能重新定义我们训练人工智能模型的方式。
总之,将一种技术整合到另一种技术栈中可能会产生新的功能,而使用技术栈之外的技术则可能会提高可用性和效率。
2.6 评估项目
我们可以根据特定项目所处的象限来估算其部分收益,因为技术之间的内部支持可以带来更大的回报,但估算一个项目经风险调整后的总收益则需要我们考虑更多的因素和风险。
需要考虑的一个因素是,所考虑的项目在Web2、Web3或两者的背景下是否都有用。具有 FHE 功能的人工智能模型可用于替代不具有 FHE 功能的人工智能模型——引入 FHE 功能对两个领域都有用,在任何情况下,隐私都是有价值的。不过,将人工智能模型集成到智能合约中只能在 Web3 环境中使用。
如前所述,人工智能和加密领域之间的技术整合是在项目内部还是外部进行的,也将决定项目上升潜力,涉及内部支持的项目往往会产生新的能力和更大的效率提升,而这是更有价值的。
我们还必须考虑这项技术成熟的时间跨度,这将决定人们需要等待多长时间才能获得回报。
对项目的投资。要做到这一点,可以分析当前的进展情况,并找出与项目相关的瓶颈问题(见第 2.4 节)。
图 7 :一个假设的例子,说明与时间跨度相比的潜在上升空间
2.7 了解复杂产品
有些项目涉及我们所描述的四个类别的组合,而不仅仅是一个类别。在这种情况下,与项目相关的风险和收益往往会成倍增加,项目实施的时间跨度也会更长。
此外,您还必须考虑项目的整体性是否优于各部分的总和——一个项目如果什么都有,往往不足以满足最终用户的需求。重点突出的方法往往会产生优秀的产品。
2.7.1 示例一:Flock.io
Flock.io允许在多个服务器之间 分割 训练模型,任何一方都无法访问所有训练数据。由于可以直接参与模型的训练,因此您可以使用自己的数据为模型做出贡献,而不会泄露任何数据。这有利于保护用户隐私。随着人工智能堆栈(模型训练)的改变,这涉及到加密在内部帮助人工智能。
此外,他们还使用加密代币奖励参与模型训练的人员,并使用智能合约对破坏训练过程的人员进行经济处罚。这并不会改变训练模型所涉及的流程,底层技术保持不变,但各方在都需要遵循链上罚没机制。这是加密技术从外部帮助人工智能的一个例子。
最重要的是,加密技术在内部帮助人工智能引入了一种新的能力:模型可以通过去中心化网络进行训练,同时保持数据的私密性。然而,从外部帮助人工智能的加密货币并没有引入新的能力,因为代币只是用来激励用户为网络做出贡献。用户可以用法币获得补偿,而用加密货币激励是一种更优解,可以提高系统的效率,但它并没有引入新的能力。
图 8 :Flock.io 的示意图以及堆栈的变化情况,其中颜色的变化意味着内部发生了变化
2.7.2 示例二:洛克菲勒机器人
洛克菲勒机器人是一个在链上运行的交易机器人。它使用人工智能来决定进行哪些交易,但由于人工智能模型本身并不在智能合约上运行,因此我们依赖于服务提供商为我们运行模型,然后告诉智能合约人工智能的决定,并向智能合约证明他们没有说谎。如果智能合约不检查服务提供商是否说谎,服务提供商就可能代表我们进行有害的交易。洛克菲勒机器人允许我们使用 ZK 证明向智能合约证明服务提供商没有撒谎。在这里,ZK 被用来改变人工智能堆栈。人工智能堆栈需要采用 ZK 技术,否则我们就无法使用 ZK 来证明模型对智能合约的决定。
由于采用了 ZK 技术,由此产生的人工智能模型输出具有可验证性,可以从区块链上进行查询,这意味着该人工智能模型在加密堆栈内部使用。在这种情况下,我们在智能合约中使用了人工智能模型,以公平的方式决定交易和价格。如果没有人工智能,这是不可能实现的。
图 9 :洛克菲勒机器人和堆栈变化示意图。颜色变化意味着堆栈(内部支持)发生了变化
3. 值得深究的问题
3.1 加密领域与深度伪造 (Deepfake) 启示录
1 月 23 日,一条人工智能生成的语音信息谎称自己是拜登总统,劝阻民主党人不要在 2024 年初选中投票。不到一周后,一名金融工作者因模仿其同事的深度伪造视频通话,损失了 2500 万美元。与此同时,在 X(前身为 Twitter)上,人工智能伪造的泰勒·斯威夫特(Taylor Swift)的露骨照片吸引了 4500 万次浏览,引发了广泛的愤怒。这些事件都发生在 2024 年的头两个月,它们只是深度伪造在政治、金融和社交媒体领域产生的各种破坏性影响的一个缩影。
3.1.1 它们是如何成为问题的?
伪造图像并不是什么新鲜事。1917 年,The Strand 杂志上刊登了一些被设计成仙女模样的精巧剪纸照片;许多人认为这些照片是超自然力量存在的有力证据。
图 10 :《科廷利仙子》照片之一。福尔摩斯的创作者阿瑟-柯南-道尔爵士曾将这些伪造图片作为灵异现象的证据。
随着时间的推移,造假变得越来越容易,成本也越来越低,从而大大提高了错误信息的传播速度。例如,在 2004 年美国总统大选期间,一张经过篡改的照片虚假地显示民主党提名人约翰·克里(John Kerry)与简·方达(Jane Fonda)一起参加抗议活动,简-方达是一位颇具争议的美国活动家。科廷利仙子需要精心布置,用硬纸板剪出儿童读物中的描摹图画,而这次伪造则是用 Photoshop 完成的简单任务。
图 11 :这张照片表明约翰·克里与简·方达在反越战集会上同台。后来发现这是一张伪造的照片,是用 Photoshop 将两张现有的图片合成的。
不过,由于我们学会了如何辨别编辑痕迹,假照片带来的风险已经降低。在“游客小哥 ”的案例中,业余爱好者能够通过观察场景中不同物体的白平衡不一致来识别图片是否经过剪辑。这是公众对虚假信息认识提高的产物;人们已经学会注意图片编辑的痕迹。“Photoshoped”一词已成为通用术语:图像被篡改的迹象已得到普遍认可,照片证据不再被视为不可篡改的证据。
3.1.1.1 深度伪造让造假更容易、更便宜、更逼真
过去,伪造证件很容易被肉眼识破,但深度伪造技术使制作几乎与真实照片无异的图像变得简单而廉价。例如,OnlyFake 网站使用深度伪造技术在几分钟内生成逼真的假身份证照片,只需 15 美元。这些照片被用来绕过 OKX(一家加密货币交易所)的反欺诈保障措施,即所谓的“了解你的客户(KYC)。在 OKX 的案例中,这些深度伪造的 ID 骗过了他们的员工,而这些员工都受过识别篡改图片和深度伪造的培训。这凸显出,即使是专业人士,也不再可能通过肉眼发现基于深度伪造的欺诈行为。
由于图像被深度伪造,人们加强了对视频证据的依赖,但深度伪造不久将严重破坏视频证据(的可信度)。德克萨斯大学达拉斯分校的一名研究人员利用免费的深度伪造换脸工具,成功绕过了KYC 提供商实施的身份验证功能。这是一个巨大的进步——过去,要生成具有合格水平的视频既昂贵又耗时。
2019 年,有人需要花费两周时间和 552 美元,才能制作出一段 38 秒的马克·扎克伯格深度伪造视频,视频中还会出现明显的视觉缺陷。如今,我们可以在几分钟内免费制作出逼真的 deepfake 视频。
图 12 :OnlyFake 面板可在几分钟内制作假身份证
3.1.1.2 视频为何如此重要
在深度伪造技术出现之前,视频曾是可靠的证据。与容易伪造的图像不同,视频在历史上一直是难以伪造的,因此在法庭上被公认为是可靠的证据。这使得视频深度伪造变得尤为危险。
与此同时,深度伪造的出现也可能导致对真实视频的否定,美国总统拜登的一段视频就被错误地称为深度伪造。批评者以拜登眼睛一眨不眨和光线差异为证据,这些说法已被推翻。这就导致了一个问题——“深度伪造”不仅让假的看起来像真的,也让真的看起来像假的,进一步模糊了真实与虚构之间的界限,增加了问责的难度。
深度伪造实现了大规模定向广告。我们可能很快就会看到另一个 YouTube,在这个版本中,所说的内容、所说的人以及所说的地点都是针对观众个性化定制的。一个早期的例子是Zomato 的本地化广告,广告中演员赫里希克·罗尚(Hrithik Roshan)在观众所在城市的热门餐馆点菜。Zomato 生成了不同的深度伪造广告,根据观众不同的 GPS 位置生成广告内容,介绍观众所在地的餐馆。
3.1.2 目前的解决方案有什么不足
3.1.2.1 意识
现在的深度伪造技术已经非常先进,足以骗过训练有素的专家。这使得黑客能够绕过身份验证(KYC/AML)程序,甚至人工审核。这表明,我们无法用眼睛将深度伪造与真实图像区分开来。我们不能仅仅通过对图像持怀疑态度来防范深度伪造:我们需要更多的工具来应对深度伪造的流行。
3.1.2.2 平台
如果没有强大的社会压力,社交媒体平台并不愿意有效抑制深度伪造。例如,Meta 禁止含有虚假音频的度伪造视视频,但拒绝禁止纯捏造的视频内容。他们违背了自己的监督委员会的建议,没有删除一段显示拜登总统抚摸孙女的深度伪造视频,即纯属捏造的内容。
3.1.2.3 政策
我们需要制定法律,有效应对新型深度伪造风险,同时又不限制问题较少的用途,如艺术或教育领域,因为这些用途并不试图欺骗人们。泰勒·斯威夫特(Taylor Swift)深度伪造图片未经同意而被传播等事件,促使立法者通过更严格的法律来打击此类深度伪造行为。针对此类案件,可能有必要在法律上强化在线审核程序,但禁止所有人工智能生成内容的提议引起了电影制作人和数字艺术家的警觉,他们担心这会不公正地限制他们的工作。找到正确的平衡点是关键,否则那些合法的创意应用将被扼杀。
推动立法者提高训练强大模型的准入门槛,大型科技公司可以确保其人工智能垄断地位。这可能会导致权力不可逆转地集中在少数公司手中——例如,涉及人工智能的第 14110 号行政命令就建议对拥有大量计算能力的公司提出严格要求。
图 13 :美国副总统卡马拉·哈里斯(Kamala Harris)在美国总统乔·拜登(Joe Biden)签署美国首个人工智能行政命令时鼓掌
3.1.2.4 技术
直接在人工智能模型中建立防护栏以防止滥用是第一道防线,但这些防护栏不断被破坏。人工智能模型很难审查,因为我们不知如何使用现有低级工具来修改更高维度的行为。此外,训练人工智能模型的公司可以利用实施防护栏作为借口,在其模型中引入不良审查和偏见。这是有问题的,因为大型科技人工智能公司无需对公众意愿负责——公司可以自由地影响其模型,而损害用户的利益。
即使强大人工智能的创造权并未集中在不诚实的公司手中,要想建立一个既有防护措施又不偏不倚的人工智能可能仍然是不可能的。研究人员很难确定什么是滥用,因此很难以中立、平衡的方式处理用户请求的同时防止滥用。如果我们无法定义滥用,似乎就有必要降低防范措施的严格程度,可能导致滥用再次发生。因此,完全禁止滥用人工智能模型是不可能的。
一种解决方案是在恶意深度伪造出现后立即对其进行检测,而不是阻止其产生。但是,深度伪造检测人工智能模型(如 OpenAI 部署的模型由于不准确,正在变得过时。虽然深度赝品检测方法已经变得越来越复杂,但制造深度赝品的技术却在以更快的速度变得越来越复杂——深度伪造检测器在技术军备竞赛中败下阵来。这使得仅凭媒体很难识别深度假新闻。人工智能已经足够先进,可以制造出逼真到人工智能无法判断其准确性的假镜头。
水印技术能够在深层伪造品上隐蔽地打上标记,无论它们出现在哪里,我们都能识别出来。但是,深度伪造品并不总是带有水印,因为水印必须是刻意添加的。自愿将其伪造图像标出而做出区分的公司(如 OpenAI),水印是一个有效的方法。但无论如何,水印都可以用简单易用的工具去除或伪造,从而绕过任何基于水印的防深度伪造解决方案。水印也可能被意外删除,大多数社交媒体平台都会自动删除水印。
最流行的深度伪造水印技术是C 2 PA(由内容出处和真实性联盟提出)。它旨在通过追踪媒体来源并将此信息存储在媒体元数据中来防止错误信息。该技术得到了 Microsoft、Google 和 Adobe 等公司的支持,因此 C 2 PA 很有可能会在整个内容供应链中推广,它比起其他同类技术更加受欢迎。
遗憾的是,C 2 PA 也有自己的弱点。由于 C 2 PA 会存储图像的完整编辑历史,并使用符合 C 2 PA 标准的编辑软件中所控制的加密密钥,对每次编辑进行验证,因此我们必须信任这些编辑软件。但是,人们很可能会因为有效的 C 2 PA 元数据而直接接受经过编辑的图像,而不会考虑是否信任编辑链中的每一方。因此,如果任何编辑软件遭到破坏或能够进行恶意编辑,就有可能让其他人相信伪造或恶意编辑的图像是真实的。
图 14 :包含一连串编辑的符合 C 2 PA 标准元数据的图像示例。每个编辑都由不同的可信方签名,但只有最终编辑的图像是公开的。资料来源:真实照片与人工智能生成的艺术:新标准(C 2 PA)利用 PKI 显示图像的历史
此外,C 2 PA 水印中包含的加密签名和元数据可以与特定用户或设备联系起来。在某些情况下,C 2 PA 元数据可以将您的相机拍摄的所有图像相互连接起来:如果我们知道某张图像来自某人的相机,我们就可以识别来自该相机的所有其他图像。这可帮助举报人在发布照片时匿名化处理。
所有潜在的解决方案都将面临一系列独特的挑战。尽管这些挑战千差万别——包括社会意识的局限性、大型科技公司的缺陷、监管政策的实施难度以及我们的技术局限性。
3.1.3 加密领域能解决这个问题吗?
开源的深度伪造模型已经开始流传。因此,有人可能会说,总有一些方法可以利用深度伪造来滥用他人的肖像;即使这种做法被定为犯罪,有人还是会选择生成不道德的深度伪造内容。不过,我们可以让恶意深度伪造内容退出主流来解决这一问题。我们可以防止人们认为深度伪造的图片是真实的,且能够创建限制深度伪造内容的平台。本节将介绍各种基于加密技术的解决方案,以解决恶意深度伪造传播带来的误导问题,同时强调每种方法的局限性。
3.1.3.1 硬件认证
经过硬件认证的相机在拍摄每张照片时都会嵌入一个独特的证明,证明照片是由该相机拍摄的。该证明由相机独有的不可复制、防篡改芯片生成,确保图像的真实性。音频和视频也可以使用类似的程序。
认证证明告诉我们,图像是由真实相机拍摄的,这意味着我们通常可以相信这是真实物体的照片。我们可以标记没有这种证明的图像。但如果相机拍摄的是伪造场景,而伪造场景的设计看起来就像真实场景,那么这种方法就失效了——你可以直接将相机对准一张伪造的图片。目前,我们可以通过检查捕捉到的图像是否失真来判断照片是否从数字屏幕上拍摄的,但骗子们会找到隐藏这些瑕疵的方法(例如,通过使用更好的屏幕,或通过限制镜头眩光)。最终,即使是人工智能工具也无法识别这种欺诈行为,因为骗子可以找到避免所有这些失真的方法。
硬件认证将减少信任伪造图像的情况,但少数情况下,我们仍然需要额外的工具来防止深度伪造图像在摄像头被入侵或滥用情况下传播。正如我们之前所讨论的,使用经过硬件验证的摄像头仍有可能造成深度伪造内容是真实图像的错误印象,原因比如摄像头被黑客攻击,或相机被用来拍摄电脑屏幕上深度伪造的场景。要解决这个问题,还需要其他工具,比如摄像头黑名单。
相机黑名单将使社交媒体平台和应用程序能够标记来自特定相机的图像,因为已知该相机过去曾生成过误导性图像。黑名单可以无需公开披露可用于追溯相机的信息,如相机 ID 等。
然而,目前还不清楚由谁来维护摄像机黑名单,也不清楚如何防止人们收受贿赂后把举报人的相机也加入黑名单(的报复行为)。
3.1.3.2 基于区块链的图像年表
区块链是不可篡改的,因此在互联网上出现图像时,将图像与附加元数据一起添加到带有时间戳的年表中,这样时间戳和元数据就不会被篡改。由于未经编辑的原始图片在恶意编辑扩散之前,就能被诚实的各方以不可更改的方式存储在区块链上,因此访问这样的记录将使我们能够识别恶意编辑并验证原始来源。这项技术已在 Polygon 区块链网络上实施,作为与福克斯新闻合作开发的事实核查工具 Verify 的一部分。
图 15 :Fox 基于区块链的工具 Verify 的用户界面。可以通过 URL 查找艺术品。从 Polygon 区块链获取并显示来源、交易哈希值、签名、时间戳和其他元数据
3.1.3.3 数字身份
如果深度伪造会破坏我们对未经核实的图片和视频的信任,那么可信来源可能会成为避免虚假信息的唯一途径。我们已经依赖可信的媒体来源来核实信息,因为它们采用新闻标准、事实核查程序和编辑监督来确保信息的准确性和可信度。
然而,我们需要一种方法来验证我们在网上看到的内容是否来自我们信任的来源。这就是加密签名数据的用处:它可以用数学方法证明某个内容的作者。
签名是使用数字密钥生成的,由于密钥是由钱包创建和生成的,因此只有拥有相关加密钱包的人才知道。这样,我们就能知道谁是数据的作者——只需检查签名是否与个人加密钱包中专属于自己的密钥相对应即可。
我们可以利用加密货币钱包,以无缝和用户友好的方式将签名附加到我们的帖子上。如果使用加密货币钱包登录社交媒体平台,就可以利用钱包在社交媒体上创建和验证签名的功能。因此,如果某个帖子的来源不可信,平台将能够向我们发出警告——它将使用自动签名校验来标记错误信息。
此外,与钱包连接的zk-KYC基础设施可以在不损害用户隐私和匿名性的情况下,将未知钱包与通过 KYC 流程验证的身份绑定在一起。然而,随着深度伪造变得越来越复杂,KYC 流程可能会被绕过,从而允许恶意行为者创建虚假的匿名身份。这个问题可以通过 Worldcoin 的个人身份证明(PoP)等解决方案来解决。
个人身份证明是 WorldCoin 用来验证其钱包是否属于真人的机制,并且只允许一人一个钱包。为此,它使用生物识别(虹膜)成像设备Orb来验证钱包。由于生物识别数据尚无法伪造,因此要求社交媒体账户与唯一的 WorldCoin 钱包相链接是一种可行的方法,可以防止不良行为者制作多个匿名身份来掩盖其不道德的网络行为——至少在黑客找到欺骗生物识别设备的方法之前,它可以解决深度伪造 KYC 问题。
3.1.3.4 经济激励措施
作者可因错误信息而受到惩罚,用户可因识别错误信息而获得奖励。例如,真实性债券(Veracity Bonds)使媒体机构能够以其出版物的准确性作为赌注,因错误信息而面临经济处罚。这就为这些媒体公司提供了一个经济上的理由来保证信息的真实性。
真实性债券将是真相市场不可分割的一部分,在这个市场上,不同的系统通过最高效、最稳健的方式验证内容的真实性来争夺用户的信任。这类似于证明市场,如Succinct Network和=nil Proof Market,但针对的是更棘手的真实性验证问题。
这仅靠密码学是不够的。智能合约(Smart Contracts)可以作为一种手段,强制实施使这些“真相市场”发挥作用所需的经济激励措施,因此区块链技术可能会在帮助打击虚假信息方面发挥核心作用。
3.1.3.5 声誉评分
我们可以用声誉来代表可信度。例如,我们可以看一个人在推特上有多少粉丝,来判断是否应该相信他所说的话。不过,声誉系统应考虑每个作者的过往记录,而不仅仅是他们的知名度。我们不希望将可信度与受欢迎程度混为一谈。
我们不能允许人们无限量地生成匿名身份,否则,他们就可以在名誉受损时抛弃自己的身份,以重置他们的社会可信度。这就要求我们使用无法复制的数字身份,如上一节所述。
我们还可以利用真相市场和硬件认证中的证据来确定一个人的声誉,因为这些都是跟踪其真实记录的可靠方法。声誉系统是迄今为止所讨论的所有其他解决方案的集大成者,因此也是最强大、最全面的方法系列。
图 16 :马斯克在 2018 年暗示创立网站,对期刊论文、编辑和出版物将进行可信度评分
3.1.4 加密解决方案是否可扩展?
上述区块链解决方案需要快速和高存储量的区块链——否则,我们就无法将所有图像纳入链上可验证的时间记录中。随着每天发布的在线数据量呈指数级增长,这一点只会变得越来越重要。不过,有一些算法可以以仍然可以验证的方式压缩数据。
此外,通过硬件认证生成的签名不适用于图像的编辑版本:必须使用 zk-SNARKs 生成编辑证明。ZK Microphone 是针对音频的编辑证明实现。4
3.1.5 深度伪造并非本质上就是坏事
必须承认,并非所有的深度伪造都是有害的。这项技术也有无辜的用途,比如这段人工智能生成的泰勒·斯威夫特(Taylor Swift)教授数学的视频。由于深度伪造的低成本和可访问性,创造了个性化的体验。例如,HeyGen允许用户发送带有人工智能生成的酷似自己的脸的个人信息。深度仿真还通过配音翻译缩小语言差距。
3.1.5.1 控制深度伪造并将其货币化的方法
基于深度伪造技术的人工智能“仿真人”服务(AI counterpart services),他们收取高额费用,缺乏问责制和监督。OnlyFans 上的头号网红 Amouranth 发布了自己的数字人,粉丝们可以私下与她交谈。这些初创公司可以限制甚至关闭访问权限,例如名为 Soulmate 的人工智能伴侣服务。
通过在链上托管人工智能模型,我们可以使用智能合约以透明的方式为模型提供资金并对其进行控制。这将确保用户永远不会失去对模型的访问权,并能帮助模型创建者在贡献者和投资者之间分配利润。不过,这也存在技术挑战。实现链上模型的最流行技术 zkML(Giza、Modulus Labs 和 EZKL 使用)会使模型运行速度慢 1000 倍。尽管如此,该子领域的研究仍在继续,技术也在不断改进。例如,HyperOracle正在尝试使用opML,Aizel 正在构建基于多方计算(MPC)和可信执行环境(TEE)的解决方案。
3.1.6 章节摘要
复杂的深度伪造正在侵蚀政治、金融和社交媒体领域的信任,凸显了建立可验证网络 以维护真相和民主诚信的必要性。
深度伪造曾经是一项昂贵且技术密集型的工作,但随着人工智能的进步,它已变得很容易制作,从而改变了虚假信息的格局。
4 如果您对此问题感兴趣,请联系阿尔比恩。
历史告诉我们,操纵媒体并不是新的挑战,但人工智能使制造令人信服的假新闻变得更加容易和便宜,因此需要新的解决方案。
视频造假带来了独特的危险,因为它们损害了以往被认为可靠的证据,导致社会陷入一种困境,即真实行为可能被当作假的。
现有对策分为意识、平台、政策和技术方法,每种方法在有效打击深度伪造方面都面临挑战。
硬件证明和区块链证明了每张图片的来源,并创建了透明、不可更改的编辑记录,从而提供了前景广阔的解决方案。
加密货币钱包和 zk-KYC 加强了在线内容的验证和认证,而链上信誉系统和经济激励措施(如 真实性债券)则为真相提供了一个市场。
在承认深度伪造的积极用途的同时,加密技术还提出了一种将有益的深度伪造列入白名单的方法,从而在创新与诚信之间取得平衡。
3.2 苦涩的一课
这句话有悖常理,但却是事实。人工智能界拒绝接受定制方法效果不佳的说法,但苦涩的教训仍然适用:使用最强的计算能力总能产生最好的结果。
我们必须扩大规模:更多 GPU、更多数据中心、更多训练数据。
计算机国际象棋研究人员曾试图利用人类顶尖棋手的经验来构建国际象棋引擎,这就是研究人员弄错了的一个例子。最初的国际象棋程序都是照搬人类的开局策略(使用开局书)。研究人员希望国际象棋引擎能从强势局面开始,而无需从头开始计算最佳棋步。它们还包含许多战术启发法——人类棋手使用的战术,如叉子。简单地说:国际象棋程序是根据人类对如何成功下棋的见解而不是一般的计算方法构建的。
图 18 :叉子——皇后攻击两个棋子
图 19 :国际象棋开局顺序示例
1997 年,IBM 的 DeepBlue 结合了巨大的计算能力和基于搜索的技术,击败了国际象棋世界冠军。尽管 DeepBlue 优于所有人类设计的国际象棋引擎,但国际象棋研究人员对其避而远之。他们认为,DeepBlue 的成功只是昙花一现,因为它并没有采用国际象棋策略——在他们看来,这是一种粗暴的解决方案。他们错了:从长远来看,将大量计算应用于一般问题的解决方法往往会比定制方法产生更好的结果。这种高计算意识形态
催生了成功的围棋引擎(AlphaGo)、改进的语音识别技术,以及更可靠的计算机视觉技术。
高计算人工智能方法的最新成果是 OpenAI 的 ChatGPT。与之前的尝试不同,OpenAI 并没有试图将人类对语言工作原理的理解编码到软件中。相反,他们的模型将来自互联网的大量数据与海量计算结合起来。与其他研究人员不同的是,他们没有干预,也没有在软件中嵌入任何偏见。从长远来看,性能最好的方法总是基于利用大量计算的通用方法。这是历史事实;事实上,我们可能有足够的证据证明这一点永远正确。
从长远来看,将巨大的计算能力与大量数据相结合是最好的方法,其原因在于摩尔定律:随着时间的推移,计算成本将呈指数级下降。在短期内,我们可能无法确定计算带宽的大幅增长,这可能导致研究人员试图通过手动将人类知识和算法嵌入软件来改进他们的技术。这种方法可能会在一段时间内奏效,但从长远来看不会取得成功:将人类知识嵌入底层软件会使软件变得更加复杂,模型也无法根据额外的计算能力进行改进。这使得人工方法变得目光短浅,因此萨顿建议我们忽略人工技术,将重点放在将更多计算能力应用于通用计算技术上。
《苦涩的一课》对我们应该如何构建去中心化的人工智能有着巨大的影响:
构建大型网络:上述经验教训凸显了开发大型人工智能模型并汇集大量计算资源对其进行训练的紧迫性。这些都是进入人工智能新领域的关键步骤。Akash、GPUNet和 IoNet等公司旨在提供可扩展的基础设施。
图 20 :Akash 价格与亚马逊 AWS 等其他供应商的比较
硬件创新:ZKML 方法一直受到批评,因为它们的运行速度比非 ZKML 方法慢 1000 倍。这与神经网络面临的批评不谋而合。20 世纪 90 年代,神经网络展现出了巨大的前景。Yann LeCun 的 CNN 模型是一个小型神经网络,能够对手写数字图像进行分类(见下图),并取得了成功。到 1998 年,美国有超过 10% 的银行使用这种技术读取支票。然而,这些 CNN 模型无法扩展,因此人们对这些神经网络的兴趣急剧下降,计算机视觉研究人员又开始利用人类知识来创建更好的系统。2012 年,研究人员利用 GPU(一种通常用于生成计算机图形(游戏、CGI 等的流行硬件)的计算效率,开发出一种新的 CNN。这让他们达到了令人难以置信的性能,超过了当时所有其他可用的方法。这个网络被称为 AlexNet,它引发了深度学习革命。
图 22 : 90 年代的神经网络只能处理低分辨率的数字图像。
图 23 :AlexNet ( 2012) 能够处理复杂的图像并超越了所有替代方法
人工智能技术的升级是必然的,因为计算成本总是越来越低。用于 ZK 和 FHE 等技术的定制硬件将加速进展——Ingonyama等公司和学术界正在铺平道路。从长远来看,我们将通过应用更强的计算能力和提高效率来实现大规模的 ZKML。唯一的问题是,我们将如何利用这些技术?
图 24 :ZK 证明器硬件进步的一个例子(资料来源)
扩展数据:随着人工智能模型规模和复杂性的增长,有必要相应地扩展数据集。一般来说,数据集的规模应与模型规模成指数增长,以防止过度拟合并确保性能稳定。对于一个拥有数十亿参数的模型来说,这往往意味着要策划包含数十亿 token 或示例的数据集。例如,谷歌的 BERT 模型是在包含超过 25 亿个单词的整个英文维基百科和包含约 8 亿个单词的 BooksCorpus 上进行训练的。而 Meta 的 LLama 则是在 1.4 万亿个词库的基础上进行训练的。这些数字强调了我们所需的数据集的规模——随着模型向万亿个参数发展,数据集必须进一步扩大。这种扩展可以确保模型能够捕捉到人类语言的细微差别和多样性,因此开发庞大、高质量的数据集与模型本身的架构创新同样重要。Giza、Bittensor、Bagel 和 FractionAI 等公司正在满足这一领域的特殊需求(有关数据领域的挑战,如模型崩溃、对抗性攻击和质量保证方面的挑战,详见第 5 章)。
开发通用方法:在去中心化人工智能领域,ZKPs 和 FHE 等技术采用针对具体应用的方法是为了追求立竿见影的效率。为特定架构量身定制解决方案可提高性能,但可能会牺牲长期灵活性和可扩展性,从而限制更广泛的系统演进。相反,专注于通用方法提供了一个基础,尽管最初会有效率低下的问题,但具有可扩展性,能够适应各种应用和未来的发展。在摩尔定律等趋势的推动下,随着计算能力的增长和成本的降低,这些方法必将大放异彩。在短期效率和长期适应性之间做出选择至关重要。强调通用方法可以为去中心化人工智能的未来做好准备,使其成为一个稳健、灵活的系统,充分利用计算技术的进步,确保持久的成功和相关性。
3.2.1 结论
在产品开发的早期阶段,选择不受规模限制的方法可能至关重要。这对公司和研究人员评估用例和想法都很重要。然而,惨痛的教训告诉我们,从长远来看,我们应该始终牢记优先选择通用的可扩展方法。
这里有一个手动方法被自动、通用微分所取代的例子:在使用 TensorFlow 和 PyTorch 等自动微分(autodiff)库之前,梯度通常是通过手动或数值微分来计算的——这种方法效率低、容易出错,而且会产生问题,浪费研究人员的时间,而自动微分则不同。现在 Autodiff 已成为不可或缺的工具,因为 autodiff 库加快了实验速度,简化了模型开发。因此,通用解决方案获胜了——但在 autodiff 成为成熟可用的解决方案之前,旧的手动方法是进行 ML 研究的必要条件。
总之,里奇·萨顿的苦涩的一课告诉我们,如果我们能最大限度地提高人工智能的计算能力,而不是试图让人工智能去模仿人类所熟知的方法,那么人工智能的进步将会更快。我们必须扩展现有计算能力、扩展数据、创新硬件并开发通用方法——采用这种方法将对去中心化人工智能领域产生诸多影响。尽管苦涩的一课不适用于研究的最初阶段,但从长远来看,它可能永远都是正确的。
3.3 AI Agents(人工智能代理)将颠覆谷歌和亚马逊
3.3.1 谷歌的垄断问题
在线内容创作者通常依赖谷歌来发布他们的内容。反过来,如果允许谷歌索引和展示他们的作品,他们就能获得源源不断的关注和广告收入。然而,这种关系是不平衡的;谷歌拥有垄断地位(超过 80% 的搜索引擎流量),其市场份额是内容创作者自身无法企及的。因此,内容创作者的收入严重依赖于谷歌和其他科技巨头。谷歌的一个决定就有可能导致个人业务的终结。
谷歌推出的精选片段(Featured Snippets)功能——显示用户查询的答案,而无需点击进入原始网站——突出了这一问题,因为现在无需离开搜索引擎就能获得信息。这打乱了内容创建者赖以生存的规则。作为被谷歌索引其内容的交换条件,内容创建者希望自己的网站能获得推荐流量和眼球。取而代之的是,精选片段(Featured Snippets)功能允许谷歌总结内容,同时将创作者排除在流量之外。内容生产者的分散性使他们基本无力采取集体行动反对谷歌的决定;由于没有统一的声音,单个网站缺乏讨价还价的能力。
图 25 :精选片段(Featured Snippets)功能示例
谷歌通过提供用户查询答案的来源列表进行了进一步试验。下面的示例包含《纽约时报》、维基百科、MLB.com 等网站的来源。由于谷歌直接提供了答案,这些网站不会获得那么多流量。
图 26 :来自网络 功能示例
3.3.2 OpenAI 的垄断问题
谷歌推出的“精选片段”功能代表了一种令人担忧的趋势——减少原创内容创作者的认可。ChatGPT 将这一概念进行了逻辑上的延伸,充当了一个无所不知的信息代理,没有任何链接,也没有对原始材料的引用。
像 ChatGPT 这样的语言模型可以通过总结从互联网上搜罗的内容来回答几乎任何问题,但它无法引导用户访问原始出版者。相反,该模型将从版权作品中获得的知识积累到一个完全由 OpenAI 控制的单一界面中。
这些模型的成功依赖于构成互联网的海量数据,而内容创作者对模型训练的重要投入却得不到任何回报。一些规模较大的出版商设法与 OpenAI 等公司达成协议,但对于规模较小的内容创作者来说,这样的做法是不可行的。还有一些出版商决定干脆阻止人工智能模型搜索他们的内容,但对于闭源模型来说,这一点无法得到保证。
人工智能公司试图为自己的不赔偿行为辩解,称人工智能系统只是从内容中学习——就像人类从阅读中了解世界一样——但在产出内容时并没有侵犯内容创作者。不过,这种说法值得商榷,因为 ChatGPT 可以逐字逐句地复制《纽约时报》的整篇文章。Midjourney 和 DALL-E 也能生成受版权保护的内容。
其影响显而易见——大科技公司继续巩固权力,而无足轻重的内容创作者的影响力却在减弱。这种不对称的关系引发了对谷歌的诉讼,而这种关系只会变得更加极端。老牌出版商,如纽约时报已经采取了法律行动,从数字艺术家到编码员等一系列内容创作者也采取了集体诉讼。
一种建议的解决方案是检索增强生成(RAG),它允许语言模型为其答案提供来源。然而,这与”精选片段“存在同样的问题——它根本没有给用户任何访问原始网站的理由。更糟糕的是,科技巨头们可以虚伪地利用 RAG 作为法律掩护,但同时仍剥夺了创作者的流量和广告收入。
图 27 :RAG 将链接作为来源。此结果由 Per-plexity AI 生成
3.3.3 加密领域的潜在解决方案
随着像 ChatGPT 这样的信息代理的出现,大科技公司似乎准备重蹈覆辙,垄断人工智能的生成,尽管它们依赖的是未经认可的创作者内容。但是,现在人工智能正在扰乱市场,我们有机会重新分配权力,建立一个更公平的系统来补偿创作者。本世纪初,政策制定者错失了建立公平模式的机会,导致了今天的分配系统——一个由谷歌垄断的系统。当前人工智能的崛起是一个十字路口,我们是要纠正过去的错误,还是要让历史重演,让 OpenAI 和其他科技巨头获得单方面的控制权?
为了长期激励优质内容的生产,我们必须探索继续为创作者提供公平报酬的方法。正如克里斯-迪克森(Chris Dixon)所言,加密货币通过区块链提供了一种解决方案,即充当集体谈判机器,解决类似的大规模经济协调问题,尤其是在当前权力不对称的情况下。它们的治理可以由创作者和人工智能提供商共同管理。
在人工智能方面,创造者可以利用区块链的能力来编写由软件强制执行的使用条款和规定相关限制。例如,通过设定模型训练等商业应用的条件。然后,智能合约将自动执行归属系统,将人工智能系统产生的部分收入分配给贡献者。(在没有只能合约的情况下)即使目前的人工智能公司想要补偿创作者,但是由于人数太多也不太可行。
区块链的可组合性还将减少对任何单一模式的依赖,从而实现更自由的人工智能市场。这种竞争将为创作者带来更友好的利润分享。面对由公正协议执行的统一条款,人工智能公司要么接受创作者制定的集体协议,要么只能放弃;科技巨头再也不能对个人施加单方面的影响力。
对 ChatGPT 等信息代理的集中控制也引发了对嵌入式广告等问题的担忧。虽然谷歌在搜索结果的顶部对广告进行了明确划分,但 AI agents 可以将付费推荐无缝整合到回复中。相比之下,基于加密领域的解决方案允许对 AI agents 进行审计。
3.3.4 人工智能代理(AI Agents)与亚马逊
从像 ChatGPT 这样回答语言模型自然延伸出来的是可以代表用户采取行动的人工智能程序,即从信息代理到行动代理(简称代理)的转变。这些系统不仅能为你找到最好的蓝牙音箱,还能直接订购送货到家。依靠 OpenAI 等公司的闭源代理来完成这些任务,将赋予它们超越内容创作市场的巨大力量,有可能让它们主导 6.3 万亿美元的电子商务市场等行业。OpenAI 不仅会成为下一个谷歌,也会成为下一个亚马逊。
如果少数几家大型科技公司拥有功能最强大、应用最广泛的人工智能代理,那么它们将对消费者和各行各业产生巨大的影响力。这些代理将对我们越来越广泛的数字生活——购物、旅行和理财——起到中介作用。如果没有人工智能代理,我们就只能依赖 OpenAI 或谷歌这样的公司。它们的闭源代理将成为网络世界的守门人,控制我们对关键服务和信息的访问,而且它们可以修改代理的行为,而无需承担任何责任。
这种专有人工智能的权力集中与谷歌和 Facebook 等大型科技垄断企业的崛起有相似之处。但是,当人工智能代理可以跨领域无缝地采取行动时,其影响将呈指数级增长。这就是去中心化的区块链替代方案如此重要的原因——它们引入了竞争、用户授权和透明度,能够抵御人工智能代理被大型科技公司垄断的风险。
总之,像 ChatGPT 这样的人工智能模型为我们提供了信息代理,可以代表我们阅读内容并回答问题。这不仅会颠覆我们消费信息的方式,也会颠覆谷歌的商业模式和创作者赖以生存的规则。在这种颠覆面前,我们有机会建立一个对创作者的工作和贡献更公平地产生回报的新互联网。
能够采取行动人工智能代理(例如在线购买商品)的区块链技术将颠覆电子商务。区块链再次为建立公平的互联网模式提供了机会。我们能否从谷歌和亚马逊时代的错误中吸取教训?
3.4 加密领域将加速人工智能的开源技术的发展
3.4.1 人工智能现在处于什么阶段?
目前,人工智能已成为 21 世纪发达社会的主要工具。人工智能的应用范围包括艺术、教育、金融、政治、编程以及更多其他应用。只需有限的提示,它就能在几秒钟内生成逼真的视频和图像。程序员已经开始使用人工智能来开发高效实用的代码,将自己的劳动外包给人工智能。现实世界与科幻小说之间的界限正在随着人工智能在我们社会中的每一次应用而变得越来越模糊。
因此,我们很可能会面临劳动力危机。如果我们能够将大量的智力劳动外包给人工智能,那么从经济角度来看,使用人工智能可能很快就会比使用人类劳动力更有优势。如果人类劳动力被人工智能取代,我们就需要适应劳动力市场的这种新状态。这种适应将导致我们当前经济系统的运作方式发生混乱。本节将讨论人工智能的发展方向,以及通过加密技术解决方案防止此类危机发生的方法。
3.4.2 我们为什么要关注开源人工智能?
一般来说,开源软件是开放给任何人使用的软件,通常附有许可证,说明可以使用该软件、和不可以使用该软件做什么。开源人工智能是指人工智能软件开放给任何人使用,并通过许可证提供类似的限制。开源项目在通常采取自由参与产品开发的组织形式。它以社区为中心,社区欢迎代码贡献和错误修正,往往具有协作性质。本节将说明人工智能开源的重要性。
人工智能技术的开源可以用来创造一个更具竞争力的人工智能市场。竞争是件好事,因为在开发产品的过程中,有各种各样的人拥有不同的才能和不同的技术水平。假设有一家公司才济济,但却犯了一个大错误,那么竞争性市场就会鼓励人们去弥补这个错误,从而限制错误造成的损害。开源人工智能降低了人们进入人工智能市场的门槛,任何人都可以使用人工智能软件并做出贡献。由于任何人都可以通过开源人工智能进入市场,这就意味着市场上有了更多的竞争者,使该行业的竞争比现在激烈得多。
通过开源人工智能技术可用于保护行业免受恶意伤害。技术是一种强大的工具,但其本身是中性的。它可以用来造福人类,也可以用来危害人类,这取决于技术掌握在谁的手中。我们更希望有好的行为者来掌握这项技术,尤其是为了对抗那些利用技术来伤害人类的行为者。通过开源可以让让更多的人和人才进入人工智能行业。
此外,人工智能行业的准入门槛降低,人才和技能库得以释放,会促进行业的进一步发展。人工智能能为我们人类带来进步。我们已经概述了其目前的广泛应用,但其仍由巨大的发展潜力,这对我们人类的进步大有裨益。通过开源人工智能技术可以降低人才进入该行业的门槛,从而加速人工智能的发展。更多的人才意味着我们可以制造出更好的人工智能,在社会中得到更广泛的应用。开源人工智能为我们提供了一个工具,让我们能够获得开发这项技术的人才和能力的源泉。
人工智能技术的开源为开发人员提供了自由空间,他们可以根据自己的需要指定和定制人工智能。人工智能的一个特点是可以为特定目的进行定制。定制的人工智能可以满足特定的需要和需求,从而大大提高产品的质量。由于目前人工智能行业的封闭性,开发者定制人工智能软件的能力往往受到限制。他们将允许开发者自由定制,使他们的产品达到最佳效果。这种自由将带来更好的市场,也将带来更好的产品。
总结来看,”技术-资本“是一个永久增长的机器。通过市场获得的资本推动技术发展,市场通过技术发展创造更多资本,从而形成良性循环。开源人工智能提供了一个竞争、低门槛、自由和协作的空间,这会促进创新和人工智能技术的传播,从而刺激经济增长和更多市场(需求)。这对行业的发展能力和造福人类都至关重要。
3.4.3 OpenAI 与开源人工智能
在人工智能行业,领先的公司是 OpenAI。自 2022 年发布 ChatGPT 以来,OpenAI 已在利润和知识方面领跑人工智能行业。他们拥有 Microsoft 和大科技公司的支持,因此在人工智能市场根基很深。从目前来看,要让开源人工智能与 OpenAI 在同一水平线上竞争,似乎是一场艰苦的战斗。然而,我们有充分的理由认为,开源人工智能有望在市场上挑战并击败 OpenAI。
将人工智能开源能够规避恐惧的政府对人工智能行业实施的监管。目前,世界各地的政府和监管机构都在争相监管和限制新兴的人工智能产业。这种监管的目标是 OpenAI 所使用的传统人工智能,即由单一组织集中管理和保存的人工智能。这种监管将限制人工智能行业的发展。然而,开源的人工智能项目具有可以没有管理者的优势,而且是去中心化的。这意味着政府很难对开源人工智能进行监管。这就为开源的人工智能项目提供了一个优势,即未来不会像 OpenAI 那样受到法规的限制。
此外,我们还看到,开源的人工智能技术或项目可以从 OpenAI 中获益,而 OpenAI 却无法从它们中获益。OpenAI 的主要目标是实现自身利益的最大化,这意味着他们将大量模型和数据保密,以防止竞争对手利用这些模型和数据为自己谋利。开源人工智能可以使用许可证来阻止 OpenAI 从不太规范的开发中获益。OpenAI 会发现自己在市场中孤立无援,因为他们只是一家公司,而使用开源的人工智能技术或项目的机构却很多。这将意味着,开源公司可以通过限制 OpenAI 的访问权限,从 OpenAI 丰富的数据和知识中获益。不过,可能需要新的许可证才能最终为 OpenAI 提供这种访问权。
最后,与 OpenAI 相比,开源人工智能更有可能吸引那些热衷于改善人工智能的意识形态人士。这是因为它的准入门槛很低。然而,有人可能会认为,这将导致难以协调和开发产品的情况。然而,这类项目并不需要很多人。Linux 的 Linus Torvalds 就是这样一个例子,一个人持续不断地为项目做出贡献,就能产生如此巨大的影响。OpenAI 的准入门槛较高,因此很难吸引有热情的人加入。
尽管现在看来,OpenAI 已经牢牢控制了人工智能行业,但开源的人工智能技术或项目可以依靠几条路线来挑战 OpenAI 的控制。其灵活性、可访问性以及以社区为中心而非以利润为中心的人工智能方法,意味着它拥有强大的工具,可以通过在不断发展和动态的市场中孤立它们来击败 OpenAI。它们有潜力击败 OpenAI。
3.4.4 人工智能技术开源问题
然而,开源的人工智能技术要想与大型科技公司和 OpenAI 抗衡,还必须克服一些障碍。这些障碍可分为三个类。首先,这个领域缺乏人才。其次,这些项目和技术缺乏实际工作所需的计算能力。第三,缺乏可供人工智能自我训练和发展的数据。本节将专门阐述这三个问题。
任何组织要想正常运转,都需要人才来提供开发产品所需的创新理念和工作。开源人工智能项目面临的一个主要问题是,在这些社区工作没有利润或金钱激励。大多数人工智能工程师在决定在以下领域工作时不得不做出选择,要么在大科技公司从事高薪工作,要么冒险创业。安全的选择,也就是大多数人的选择,是在大科技公司工作并在那里谋生。最优秀的人才都去了 OpenAI,而不是在没有金钱激励的开源人工智能社区工作。因此,这个领域无法吸引最优秀的人才,也就无法开发出能够挑战大型科技公司的创新产品。
另一个问题是,开源人工智能项目缺乏必要的计算能力,无法达到 OpenAI 所能达到的规模。更大规模的人工智能需要更多的 GPU 来扩大运行规模。GPU 价格昂贵,实际上只有 Nvidia 一家公司生产。这些项目和技术缺乏资金意味着很难为 AI 模型提供足够的计算能力,从而与 OpenAI 的 ChatGPT 竞争。即使是在软件工程方面拥有高质量标准的 Linux,也受限于其程序的计算规模。它们缺乏随意访问超级计算机的能力,因此很难与拥有这种特权的 OpenAI 竞争。
人工智能模型需要数据来训练。尽管 Meta 和 OpenAI 等大型科技公司标榜自己是开放或开源的,但它们用于训练人工智能的数据都是私有的,只对自己开放。它们只公布完成后的人工智能模型,如 ChatGPT。这些数据来自 Meta 和 OpenAI 的海量用户群,质量和数量都很高。开的人工智能项目的劣势在于无法获得大量的高质量数据,因此无法使用最好、最多的数据来训练人工智能模型,从而无法与 Meta 或 OpenAI 竞争。因此无法开发出能与 OpenAI 或 Meta 的产品相抗衡的产品。
这些开源的人工智能技术和项目需要的是克服这三大问题的方法,这三大问题阻碍了它们挑战大型科技公司对人工智能行业控制的潜力。我们认为,加密技术可以解决它们的这些问题。
3.4.5 加密领域 (crypto) 的人工智能开源解决方案
我们相信,加密技术可以解决上一节概述的所有三个问题。本节将专门针对每个具体问题提出解决方案。
首先,加密货币可以通过在人工智能领域中创建收入/奖励系统来解决人才问题。加密货币可以通过为项目贡献提供内在激励来帮助这些开源项目运转。这方面的一个例子是 AGI Guild,这是一个由意识形态开源开发者组成的团体,他们创造了一个许可证,可以奖励为开源项目做出贡献的开发者。
许可证由 AGI 代币管理。超过 100 万美元规模的公司必须获得 AGI 代币才能使用许可证。然后代币将分配给开源人工智能项目的贡献者。这既是对开发者的金钱奖励,也赋予了代币本身的价值,从而鼓励更多的贡献。此外,还有投票系统供成员集体决定项目的发展方向,在开源人工智能领域鼓励任人唯贤和民主,同时获得从中赚钱的能力。
由于现在有了金钱上的激励,未来和现在的人才将不需要把自己的道路视为要么安全地选择 Meta,要么在风险投资上孤注一掷,而是看到了第三条道路,即你可以在开发人工智能的过程中赚钱,而不必受到大型科技公司的专有限制。人才将被开源人工智能项目所吸引,将其视为对抗大型科技公司的可行竞争对手。
其次,加密技术可降低访问服务器门槛来解决计算问题。过去,云厂商可能会拒绝开发人员使用其服务器来开发产品。有了加密技术,现在变得无需许可,这意味着任何人都可以获得他们的项目所需的计算能力。这意味着,使用开源人工智能和加密技术的开发人员现在可以根据自己的需要自由使用尽可能多的计算资源。
加密技术还为开发者和社区提供了与云厂商讨价还价的能力。在过去很短的时间内,云厂商可以提高使用价格,因为开源人工智能开发者需要他们的服务器来运行他们的程序。现在,有了加密技术,我们可以将这一系统去中心化,开始挑战云厂商的价格,为更多想要开发开源人工智能的人敞开大门。
现在,社区有办法也有能力向 AWS 等云计算公司提出挑战,要求降低价格,从而提高产品质量和工作质量。
最后,加密技术可以帮助解决数据问题,为那些为开源人工智能项目生成数据的用户提供奖励。这方面的一个例子是 Grass,它有一个浏览器插件,可以在用户浏览互联网时生成代币。这种奖励制度意味着,随着时间的推移,随着加密应用提供更多的数据,这些开源项目团队就能够获得越来越多的数据。这是以去中心化的方式实现的,这意味着我们不会陷入监管机构或大型科技公司发现这一问题并采取禁止 IP 地址等措施加以阻止的问题。这种方式无法有效阻止,因为有很多人都在使用这种插件,封禁一个人对其他人获取这些数据几乎没有影响。这样一来,开源人工智能开发者就能获得和大公司一样好的数据。这无疑会提高人工智能模型的训练水平。即使是需要保密的数据,加密技术也能充分保护隐私,而且只要数据所属用户同意,加密技术也能对其进行获取,从而更好地使用人工智能模型。
总之,我们发现加密技术能够在爬取数据时满足数据敏感性要求,同时通过向开源人工智能程序更好地提供训练人工智能模型所需的数据。
我们所追求的理想是,开源人工智能系统打败基于软件的私有系统。
4. Builder 的机遇
在撰写本报告的过程中,我们从社区收到了许多关于 AI x Crypto 领域潜在构建者的建议。我们整理了一份建议清单,列出了我们感兴趣的想法,希望能帮助您展开工作。我们列出了每个问题和潜在的解决方案。如果您对这些想法感兴趣,请联系我们。
4.1 建议想法精选清单
4.1.1 人工智能 DAO
问题:DAO 依赖活跃的社区对提案进行深思熟虑的投票。每项提案都需要手动投票,这会拖慢工作进度,导致DAO 疲劳。
潜在解决方案:为 DAO 的成员提供一个人工智能代理,根据他们的价值观代表他们投票,从而实现提案自动化。该模型可以使用贝叶斯方法,将决策中的不确定性考虑在内。如果不确定性超过阈值,则提请 DAO 成员注意该提案,并要求进行人工投票。
创建这些人工智能代理的参与的流程需要简化,以便用户采用。结合每个用户的链上和链下数据,就可以定义用户的偏好,而无需过多的人工操作。例如,DAO Base正在围绕 你过去的所作所为决定了你 这一理念研究解决方案。
一种可能的方法是在链上查询 LLM,将提议和 DAO 成员的提示词一起传入,以便他们根据自己的要求进行调整。
清单 1 :这是一个简单的示例,但需要一个工具来方便用户指定他们的要求,并使投票自动化
请参阅此处获取演示代码。
4.1.2 可验证的模型训练
问题:由于训练模型是对训练数据的压缩,因此即使能获得模型权重,也不一定能知道模型是在什么数据上训练的。这就带来了一些传统软件所不存在的挑战:
潜在的解决方案:使训练过程本身可验证。开发工具来分解模型是如何训练的,并检查它是否包含给定的数据。可以探索几种方法:
将加密元信息集成到训练过程本身。例如,Pytorch NFT Callback 会每隔 N 个 epoch 对当前网络权重、一些元数据(数据、准确性等)和你的以太坊地址进行哈希运算,从而证明是谁进行了模型训练。注意:这种方法会给模型训练带来性能开销。
另一种解决方案是在专门构建的去中心化网络上训练模型。也有基于传统共识机制(如 BFT)的解决方案。然而,BFT 需要的不仅仅是 2/3 节点的可靠性诚实性。达成 BFT 共识的最少节点数是 𝑁 = 3 𝑓 + 1 ,其中 𝑓 给出了 (i) 失败或 (ii) 作恶的节点数。这就引入了大量冗余工作(与𝑁成线性关系,例如𝑁 = 60 时为 6 0x)。这种方法的一个例子就是训练证明。我们建议采用另一种从头开始构建的、专为模型训练的去中心化网络。
4.1.3 实现可验证推理的其他途径
问题:可验证的 ML 研究大多集中在零知识机器学习(zkml)上。然而,zkml 目前的性能开销高达1000 倍,而且还不能运行大型模型。
潜在解决方案:目前正在探索几种方法。这是一个相对较新的领域,不同的方法有机会做出不同的权衡。
Ora 正在尝试使用opML。这种方法是由单方 乐观地 推断模型,将结果放到链上,并通过向验证者支付代币来激励他们质疑不正确的结果。
Aizel正在构建一个基于多方计算(MPC)和可信执行环境(TEE)的解决方案。他们的目标是以与普通推理相同的成本进行可验证推理。
EZKL正在对zk 证明进行拆分和并行化,这将使大型模型的证明变得可行。
4.1.4 DePin 2.0
问题:随着去中心化个人互联网(DePin,Decentralized Personal Internet)技术和机器人技术的交叉,整合机器人群等动态自主系统的独特挑战显而易见。与太阳能电池板等静态传感设备不同,机器人群具有独立行动的能力,这就带来了脆弱性。具体来说,机器人群中的一个故障或作恶(拜占庭式)机器人就会破坏整个系统的完整性。鉴于机器人行动的不可逆转性,确保这些机器人群的可靠性和安全性至关重要。
潜在解决方案:一种潜在的解决方案是利用零知识证明(ZKPs)来认证特定群体策略的执行,而不泄露策略的细节。这种加密技术可以根据从群体收集到的硬件认证数据和外部传感器的加密签名信息,验证群体是否按照预先定义的算法运行。通过加入 ZKPs,我们可以建立一个可实时验证机器人群行为的无信任环境,从而降低拜占庭机器人带来的风险。这种方法不仅增强了机器人群的安全性和可靠性,还符合 DePin 的去中心化理念,在确保透明度和信任度的同时,不会泄露敏感的操作细节。
4.1.5 透明的 LLM Drift
问题:大型语言模型(LLM)是许多应用的核心,但它们却存在不可预知性和性能随时间变化而下降的问题。传统的基准(如 HuggingFace 的Open LLM Leaderboard)因其游戏性和缺乏历史数据而备受诟病,因此很难跟踪和了解 LLM 的性能变化。
潜在解决方案:将自动基准与社区投票相结合,使用代币作为参与的激励措施。结果存储在区块链上,确保透明度和不变性。这种方法旨在提供可靠、透明的 LLM 性能历史,解决不可预测性和性能下降的问题。
4.1.6 真相市场
问题:随着人工智能生成的内容越来越普遍,区分网上信息的真假变得越来越复杂。这种模糊性对传统的验证方法提出了挑战,使数字内容难以保持可信度。
潜在解决方案:一个值得考虑的想法是扩展证明市场的概念,以解决在更细微、更模糊的环境中验证真理的问题。通过引入经济激励机制(如现有证明市场中的激励机制),该系统可以鼓励发现和验证真理。Bittensor 的 尤马共识 将是 真相市场 的理想场所,因为它能很好地处理模糊性问题。这种方法不会规定特定的方法,但会创建一个框架,在这个框架中,各种识别真理的策略都会得到经济上的激励,从而形成一个真理具有实际价值的生态系统。
4.1.7 人工智能解决了预测市场不可信问题
问题:预测市场面临的挑战是,参与者往往对所投注事件的含义存在分歧,包括什么算作输赢的证据,从而导致混乱和争议。
潜在解决方案:在事先商定的日期将信息输入事先商定的人工智能模型,从而解决预测市场问题。信息来自预先商定的数据源(可利用之前的 真相市场 想法)。