从技术落地到哲学思辨AI Agent发展的关键议题

2025-06-23

  

从技术落地到哲学思辨AI Agent发展的关键议题

  你或许已在工作中体验过AI助手的便利,也可能在新闻里见过Agent自动完成复杂任务的报道。Agent作为硅谷AI领域最热门的关键词之一,各类产品如雨后春笋般涌现,它们正以前所未有的速度渗透进我们的工作与生活。IDC认为,2025年,AI Agent将迎来规模化落地浪潮,其通过智能化任务处理重构标准化作业流程的潜力备受期待。

  然而,一系列关键问题亟待解答:当下的AI Agent究竟能为我们做什么,又存在哪些局限?当硅谷巨头纷纷布局,创业公司该如何突围?更重要的是,当AI从工具进化为 “团队成员”,人机关系将如何重构,人类的独特价值又将体现在何处?

  本期节目,《硅谷101》邀请到7位来自AI研发、商业分析、心理学等不同领域的嘉宾,由我们的特约研究员、Entrepreneurs of Life主理人Sophie带领大家从用户体验、技术挑战、商业逻辑和社会影响四个维度,展开一场关于AI Agent的深度对话。以下是这次对线 用户视角:理想与现实之差

  Sophie:首先,让我们从最基础的问题开始:到底什么是AI Agent?我们发现,不同人的理解还真不一样。我们先来听听一位典型极客的看法。

  鸭哥是大型物流软件公司Samsara的AI应用科学家,也是活跃在开源社区的AI达人;他在GitHub上魔改Cursor的开源项目获得了超过五千个星标。在鸭哥看来,AI Agent需要满足三个必要条件。

  鸭哥: 在我看来,Agent需满足三个必要条件:第一,具备工具使用能力,如调用搜索引擎搜索或调用编程语言;第二,拥有自主决策能力,明确获取任务后可自主分解任务,并按顺序调用工具参数以完成最终目标;第三,决策需为多步、自我迭代的动态过程,即能根据前一步结果动态决定下一步行动,而非工作流式的静态固定流程,例如依据搜索结果判断是停止搜索还是更换关键词深挖。

  综上我认为,满足“工具调用”“自主决策”和“多轮迭代”这三个条件以后,才能称为Agent。

  Sophie:鸭哥从技术视角给出的定义非常清晰;与此同时,另一位非AI技术背景的嘉宾,在世界500强公司担任数据策略总监、业余身为播客主播的新琦,她对Agent的定义重点在于人与AI的合作关系。

  新琦:从合作视角看,人Agent是真正的甲方与乙方关系,而非聘用合同工的关系。与合同工合作需要我们去定义问题、拆解关键步骤并检查交付成果,而真正的甲乙关系是:乙方作为端到端承接整条流程的系统,在关键节点主动介入、提供决策建议,在接收高层指令后自动执行,最终交付成品而非半成品。

  Sophie:新琦在采访过程中提到,她目前使用的Agent产品虽有不少亮点,但离她心目中Agent的标准还有距离。

  下面,咱们来听听他们各自使用Agent产品惊喜、震撼时刻的场景,以及打动他们的功能或体验。

  鸭哥告诉我们,他从上班写代码到下班带娃都离不开三类Agent的帮忙,让我们来听听看。

  鸭哥: 我经常使用的AI Agent主要分为三类: 教练型、秘术型和搭档型。

  教练型:比如OpenAI的Deep Research、ChatGPT的O3,主要用于获取调研信息、辅助深度思考,我把它当做了解不熟悉领域的窗口。

  秘书型:如近期较火的Manus、Devin(均为订阅工具),适合处理相对简单的非沉浸式工作。例如哄娃睡觉时,我会让Manus 基于《白雪公主》故事改编内容,融入“好好吃饭”等教育引导,再调用TTS工具生成音频文件播放——秘书型工具擅长此类任务,能让我在娃睡前直接播放定制语音哄睡。

  搭档型:我比较喜欢用Cursor、Windsurf等做正经的软件开发工作,因为它们支持并鼓励高频交互,允许我全程参与指导:先讨论设计方案,再让它把一个个小积木搭起来,最后我作为架构师再组合这些积木并审计结果,确保达成开发目标,更符合科班化、高标准的工作流程。

  Sophie:CreateWise是一款我参与内测的AI软件。你只要一键上传音轨,软件就能直接输出完整剪辑后的音频,甚至能提供“哪些地方需要剪辑”的决策建议,以及利用AI模仿声音拟合结构,使语句更清晰,并对修改语句进行高亮显示,方便用户对比前后效果。我试用后向开发团队提出,你需要给我逐句剪辑的空间,因为有的剪辑是我喜欢的,有的剪辑不是我要的。他们现在已经提升这个功能的优先级并上线了。

  此外,CreateWise能根据用户对剪辑的选择,直接串联到“文案生成和宣发”模块,针对不同平台生成相应文案,比如为音频平台生成shownotes、金句、标题建议。针对YouTube或Instagram等平台,它还能依据视频尺寸比例等细节,生成可以直接发布的内容。

  Sophie:这款专注于播客制作场景的产品通过对工作流的深度了解和针对每一环节的特定优化让新琦印象深刻。而另一方面,有几款通用型Agent产品也在一般性任务的执行上,受到了用户纽约大学应用心理学系大三学生Kolento的好评。

  通用层面,我近期一直使用Manus。前几天新出现的Genspark Janus Park中,Super Agent模式对我来说比较惊艳,能协助我完成此前不太想完成的事务。这两者的差异之一是用户体验:起初,Manus的UI/UX视觉冲击力最吸引我;Genspark则具备类似将大量图片、内容及链接组合的功能,我此前主要用它进行旅游搜索,但它的界面视觉冲击力不及Manus,在一定程度上降低了我持续使用的热情。

  另外,从本质来看,Genspark和Manus均支持Agent执行过程的链接分享与回放功能,用户可以回顾完整对话过程,甚至能基于该上下文延续对话。同时,它们也都能调用许多工具。不过,我对它们背后的规则了解有限,只听说Manus可能未使用MCP,而是采用CodeAct,但我并不知道Genspark具体内部使用的算法或工具。它们都能对任务做良好的规划与拆解,也会调用很多不同的工具,只是各自设计的工具可能存在细微差别,因为我感觉Genspark之前在旅游等场景上的表现相当不错,所以他们可能配备了一些预设的旅游搜索工具。

  还有一个有趣的差异:Genspark的部分功能可能是Manus尚未具备的,比如“call for me”功能可以帮你打电话、预约酒店等,当时让我有一个小的“Aha moment”。

  在听听具体槽点之前,我想分享鸭哥一项有意思的洞察,那就是随着各种Agent产品的不断发布,他的槽点在飞速地进化;很多他以前吐槽过的点现在却吐槽不了了,比如复杂任务中工具调用能力不足、写作AI味儿太重、上下文窗口不够长等等,他在近期发布的产品新版本中都看到了很大程度的改善。所以,用户今天的槽点和痛点,也将是Agent搭建者下一步重点攻坚的方向。在听完槽点后,我们紧接着也会听听几位搭建者相应的思考和回应。先从鸭哥的槽点开始。

  鸭哥:当前AI模型的指令遵循能力虽然较以往有显著提升,但仍然存在不足。以GPT 4.1为例,当我要求它根据五章提纲先完成1-3章、再续写4-5章且明确要求不在1-3章结尾添加“未完待续”时,模型还是总以“未完待续”或“我们下一次再继续写,你还有其他想写的吗?”等类似表述收尾。我尝试了多种提示工程方法,均未解决该问题,最终只好通过逆向思维方法:将模型强制添加的“未完待续”字符串通过程序替换为空,从而完美地解决了这个问题。但如果AI模型的指令遵循能力足够完善,就不会出现这些乱七八糟的事情。

  第二个槽点是在我使用AI产品的过程中,许多产品仍存在“为了使用AI而使用AI”的现象。例如Claude的Computer Use或OpenAI的Operator,都会用一个例子来展示“我很厉害,可以帮你订机票,输入信用卡号,输入各种信息,帮你点击预订机票的按钮”。但用户预订机票时最耗时的环节并非填写信息,而是确定出行日期——如果我选择前一天晚上出发,需要权衡酒店费用与机票价格、是否能避免早起,后一天出发需要考虑送孩子上学的时间、综合比较酒店加机票总价等。这些最麻烦的选择和考量才是用户的核心痛点。因此对AI产品开发者而言,需要针对用户实际需求设计产品,避免为用AI而生硬使用AI。

  第三个观察到的现象是:AI虽然能力强大,但人类社会本质上是“人类友好”(human friendly)系统,专为人类设计。因此,许多信息或资源只有人类能够接触和获取,AI则完全无法访问。

  例如在商务洽谈或事务处理中,无论是公司内部讨论设计方案还是外部商务谈判,很多重要决策并没有正式书面文档作为依据,而是在非正式场合(如喝咖啡、饭桌上)作出。而AI无法获取这些存在于人际交流中、尚未被文字记录的“部落知识”(tribal knowledge)。这并非AI自身的问题——你也不可能要求人们在与客户饮酒洽谈时,携带摄像机记录一切并输入给AI。这种困境根植于人类社会的运作方式,目前我也不知道该如何解决,但这确实是一个令人感到无奈的方面。当前AI能获取的信息或许只是冰山一角,大量隐性未记录的“废墟信息”仍无法触及,如果能突破这一限制,AI将实现更广泛的应用场景。

  Sophie:Agent不服从指令,为了AI而AI、和缺乏人类世界暗信息——鸭哥的这三个槽点涉及了技术、产品设计、和人类社会对AI的环境局限等种种方面。而新琦则以她的亲身体会说明了Agent产品缺乏人情味的问题。

  新琦:我现在看到很多Agent或者AI产品所不具备的,就是“真实性”。我们在多人播客里会有笑场,但是比如说我用CreateWise,它会将多人同时发出的“哈哈哈”视为重复词而删减,仅保留少量“哈哈”。可是在我看来,这才是这个节目很有意思的地方。或者,多人播客里集体的沉默在很多的AI软件里会被认为需要压缩,因为AI觉得要保持一定的信噪比和信息密度输出。但是,集体沉默很多时候是非常有意思的,比如主播抛出一个问题的时候,如果有3秒沉默,就说明这个问题非常值得探讨。这类留白是内容深度的体现,却会被AI当作无效信息去除。

  当我们在说音频剪辑的时候,一是语言类型,不同AI产品对中文音频的识别、转译及剪辑能力与英文存在显著差距。二是节目形式,即单人播客或多人群聊播客:单人播客相对简单;而多人播客则复杂得多,核心在于多人播客需依赖多轨处理而非单音轨合并——既要保证听众听清对话内容,又需保留抢话时的真实氛围,这非常考验手艺人的“手艺活儿”。目前,多数AI软件或Agent在这方面能力不足,即便支持多轨上传,连多轨对齐都很难做到精准。

  国内市场的风险偏好整体低于美国分析师或从业者。品牌倾向于控制色彩、色号数量及SKU总量,使得库存周转长期维持在相对稳健的位置上。彩妆品类长期盈利困难,包括资生堂在内的许多品牌均承认色彩类产品不赚钱。因此,二级市场在评估彩妆品类时,对一级市场品牌兴衰的红利期心存疑虑,更期待品牌上市后能长期保持稳健与可预期性。尤其在国内,二级市场机构投资者倾向于“先学挨打再学打人”,希望品牌控制风险,做到SKU可控:哪怕有50个色号,也至少需要明确告知重点生产的是哪些色号,其余则视为品牌建设的成本。

  Sophie:面对我的吐槽邀请,有一位嘉宾却出人意料地吐槽了这个环节本身,觉得它代表了用户对于Agent在心态上的一种误区。这位嘉宾是身为Statsig数据科学家、博主和AI社区Superlinear Academy发起人的课代表立正。他是这么说的:

  课代表立正:我觉得这个吐槽的做法本身是错误的。第一是理解上的错误,第二是使用上的错误。

  理解上的错误在于,Agents并没有魔法,而是由过去的大语言模型、现有工具及协议逐步搭建而成。因此,指望它在当下就达到完美无缺的状态并不现实。人们的心态往往带有上一个时代的烙印——过去大多数工具是图形用户界面(GUI),点击按钮便就应该产生预期效果,如果按钮无效,可以直接吐槽。但AI并非如此,所以要学会如何用好它,才能发挥它真正的用处。

  Sophie:在探索怎么用好Agent工具这一点上,课代表立正曾在他的博客里分享过用Manus反复尝试一项任务15次,终于成功的经历。他说:

  课代表立正:如果大家没有一个学习的路径或改进的路径,肯定用不好AI。以我分享的Manus为例,它虽然出了14次错,但第15次成功了,说明它本身具备成功的潜力,问题可能出在我前14次的使用方式上。我该吐槽Manus,还是该反思为什么我自己花了14次迭代才成功,而不是一次就成功呢?这说明我使用AI的能力还有待提高。

  对待AI不能沿用普通用户的心态,而是必须用搭建者的心态。如果你还是像用户心态那样,今天吐槽产品设计不足、明天批评功能不完善,会被这个时代落下的。

  Sophie:听了这么多用户的喜悦和困惑,这些问题从开发者的角度看又是怎样的呢?我们把视角转向搭建者,看看他们对用户提出的痛点有什么回应,以及他们在技术和产品上的思考方向。

  Sophie:说到痛点,我个人作为Agent用户的一项体会是,Agent对自身能力边界似乎没有清晰的认知,它们时常不知道自己哪些任务能顺利完成,哪些可能会遇到困难、需要和我更多交互,而哪些完全在它的能力之外。这导致Agent不大擅长管理我的预期,而是无论什么需求都一口答应,最终结果却时有不尽人意。我把这个问题抛给了身为Agent搭建者的曲晓音,她创立的HeyBoss AI今年初刚上线,主打用户一句话提示词生成完整网站或APP服务。晓音分享了她的看法。

  晓音:我认为这个问题的核心,首先在于AI Agent背后的语言模型本身还不够智能,但更反映了工作方式的变革。举个例子,比如一个特别有才华、但没有工作经验的清华学生来公司当实习生,无论让ta做什么都自信满满,说“没问题,包在我身上”。然而,ta的实际产出却不符合预期,且难以预判风险,或无法有效沟通。随着工作经验的积累,这位清华学生才逐渐懂得评估任务耗时、预判风险并提前同步——这种能力提升源于经验沉淀,而非智商差异。

  类比到AI领域,工作5-10年的职场人能精准管理预期,AI也需要通过处理大量重复任务积累经验,从而判断结果好坏。核心衡量标准不仅在于AI是否完成任务,更在于用户是否感知其完成——这有点像清华实习生的工作成果也需要以老板满意度为衡量标准:老板满意了,那才叫真正做好了,否则即使自认为完成了也无效。

  我认为相关的数据,比如用户满意度、任务完成度、老板满意度等反馈,更多地掌握在应用层的AI Agent开发者手中,也就是像我们这样的AI应用公司,而不是掌握在OpenAI这类基础模型提供商那里。预期的标准本身是由“老板”(用户)来设定的。如果我们拥有足够的数据,就能判断预期是否得到了满足。当我们缺乏来自“老板”的数据时,就无法了解他们真正的预期是什么。

  因此,我认为当前AI面临的最大问题在于:它就像一个没有工作经验的清华学生。我们需要为它提供“工作经验”,并给予它来自“老板”的反馈——比如,做得是好还是不好?完成了还是没完成?打几分?这样的话,AI的表现会更加准确。

  此外,使用场景需要具备一定聚拢性。部分产品宣称“无所不能”,业务范围从给孩子订餐延伸至解决宇宙问题,覆盖过于宽泛反而导致聚焦不足,用户评价体系也难以形成特定模式。比如,我们聚焦于做网站和APP从而帮助小企业主、创业公司或者营销部门。每个场景都可以明确评判是否达成了用户需求及使用目的,由此能积累大量重复性数据,从而评估服务效果。反之,如果场景分散,评判体系将因缺乏统一标准而难以有效建立。

  Sophie:晓音的比喻非常生动,将Agent比作一个聪明但缺乏工作经验的实习生,解释了需要积累用户反馈数据,才能帮Agent建立自身能力与用户预期比较的标尺;同时,她也强调了专注于特定领域可以帮助Agent积累更有价值的反馈。

  另一方面,鸭哥前面提到的Agent不遵守指令,则是另一位搭建者嘉宾重点攻克的议题之一。俞舟是哥伦比亚大学计算机副教授,她的创业公司Arklex.AI为新东方、沃尔玛等企业级客户内部Agent应用开发提供框架与工具,同时也面向终端用户提供自营Agent产品。她从技术层面给出了“如何让Agent更听线 指令遵循:评测、防护栏与工作流

  俞舟:实际上,Agent并非只有一个或某种单一的东西,而是包含了很多组成部分。比如Guardrails的核心目标是防范各类不良情况,而这一过程相当复杂。它并非只是一个工具,而是会传授一套完成任务的完整最佳方式。而且非常重要的一点是必须开展测试与评估——如果不明确Agent行为的好坏标准,仅凭主观随意操作,肯定无法得到理想结果。我们会根据它的评测结果做各种调整,可以用Agent的工作流来处理这些问题。

  Sophie:Evaluation评测、Guardrail防护栏和Workflow工作流这三个关键词非常值得关注。在工作流方面,晓音从产品设计角度,提出了一种具体的解决方案。

  晓音:我们也提供了很多工具,不是通过AI来修改,而是让用户像改PPT 那样,圈一下这个字,把它弄大弄小、改个动画。我们发现很多情况下,用户还是希望结果更可控。他们可能选择替换字、词、图片,或者添加效果,倾向于用PPT的这种传统方法,而不是AI的方法——因为觉得不太可控。所以,“可能不可控”和“可控但是限制性”的功能都需要。

  晓音:我们工作的性质原本就是线上完成的,例如开发一个网站时,与巴基斯坦的外包公司或发布平台上的公司合作。合作方很少与我们进行线下会面,更不会通过握手力度来判断彼此的契合度,这些对于我们而言并非关键要素。因此,从人际沟通的角度来看,线上线下之间没有显著差异。

  这恰恰是我们所处赛道比较适合AI来超越人类的一个原因。然而对于某些行业,比如线下服务领域,或是大型企业的销售岗位,很多关键性的工作或决策往往是在高尔夫球场的包厢等非正式、面对面的场合完成的。在这种情况下,AI所能获取的相关输入数据确实不足。所以,我认为这更多地取决于该领域Agent本身的特性,以及它所要取代的人类工作的具体性质。

  俞舟:在我自己的实验室里,我们也在做一些我认为非常重要、具备创新能力的研究。比如自我纠正和各种各样的自我学习能力。

  晓音:多Agent协作会越来越普遍。当下讨论的核心不是向用户售卖单个Agent,而是提供一套需多Agent协同的解决方案。为了提升协作效能,需要引入AI CEO或AI Leader Agent统筹调度其他Agent。这可能是一个发展趋势,优势在于通过聚合多Agent的能力、多元技能及灵活合作模式,来解决单一Agent或单一技能无法应对的复杂问题。

  俞舟:最大的难关就是安全。以一个最简单的系统问题为例——数据库。以前数据库是供人使用的,人有权限去修改数据库的内容。但现在,Agent需要去修改这些内容。如果同时有多个Agent要去修改同一个数据库,我们该怎么办?万一它们修改后,数据库里的数据变得不一致了,甚至需要花大量时间去恢复原状,怎么办?而目前数据库本身无法提供一种既高效又便捷的方式来存储数据,并与Agent进行连接。

  比如,当两个Agent交互时,哪些记忆可以分享,哪些不能?还有,数据库需要有governance layer(治理层)——有些Agent可以接触某些数据,而有些Agent则不能,这就像人一样,一旦你存在安全漏洞,没有相应权限,就不能接触核心数据。此外,还需要区分哪些是对外接口,哪些是内部接口等等。这里面有很多非常具体的工作要做。

  晓音:大模型的变化有点类似于人的智商水平。大模型更聪明并不代表它在具体技能上更懂行,这是因为掌握一项技能除了需要聪明才智,可能还需要一些行业的技术诀窍(know-how),或者是对具体应用场景的理解,这些往往依赖经验积累而非单纯的智商驱动。所以对我们来讲,这两者都非常重要。

  这并不一定是大模型越强大,品位就越好。品位的形成更多源于我们的训练过程,也源于设计这些Agent的人员自身的品位,以及我们对客户所处行业的所需品位的理解。这是因为有些客户无法清晰表述他们期望的品位,他们可能仅仅指出“太乱、太土、不够直观”,这些描述都相当模糊。例如,如果这位小企业主是健身博主,他所说的“土”是什么含义?如果他是一位销售水电工具的商家,他所说的“土”又是什么含义?如果是一家AI创业公司,“土”又意味着什么?每个人对“土”的定义是不同的。我们需要深入理解,透过表面现象探寻本质。

  俞舟:当前这个领域似乎被炒得很火,但实际的投资回报率(ROI)并不显著,在大企业中的部署应用也相对较少。然而,我认为这更多是一个时间问题。因为大企业的组织结构使其变革和推进新事物通常较为缓慢。技术本身往往不是最难的,真正的挑战在于“人”的因素。我们需要重新构建他们的工作流程,这实质上是在调整生产关系,因此需要深入了解企业并设法“教育”员工,引导他们更好地利用AI。以上过程需要循序渐进,并非产品一经推出就能立刻投入使用。它需要企业自上而下、以“顶层设计”的方式,系统性地解决这个问题。

  高宁:首先,正如硅谷投资人Sarah Guo在去年年底的一次分享中点明的,当前具备多模态、强理解与总结能力的 Agent能产出新的数据,而这正为打破传统SaaS的既有格局提供了可能。新兴公司所实现的新数据,其来源已不完全掌握在传统SaaS公司手中。以医疗诊断记录为例:传统模式下,医生手动录入访谈数据至表格。虽然存在很多门诊SaaS及病例管理公司,但数据掌控权并不集中在它们手中。如今的语音数据经AI整理后,生成更新、更准确、更丰富的信息。掌握此类新数据的初创公司,其竞争力未必逊于传统SaaS,因为丰富、高质量的数据才是核心价值点。

  在于渠道与客户关系。许多初创公司面临这一挑战。如果能服务高速增长的初创企业,并伴随其成长为未来的平台型巨头乃至上市公司,就能自然构建起新的渠道与客户关系。从这一点看,传统公司的优势并非牢不可破。所以我持乐观态度。尤其是在外包或传统服务驱动型领域,它们原本依赖人力处理大量数据并总结工作,而Agent或AI的介入能更高效地输入和输出结构化、丰富且高价值的结果。这是初创公司挑战现有市场格局的一条路径。

  高宁:当前,对模型的理解正转化为工程能力,并应用于具体产品之中,这一过程本身相当复杂,具备相关能力的人才也较为稀缺。因此,这在某种意义上构成了技术壁垒——无论基于模型的表现进行评估和调优,还是对模型本身进行精细调整,你都需要深刻理解如何运用模型、明确调整的方向,才能使你的产品呈现更好的效果。

  Manus的合伙人张涛曾在极客平台分享过类似见解,让我很受启发。这其中蕴含着重要的专业知识和实践经验,同时也涉及对不同模型的选择。当前各类大小模型不断涌现,发展速度和迭代频率均十分迅速。因此对模型的理解本身,也可以视为一种技术壁垒。

  鸭哥:最浅显的护城河或体现在数据层面。以Manus或Devin为例,它们具备一项功能:记录用户对输出的纠正,并将这些知识应用于后续的对话中。假设某公司使用Manus制作PPT,初次生成的版本主色系是绿色。假设用户不满意,要求把主色系改为蓝色,这就是一个数据积累的例子。当未来该用户或公司内其他成员再次请求制作PPT时,系统能根据这次数据自动采用蓝色作为主色系。随着这类纠正和反馈的持续累积,用户与AI之间会逐渐形成一种“默契”。用户会感受到系统的高度适配性,觉得其“好用”,因为它已了解老板喜欢什么、知道公司内部的各种规章制度,无需用户反复纠正。

  此时,如果出现一个竞争对手,即使它的技术实力强大,但由于缺乏对该公司特定内部信息的了解,它生成的PPT可能仍会沿用绿色主色系,这可能引发用户对它能力的质疑。这就是一个非常大的护城河,哪怕它真的很聪明,但用户也不愿意去用。此时创业者或产品经理就应该思考:如何有效利用数据构建类似的数字护城河?如何促进用户与AI之间产生这种默契感?这或许是当下最有效的竞争策略。

  高宁:像现在的 GPT、Deepresearch、Manus或者Genspark,这些通用型的Agent,理论上多少存在一些既竞合关系。但因为它们都在吸引越来越多的新用户,让更多的小白用户了解Agent能做什么事情,所以在中短期内,我认为这个问题并不大。

  长期来看,当模型和模型产品的用户越来越多时,如果用户同时使用两款产品,而这两款产品表现出的差异并不明显,那么一定会有一些替代。但对于这种应用型的产品,它的好处在于其背后依赖的是一个模型,而且这种依赖是无感知的。也就是说,用户可以根据哪个模型表现更好,甚至哪种模型组合的效果更好、成本更低、效率更高来选择各种各样的模型。

  俞舟:中立第三方平台,如我们这类平台,在推进相关事务时往往更容易、更快速。因为谁也不知道未来是否与OpenAI形成绑定关系,各方普遍不愿与任何单一公司建立深度绑定关系,都希望保留备选方案。大企业通常都要做Multi cloud,那么为什么要跟AWS绑定、用它的框架?万一它突然不行了,需要更换,我该怎么办呢?我们这类中立平台,恰恰为这种需求提供了可能。

  高宁:这一逻辑更适用于垂直领域 Agent。以VI为例,它也倾向于与Harvey等垂直应用合作而非自主开发,背后有两点核心考量:首先数据壁垒上,完全掌握各公司的私有数据几乎不可行;其次,打通工作流需要深度理解用户工作流程、上下游关系和系统架构等细节,这类基础性事务性工作,对当前聚焦通用人工智能(AGI)或模型基础能力提升的公司而言,并非首选。

  另一方面,对于通用型产品而言,这也存在一定的风险。无论是文生图应用还是Agent相关产品,它们不太可能完全取代现有市场,所有用户都转向ChatGPT。对此,应用型产品的破局路径可能在于:针对核心用户群体,将产品形态逐步升级为基于工作流的SaaS工具;或者积极与大客户合作,提供定制化解决方案。我相信,不少初创公司已经意识到了,并且我也观察到一些公司正在积极调整策略,巩固自身的竞争力。

  晓音:我们以结果为导向。小白用户的比价逻辑在于:比如,过去雇佣一个涵盖设计、文案、SEO等岗位的巴基斯坦工程师团队,费用可能高达数千美元。而我们的服务无论价格多高,都不会超过该团队成本;无论交付多慢,也不会比该团队效率更低。因此,用户对我们的预期核心在于 “交付结果”,只要能达成这一点,价格和速度已足够让我惊艳。

  Kolento:传统的AI工作流程是:人类先为AI搭建好一步步的操作指令,然后AI执行操作并给出响应,最后由人类查看结果。在这个过程中,人类实际上有两个审核点:一个是在搭建过程之中进行审核;另一个是在AI给出结果之后,对结果进行审核,审核完后再返回第一步进行修改。这样有点麻烦,因为需要检查两次。

  这种形态我在Rapid这款产品上看到了,它让我有这种Aha moment。输入请求时,它不会每一步都要求用户确认。而如果使用Manus、Winserve时不开启自动模式,每一步都得确认——其实很多步骤是不需要确认的。然而,“工作流程”也许不会被淘汰,因为很多东西终究需要人来设计好——人的一个优势在于足够稳定、足够可被信任。

  从数字世界的视角来看,即便AI没有物理世界的隔阂,在数字领域仍面临诸多挑战,原因在于许多事物并非“AI原生”的。例如,当我们编写一段代码或一个库希望他人使用,或开发产品期待用户采纳时,当前产品说明书或文档大多面向人类设计——内容零散且因人类认知局限(如阅读速度慢)被拆分为多页面,需要用户自行点击超链接浏览。但AI处理文本和代码毫无障碍,即使一次性提供数万字文本,它也能快速处理,因此AI真正需要的是代码密集、内容集中的呈现方式。

  Kolento:我们与机器之间的交互界面正变得越来越“薄”——交互的层次在减少,更趋近于直接对话。以GoogleSearch为例,用户发出一个query,系统返回一个response,这种交互模式在一定程度上是相对平等的,尽管系统会提供多个结果供选择,但整体结构依然清晰。

  在音频领域,真正具有价值的内容,往往并非那些结构化、易于被AI获取的信息,因为这类信息无法构成增量价值。价值更多体现在两个方面:一是在某个特定领域拥有深度,且尚未被AI消化的商业洞察或学术研究;二是那些源自个人生活、未以结构化形式上传至互联网的信息。此外,以我们的播客节目为例,我们三位主播身处不同时区、处于人生不同阶段,我们的讨论通常来说是更立体、更多元,并且更有火花碰撞的。我认为在AI时代,我们要不断鼓励观点的碰撞和认知的迭代,而这往往是与AI合作难以实现的。

  鸭哥:我们可以把AI想象成一个团队成员,而不仅仅是工具。这意味着我们与AI之间的关系正在发生转变。过去,当我们谈论工具(比如螺丝刀或汽车)时,通常会说“我用螺丝刀”或“我开车”,但不会说“我把某项任务委托给汽车”。但当我们说“这件事交给AI来做”时,大家觉得非常自然。这正是AI与传统工具的不同之处——它能做的事情越来越多,因此我们与它的关系更趋近于领导和下属模式。这就意味着我们的核心竞争力正从过去“如何使用计算器”这样的技能,转变为“如何管理AI”。这是一个重大但常被忽视的问题,因为擅长管理人的人非常少。

  Kolento:从哲学层面讲,我认为AI无法替代人类进行价值判断。这也是为什么我不认为AI能胜任法官的原因。我不放心将价值判断交给AI,一部分原因在于它的“黑盒”特性——我们对它的运作机制不够了解。即便未来我们能够完全理解它,其可能表现出的“过于全能”特性,也让我们不禁思考:人类自身的价值与价值观在哪?AI、Agent的价值观终究是由其创造者所决定的。毕竟,我们观察到GPT和Claude在行为上存在本质差异,这很可能源于它们训练数据的差异。

  Sophie:除了人机关系,Agent时代的社会结构也值得我们思考。互联网2.0时代,Google、Facebook等中心化平台掌控了绝大多数用户流量和内容分发,一方面创造了巨大的效率提升和企业盈利,另一方面也造就了不少问题。那么在AI和Agent时代,我们是不是有机会走出一条不一样的路?我们每个人独特的需求和价值观是否能充分得到AI Agent的个性化尊重?Kolento对此有着自己的洞见。

  Kolento:我之前曾写过一个片段,提到了计算机发展史中“分久必合,合久必分”的规律。很多人认为AI或Agent的出现是整合的趋势,但实际上,Agent本身还是在分散。例如,要实现一个完整的Agent部署,即便你使用Defi构建了工作流并将其嵌入编码,最终部署仍需依赖多种工具——这看似在整合,但这些工具本身又成为了碎片化的一部分。

  我认为需要个人专属的大模型。当前所有主流AI如GPT、Claude、Gemini等都属于中心化模式。正如“想要打败魔法,唯有魔法本身”,要对抗中心化,或许需要一种“个人化的中心化”——赋予每个人可拥有、可迁移的AI。因此我非常关心AI如何与人对齐,以及如何实现负责任的AI发展。如果以硅谷的两派观点作比喻,我更倾向于杰弗里·辛顿(Geoffrey Hinton)的路线,而不是萨姆·奥尔特曼(Sam Altman)。

  那么下一个问题是,AI能不能组织更多AI Agent?能不能像人类一样,组织几百万甚至上千万的AI Agent去做各种各样的事情?如果AI能做到这一点,是不是意味着AI可以迸发出更强大的能力?我认为这种能力是存在的,只是我们可能需要让AI的语言模型更加强大,它的上下文窗口(context window)更大,工具使用(tool use)更加完善,并且AI的评估(evaluation)能力能够管理更复杂的架构。

上一篇:李礼辉、黄益平谈数字金融:去中心化金融或成
下一篇:Vitalik:以太坊L1是世界账本