小模型技术是中国企业率先导入装备中，大模型也不会例外-李聪廷-观察者网

“大模型只是技术升级而不是革命”，“装备大模型化是商业化落地的最佳线路”，“大模型未来最大的挑战可能是能耗问题”……

4月16日在宇视合作伙伴大会上，宇视总裁张鹏国对国内大模型发展提出了自己的见解，这些洞见和观察，也是一直以来关于国内大模型发展的争论点。

对此，观察者网请宇视AI首席科学家李聪廷来进一步谈谈这些问题，将大模型应用落地的最新探索报告给大家。

观察者网：如何理解大模型只是技术升级而不是革命，现在AI技术的热度和期待值很高，这么说会不会把技术发展的可能性给限制了？

李聪廷：技术受关注是好事，更多学术或企业从业者投身其中，加速技术进步和落地。理性的看，从深度学习小模型再到今天的大模型，学习效率低即依赖大量算力和标记数据的问题没有解决，不可避免出现低级错误的问题也没有解决，引用Yann Lecun的话：“机器学习与人类和动物相比很糟糕”。因此，大模型只是技术升级而不是革命。

大模型作为技术升级带来的红利，已经给商业化落地带来很多商机，给不少企业带来未来的增量或者效率提升。也正因为现在的大模型技术不是最终解，使类似Yann Lecun这样的科学家把精力放到研究面向未来的新的技术路径，应该说理性看待当下大模型技术，反而加大了找出未来路径的可能性。

图灵奖获得者杨立昆（Yann Lecun）

观察者网：图灵奖获得者杨立昆（Yann Lecun）批评Sora不是世界模型，认为生成式路线注定无法通往AGI，对此你怎么看？

李聪廷：世界模型是对物理定律和环境规则的理解和对齐，Sora目前的确做不到这一点。现在的AI水平距离AGI还很遥远，但已经消耗了巨大的算力和能耗，以chatGPT为例，每天需要耗费50万度电，相当于1.7万个美国家庭的耗电量，其学习效率与人脑天壤之别，这不得不引发学者们思考新的出路。

对当前技术路线的未来悲观，并不代表对过去和当下的否定。Yann Lecun 2022年的“From Machine Learning to Autonomous Intelligence”讲座，开篇提到“AI can do pretty amazing things today”，是对过去和当下的肯定，然后才提出当下技术路线无法通向AGI。

举个例子，当下辅助驾驶已经在新能源车上普及，提升了驾驶体验，但L4级别的自动驾驶落地遥遥无期，不可避免出现未知错误的问题难以根本解决。“当下最优解，不是最终解”这句话是对当前大模型技术现状相对客观的总结。

观察者网：在千行百业落地的国产模型，要为解决各种细碎的问题，为细分场景专门优化，那么在同等的任务上，未来表现出的能力，还会与国际上顶尖的通用大模型有差距吗？有可能展现出大模型公司搞不定的能力吗？

李聪廷：通用大模型，是基础设施，有点像Android这样的操作系统，有两个特点。一是投入大，只有少数巨无霸企业能够持续投入；二是生态壁垒墙厚，占先机建立广大用户基础后，留给追赶着的机会就不多了。大模型技术是在美国爆发，因此OpenAI、Google、Meta等美国企业已占据了先机，中国企业或机构处于追赶状态，我们不得不面对和正视这个差距。

通用大模型首先在C端获得了大量用户，人们可以与它对话、提问、写作、作画、作曲等，这种体验是以前AI做不到的，一时间人们误以为AI已经追上甚至超越人类水平。但在一些细分场景落地过程中，特别B端场景落地过程中，人们很快发现其精度过低、成本过高，无法落地。

例如，使用市面上任何一个通用大模型识别迪拜车牌，正确率低于20%。又比如，宇视作为产品和解决方案辐射全球200多个国家和地区的全球化公司，资料翻译很消耗人力，但通用大模型会把“枪机”形态的网络摄像机直译成“gun camera”，因为它不具备“box camera”这类专业词汇的知识库。因此，是细分场景落地催生了行业大模型。

在中国，我们深入去看每一个细分行业，几乎都能找到一两家甚至更多具备很强产品研发能力的企业。这类企业在国内市场充分竞争厮杀，国外产品型公司很难与之竞争。这类企业，已经在将自身产品与行业大模型结合，推出更有竞争力的产品。总的来说，行业大模型落地产品，我国并不落后。

大模型化的摄像头提升了夜间观测的能力，用于观察和保护猛禽

观察者网：装备（工具）的模型化能战胜模型的装备（工具）化，或者说，+AI能战胜AI+，这个判断有哪些产业发展历史上的经验可以佐证？

李聪廷：现在的大模型阶段已有不少例子，比如一年前MidJourney V5和Stable Diffusion这类文生图大模型出现在公众眼前的时候，有人惊呼图片编辑工具市场要颠覆了。但今天看Adobe Illustrator 、Photoshop这类工具的用户并没有流失，在Adobe推出firefly大模型并集成到自家工具中后，其用户基础更稳固了。背后的本质是，大模型技术可以提升工具中部分模块的效率，还远远达不到替代工具本身。而且今天，训练调优一个自己的行业或垂直大模型门槛并没有那么高。

回顾上一个阶段，即2014年深度学习技术在产业界开始爆发到大模型技术应用前，一度很多人也认为AI新势力会颠覆传统应用/工具/装备的公司。早期，这类公司的算法处于领先，同时在大量资金注入和人才加盟的背景下，很快入场做产品。最后发现产品的技术点非常多，传统产品公司过去踩过的坑，AI新势力不得不重新踩一遍。

好不容易过了产品研发关，又遇到了制造瓶颈，制造特点是单个环节看似极其没有技术含量，但数百万器件bom的管理和流水运作，有极高的门槛。制造门槛后面还有渠道门槛，渠道门槛后面还有规模采购成本门槛。最后AI新势力不得不转向提供算法授权的商业模式，但很快传统产品公司完成了算法追赶，算法红利消失后，这种商业模式也折戟了。

上述例子表明，装备（工具）企业被大模型技术新势力企业赶超的可行性很小，但那些跟不上大模型技术升级的装备（工具）企业有可能被其它装备（工具）企业淘汰掉。

观察者网：从装备大模型化的观点看，中国应该具有率先将大模型应用落地的诸多优势，如工程能力的优势，新能源产业的优势。从你们在海外市场竞争的经验看，中国企业是不是走在了前面？

李聪廷：先从装备的产品力本身看，以AI体锻屏为例，需要具备成像技术、嵌入式软件技术、云和APP软件、硬件技术、显示技术、交互设计、工程交付技术等诸多要素，当然还有AI。研发出有竞争力的产品还远远不够，得上量才能覆盖研发投入并有利润，这很考验企业的渠道能力。有渠道带货，我们还要能造得出来，这又考验企业的规模制造能力。产品售价既要有竞争力还要有利润，这又考验企业的规模采购议价能力。当然，还有速度要素。因此，比拼的是所有要素的综合能力。

AI是其中一个要素，从小模型到大模型，技术升级了。这个变量，在装备企业之间产生足够的影响，旧的产品会加速迭代，并且还会创造一些新的场景的产品；反之，如果跟不上技术迭代，企业就会掉队。但对于没有装备经验只有大模型技术的企业，要迈过其它诸多要素的槛，道阻且长。

上一阶段的小模型技术，中国企业是率先导入并应用于装备中的，这次大模型技术也不会例外。

观察者网：已经有不少批评说中国做大模型的公司太多了，但是中国能做各种设备的公司更多，如果每个有实力的设备公司都想+AI，做自己的行业模型，会不会呈现出非常细碎，没有统一标准、统一品牌的离散格局？

李聪廷：新技术出现，必然会吸引大量优秀人才和资本入场。这里有定位通用大模型的、有定位行业大模型的、有定位工具链的、当然还有定位 APP/工具/装备的。

通用大模型，最后大概率会集中在头部少数几家，赢者通吃，这几家自身就成为了事实的标准。其它企业会比较艰难甚至出局。

定位行业大模型的企业，有点像小模型时代的算法授权商业模式，它太容易被APP/工具/装备企业的自研给替代。因此避开与这类产品企业竞争，找到有生存机会的细分场景很重要。最后有可能出现几个细分场景的小而美的企业，做大的可能性不大。

定位工具链的企业，闭源，无法获得大量开发者用户，不利于建生态。开源，看不清商业盈利路径。左右为难的同时，还面临大厂自研的竞争挑战。

定位APP/工具/装备的企业，行业大模型只是其产品的一个技术要素，用户侧看到的仍是其产品品牌。用户甚至感受不到行业大模型的存在，但一定能感知到产品的用户体验提升了。

观察者网：月之暗面的杨植麟说，今天的大部分开发工作实际上是做中间层的事情，就是数据。交互和模型可能都是一样的，但用不同的数据，就会出来不同的产品。定义好了训练数据和测试数据，大模型产品就定义好了。月之暗面是做云计算，做to C端产品，对于你们做边缘计算，做to B端产品来说，这个描述也适用吗？

李聪廷：最近月之暗面及其旗下应用Kimi热度很高，用户体验做得不错。我们所在的AIoT 赛道，和它所在的赛道没有交集。训练和测试数据肯定很重要，在我们这个赛道也一样。但对于定义一个行业大模型而言，我们会更关注其落地的性价比。

例如，如果我们用10B级别的通用CV大模型去做视频解析的逐帧推理，那需要用到A800级的GPU设备，单路的实时推理成本需要1万美金左右，而我们的客户过去只能接受几百元人民币每路的成本。因此，我们采用了5M的小模型+1B的梧桐行业大模型结合的方式，并且都是ViT网络结构，这样我们的单路推理成本可以做到几百元人民币水平。

观察者网：当前倡导的“新质生产力”就是要找到更多信息化、智能化的新模式、新场景、新业态。在典型的物联网场景比如充电桩，还有你们正在探索的文教体等行业，目前找到了哪些好的AI应用场景，已经表现出了能够商业落地，适合技术迭代的迹象？

李聪廷：确实，技术进步会催生更多的细分行业场景，比如AI文教体、储能、充电桩等，在宇视2024合作伙伴大会的现场，大家能看到很多的这类产品，我举四类：

一是AI体育教育：实现体育教具的AI化，其是一个具备逐步迭代与升级的长程赛道，可以围绕的教学要求、运动种类、锻炼目标等不断地提升效率、效果及内容丰富度，一方面是针对不同的运动类目不断增加算法类别，另一方面又可在单一算法类别上不断纵深优化效果。

大模型提升了算法精度，推进了体育教具AI化

二是AI体育运动：分享经济时代，能更全面记录自己想要记录的时刻，具备更丰富的可分享素材是通识性需求，只要是运动游玩都有此类诉求，所以在这个领域内宽度（运动类别）无上限，深度（每一个细分领域可提供满足个人情绪价值的内容）无上限。

在乌镇现场展示的智能球场解决方案，通过AI捕捉分析，自动生产运动视频并统计数据

三是文旅领域：基于梧桐大模型演进的算法服务于“旅游”行业，通过摄像机采集AI择优生成照片与vlog模式可覆盖景区、游乐场所、博物馆等多类场景，更好的与当下分享经济结合，服务于个体情绪价值的满足，其具备充分的优化演进空间，比如在算法的优选效果上、视频的画面清晰度上、视频剪辑的创意性以及更多更有趣的表达方式等等。

四是AI写真：通过AI算法来完成照片的优选与“PS”，可以配合个体快速的完成不同场景生成、不同装造、不同形象（二次元、商务等）的照片生成，即可帮助找适合自己的造型、也可在过程中带来娱乐性，同时也可服务于个体某一些场合所需照片的快速获取诉求。

观察者网：大模型未来最大的挑战可能是能耗问题，模型的能力增长与算力增长、能耗增长的关系是怎样的？为什么分布式能源系统和能算一体化是解题思路？

李聪廷：要把大模型技术和大模型应用分开，还要把大模型应用中的互联网服务和装备化产品分开。对于面向C端的大模型互联网服务来说，比如ChatGPT、Sora来说，算力和能耗问题比较突出，每多服务一个用户，都需要额外的算力和能耗。但对于使用的大模型技术的装备来说，算力和能耗是有限的、固定的，并不存在算力和能耗焦虑。

对于算力高度集中的数据中心应用场景，能算一体也许是个发展方向，能源自给自足肯定是有利于降低成本的，但代价是能源供给的稳定性。分布式能源是一种能源结构，涵盖的面比能算一体更广泛，解决的不止是数据中心能耗的问题。