作者|沈筱、王与桐
【资料图】
距离ChatGPT首次亮相已经过去近五个月,LLM(大型语言模型)模型层玩家已纷纷就位。随着百度、阿里、商汤等企业先后发布自研NLP大模型,一众模型层创业公司和明星创业者也已拿到融资。
除了怀揣着成为“下一个OpenAI”的梦想之外,另一波创业围绕应用层——成为“下一个jasper AI”。更宏观的视角来看,或许中国的AI创业热潮已经来临。
但36氪本次采访的主角——王长虎,却没有把视角禁锢,在LLM和应用层两个创业热潮之外,选择了视觉赛道,围绕AIGC建设多模态算法平台。
之所以做出这样的选择,与其从业经历密不可分。自从业以来,作为视觉AI技术的坚定追随者,他没有错过深度学习诞生后的每一次技术发展小浪潮:2004年加入微软亚洲研究院,经历了搜索引擎飞速发展的时代;2017年加入字节跳动担任AI Lab总监,陪伴抖音这一现象级应用茁壮成长;2021年,他加入龙湖,成为龙湖数字化与智能化转型的掌舵人。
在搜索引擎和新型社交媒体这两大具有划时代意义的互联网产品背后,王长虎都扮演着“送水者”的角色。
2023年3月31日,他从龙湖离开,开启了人生第一次创业。而绕开NLP大模型和应用这两个最火的创业领域,他的思考是,与其投入大量精力、资源做不擅长的NLP大模型,不如从自己熟悉、感兴趣的视觉和多模态出发,做AIGC时代,更多行业及应用的算法平台。
为什么在此刻选择创业?什么是多模态算法平台?未来AIGC该去往何方?我们带着一系列问题,采访了王长虎。
王长虎口中的算法平台,可能包含解决不同用户场景的视觉或多模态大模型,以及相关的工程平台。具体来说,从服务UGC(用户生成内容)生态转向服务AIGC生态,王长虎认为“变的是U和AI,核心还是内容”。 他要做的是围绕AIGC建设视觉为主的多模态算法平台,支撑AIGC从生产到消费的全流程,解决各行业、企业和用户可能面临的AIGC相关的实际问题,包括内容生成、版权、内容理解、分发,以及商业化变现。与all-in-one的NLP大模型不同,像Stable Diffusion等视觉大模型当前只能覆盖其中某一个环节。因此,在视觉AIGC全生命周期中的每个环节,可能都需要独立的大模型和系统来解决。
谈及创业时机,在王长虎眼中,此刻就是最佳。在移动互联网方兴未艾时,其他人还在拿着锤子找钉子,而抖音产品为视觉AI技术提供了施展拳脚的机会。
同时,在王长虎看来,尽管生成式AI时代已经到来,但新时代孕育的机会不仅是眼前所能见到和可预期的,更大的机会和颠覆性正隐藏在更多的不确定性中。
王长虎告诉36氪:“一定有很多东西都推倒重来,甚至从另外一个方向做出来。”他认为,抖音的出现和字节取得的成绩并非自然而然:“回到那个年代,如果在初期这个机会被很多大厂看清楚了,怎么可能有字节这样的初创公司发展起来呢?”
以下为36氪与王长虎的对话,经编辑整理:
01 谈创业:离开大厂舒适区,想做“送水者”
36氪:这是您第一次创业,此前经历更多是在大厂。为什么做了创业的决定?
王长虎:有两个原因。
首先是我的AI情结。我认为AIGC是至少10年一遇的机会。作为20年的AI从业者,亲历过10年前深度学习给AI带来的翻天覆地的变化,所以我不能错过这个机会。
其次是我的创业情结。我在外企工作过,半路加入过字节跳动这个创业公司。虽然带过上千人的团队,但心里一直有一个创业的情结,想要尝试从0开始,与合作伙伴们一起,孵化技术和产品,影响和帮助尽可能多的企业和用户,同时丰富我的人生履历。
浪潮来了,必然会有喜欢乘风破浪的人去奔赴。
36氪:微软和字节的经历,可以看作是您在上一波浪潮中拥抱到的机会吗?
王长虎:对。在微软亚洲研究院做科研,是非常幸福的,那时我主要围绕搜索引擎做计算机视觉和图片搜索相关的科学研究,那个年代,是搜索引擎的时代。在20年前,全球真正能处理大规模海量图片的团队可能也不多。我当时做了很多科研,其中一个系列是“草图搜索”,和现在的AIGC非常相关,要把脑海里想到的场景,通过关键字,或者画一些线条、涂一些颜色,在我们制作的工具上呈现出来。我们建设了世界上第一个十亿级别的草图搜索引擎。
我2017年初加入字节跳动,也算是半途加入初创公司,搭建了视觉技术团队,建设了视觉算法平台和业务中台,参与了抖音和TikTok等产品从0到1的建设和发展。我们的技术广泛应用到了字节跳动全线产品中,包括今日头条、抖音、TikTok等。用技术和产品影响和帮助数以亿计的用户,“change the world”,是我多年的愿望,在字节跳动得以实现。
36氪:这次您打算如何拥抱机会呢?您本次的创业方向是视觉多模态算法平台,这个怎么理解?
王长虎:我们要做的是建立服务于AIGC生态的、视觉为主的、多模态算法平台,支撑AIGC从生产到消费全流程,支撑各个行业和用户的应用,包括营销、广告、电商、游戏这些非常依赖内容创作的行业。
这和我之前在字节做的事情是类似的。但区别在于现在是AIGC,是UGC(用户生成内容)的升级。AIGC时代,人工智能可以更好地创造图片、视频、文章等等。
从PGC(专业人士生成内容)升级到UGC诞生了很多现象级的产品,包括抖音、微博等。所以我们在想从 UGC跨越到AIGC的时候,势必也会带来大量的机会,我们创业就想抓住这个机会。但是这两个词,UGC到AIGC,变的是U和AI,核心还是内容。既然如此,我们做的所有的工作都可以围绕AIGC,去解决它可能涉及的实际问题。
具体来讲除了生成外,AIGC也会涉及版权问题、内容理解问题、分发问题,也有商业化变现的问题。
36氪:所以从UGC到AIGC,从业务逻辑上来讲有没有会产生变化的方面?
王长虎:大概的方向是类似的,但技术路线可能会有变。因为 UGC变成AIGC,整个的内容生产形式变了,所以需要解决的具体问题或者解决途径可能也会变。
AIGC生成的文章、图片、视频,也会涉及安全问题、虚假问题,但我们怎么去定义问题、怎么识别以及解决,可能还需要探索很多,不管是技术层面还是应用层面。
36氪:你们的算法平台具体将如何发挥作用?
王长虎:这可能需要再介绍一下我在字节的工作,来更好地理解。抖音呈现的主要是UGC内容生态,我们建设的算法平台覆盖了UGC内容,特别是视频、图片,从生产到消费的全流程,它的全生命周期,AI都在发挥作用。在这上面我们支撑了抖音 、TikTok等几十个产品。
首先是在内容生产阶段,我们可以帮助普通用户更方便地创作优质视频。
其次是问题视频的拦截。当用户完成投稿后,我们利用人工智能技术拦截不适合分发的黄反和其他违规内容,确保公司各产品的内容安全。
过了安全这一关后,我们还要对视频内容进行全方位的分析,完善产品的内容生态建设,我们要找出重复投递的非原创视频予以打压。
这极难,所以背后的AI技术要做得非常强。每天用户会上传上亿个视频,我们需要检测每个视频,和数据库里海量的、上千亿的视频比较,判断是否雷同。有一些用户会专门拷贝非常知名的作者创作的优质视频,我们需要发现并打压。否则,无论是创作者还是用户的体验都会收到极大影响。
还有一些其他工作,比如我们要对视频进行充分理解,给视频打上丰富的标签用于推荐和运营。另外,还有给视频自动配音乐,早期是没有的。
最后是商业化变现,很多广告主,有大量广告素材生成的需求。我们需要帮助他们更好地、更方便地创作广告,做图片和视频生成、商业化落地。
36氪:从您的描述中,我们关注到或许在字节的工作经验就足以支撑您来创业了。为什么当时没有直接去创业而是去了龙湖呢?
王长虎:离开字节时虽然考虑过(创业这件事),但没有具体的创业想法。
我之所以从字节出来,是因为发现自己进入了舒适区,想要挑战新的事物。从我的人生经历来看,早先在外企做科研,然后到字节整个团队是从零带起来的,也经历了字节发展最快的几年。我希望能够走出象牙塔,深入产业中,看看实体经济的世界,将互联网的先进理念和技术带去传统行业,帮助产业互联网做数字化和智能化转型。这也是国家重点关注的事情。
另一方面,当时去龙湖时,生成式AI技术的进步还不足以对整个产业产生巨大影响。直到Stable Diffusion、ChatGPT出来之后,我才意识到新的AI时代到来了。从C端来看,用户数就说明一切,ChatGPT两个月就达到一亿月活,超过了当时TikTok的记录。
36氪:在您的构想中,什么样的企业会需要使用视觉多模态算法平台?
王长虎:除了之前提到的依赖于内容创作的行业企业,比如营销、电商、游戏,我们也有机会为AIGC应用层等相关企业提供内容安全、版权等方面的能力。
36氪:可以理解为您对公司的定位是生成式AI淘金浪潮中的“送水人”吗?
王长虎:这也是我在创业过程中想的最多的事情——公司的生态位到底是怎样的。总体上来讲,我们会围绕AIGC建设视觉为主的多模态算法平台。与all-in-one的NLP大模型不同,像Stable Diffusion等视觉大模型当前只能覆盖视觉AIGC全生命周期中的一个环节。其中每个环节,可能都需要独立的大模型和系统来解决。因此,我所说的算法平台,包含解决不同用户场景的视觉或多模态大模型,以及相关的工程平台。
同时我们也会深入行业,解决应用层的问题。
36氪:从现阶段来讲,可能想先从哪个角度去切入到这样的领域中?
王长虎:我们首先会围绕1到2个行业,解决行业里遇到的一些有关AIGC的问题,同时建设和打磨我们的算法平台,通过平台来帮助我们更好地解决行业问题。
36氪:目前团队筹备如何了?
王长虎:团队在初期的规模,已经有十几个人了,进展很顺利。作为创业团队,我们不会期望立马招到几百号人。但我们的目标是在短时间内将核心的技术、产品人才招聘到位,把团队扩展到几十人。
36氪:您期待招到什么样的人?目前也有很多其他大佬加入新一波AI创业浪潮,现阶段AI领域人才抢夺厉害吗?人才供应是否充足?王长虎:我们希望能够聚集一帮有共同的创业理念、文化价值观,能打硬仗、打胜仗,充满创造力和笃定感的年轻人。
人才抢夺我不是很担心。一是校招生是可以成长的,我在字节的团队成员很多都是从校招生成长为了非常优秀的工程师、研究人员和管理者;二是国内近10年的AI技术发展过程中,也积累了很多优秀人才。现在也有不少优秀的有创业意愿的人才主动来找我,所以招聘速度是超出预期的。
02 谈生成式AI:影响大于此前任何技术变革
36氪:关于这次ChatGPT带来的浪潮,大家都有各自的看法,比如黄仁勋认为是“iPhone时刻”,李开复认为是AI2.0。您是怎么看待这波浪潮的历史地位的?
王长虎:真正的大的机会,是多数人都能看到和感受得到的,这里说的多数人不是说行业大佬,而是普通用户。像之前的元宇宙、区块链,可能只是被一部分人看到,而如今的AIGC这个机会,是大众能看到和感受得到的,因此是个真正的至少十年一遇的大机会,甚至有人认为是硅基生命的一个起点。
历史上每一个这样的大机会,包括PC的出现、图形界面的出现、互联网时代的到来、移动互联网时代的到来,都伴随着非常多的优秀公司以及傲视时代的巨头公司从0到1完成升级和蜕变。
因此,AIGC如果真的是像大家预判的那样,是个至少10年一遇的大机会,必然会带来众多颠覆性的创新和商业模式的改变,必然会颠覆众多已有的企业,孵化出新的众多的甚至巨头企业。
ChatGPT的出现是一个重要的里程碑,经过数十年的积累,AI终于从幕后走向了前台。AI有机会从一种技术,进化成基础设施,就像电一样。常常听到一种说法,人工智能带来了第四次工业革命,我觉得ChatGPT是真正的做实这种说法的重要的里程碑。
36氪:之前您更多经历是在视觉领域,单就生成式AI模型来说,视觉领域之前一个比较主流的模型是GAN,GAN也是在深度学习掀起的那一波浪潮中产生的。现在的图像生成模型和GAN之间到底有什么差别?
王长虎:深度学习时代,包括GAN,几乎所有的非常厉害的模型,都是基于深度学习这一新的模型范式产生的。在那波浪潮之后,这十几年各种技术都在进步,虽然数据规模逐渐增大,但其实还是在这个范式里。只是现在的图片生成模型找到了一个非常有效的算法,在工程上面也做了很多积累。
与之前的图像生成技术相比,当前一个重要的突破是生成内容的可读性和可用性大幅提升。早期的生成模型例如GAN等,生成的图片或文章,用户可读性是比较差的,很多时候没法在通用领域上去使用。
36氪:现在的大模型生成内容可读性好,从技术原理上看,是由什么引起的?
王长虎:和大家之前预判不同的是,过去大家认为当模型参数逐渐变大时,它的边际的收益是越来越小的,在很多实验上面也做了验证。但是这次ChatGPT可能因为模型有一定变化,参数达到了千亿之后,就涌现出超常的推理能力。
有多方面原因使得这个模型现在是超出预期的,现在也是在探讨中。
目前有几种说法,一种是ChatGPT引入了强化学习方式,通过数据标注,能够及时反馈到模型端。第二个原因可能是由于ChatGPT用到了代码作为数据源。这个数据源被认为是非常重要的,因为程序员写的代码要求逻辑思维非常强。代码会很长,开头、中间、结尾都有因果关系和逻辑关联,所以能够帮助解决长线的、逻辑上的问题。所以现在看到生成对话的逻辑思维也很强。
36氪:提到推理能力的涌现,现在大家对ChatGPT的看法是不是存在一些分歧?比如有的人会认为AI真的理解了语言甚至有自主意识,但还有人认为它可能跟以前没什么不一样,也是类似于鹦鹉学舌的东西。为什么会有这样的分歧?
王长虎:这两种说法其实不矛盾,从不同视角会得出不同的结论。如果基于微观视角,模型发展到现在,从物理上可能就是没什么区别。
用这个角度去看人类也一样。以微观视角来看,人就是由细胞,由分子、原子构成的。现在的人类和1亿年前的我们的祖先,从物理构成来看,并没有区别。人类的知识怎么来的,不也是这些神经细胞作用产生的吗?那么是不是当脑细胞、脑容量超过一定阈值的时候,真的就能涌现出一些功能?
所以,对大模型而言,不管是强化学习、深度学习、用户标注的闭环都不是新的概念。以前也做了很多工作,模型本身也和一两年前的模型在结构上的区别可能也不大。但是它产生的结果就是巨大的突破,这也是我们能看到的。
36氪:也就是在您看来,其实这一波技术变革也是通过渐进式创新产生的?
王长虎:AI是持续进步的,是这几十年的来AI发展累积出来的结果。虽然我们认为ChatGPT突然震惊了所有人,即使是这样,但其实它是站在很多工作的基础上的。GPT之前也有其他的一些研究工作,有科学研究的渐进的过程,相当于量变引起质变。
03 谈机会:颠覆性应用,目前尚未发现
36氪:您认为LLM(大型语言模型)和相关技术的发展,会让哪几个领域率先发生变化?
王长虎:最快也是最直接影响的是NLP领域。在这个领域,像ChatGPT这样的大模型,它能同时解决很多任务,比如机器翻译、文本理解、文本生成,包括问答、对话。很多做细分领域的人会发现自己的工具做得再好,也赶不上大模型。
36氪:这可能是我们目前能很快感受到的变化,有没有一些您认为更加颠覆性的变化?
王长虎:这也是我想说的,单把生成式AI视作一个工具还不足以说这是新浪潮。它带来的不是点状影响,而是会影响所有行业,会对生产力提升有巨大帮助。
但这种影响可以是颠覆性的,也可能不是。
目前,我们肉眼可见的或者可预测的变化可能都不是颠覆性的,但仍然有很大的想象空间,孕育着很多机会。比如内容生成,只是图片、视频还不够,以后还可以生成大电影,当然,当所有人都能够创作电影时,对电影导演要求可能也就变了,甚至电影形态也可能会有巨大的变化。再比如剪映,它是帮助用户创作视频的工具。这样的工具为什么不能利用生成式AI技术来使这个工具更好用?这不是颠覆,很多工具都可以加上这个概念。
但同时,我们需要关注,最大的机会可能不在这儿,而可能在这背面。回头看,哪个时代的几十年一遇的大机会,是在第一时间被看到的?
时代变革带来的巨大机会,很可能不是在已有的产品上加点东西,而是将很多东西都推倒重来,甚至从另外一个方向做出来,跟现在完全不同。
举个例子,移动互联网出来之后,短视频是不是被很多大厂都错过了?现在大家觉得这是自然而然就出现的,但其实不是。回到那个年代,如果这个机会被大厂第一时间看到了并重视起来,怎么可能允许字节这样的初创公司发展成巨头呢?
36氪:刚才您提到的短视频,最早字节内部想要去做抖音的时候,大家都是基于怎样的想法,说要去做这样的东西?
王长虎:抖音的重要性程度在字节早些时候并不是排名第一的,也是逐渐成长起来的。
字节早些时候也错失、摇摆过。腾讯也有这样的情况,微视也关停了一段时间。有很长一段时间行业并没有看得特别清楚。
在AIGC时代,这也是一些小公司的机会。现在既然大家都能看到机会,说明它一定是能可落地的。
但是我预判,现在所有人,可能都没有看到最能爆发的机会在哪里。
36氪:这样的机会我们如何去挖掘?
王长虎:商业层面的机会,可能和以前一样需要去摸索,但至少在我们肉眼可见的地方可以先行动起来。但是技术层面,除了追上OpenAI的脚步,我们应该看得更深更远。
我的第一个期待是,当AI越来越强,想象空间不应仅停留在商业应用层,而是看它能不能反哺我们的基础科学,帮助科学家们去发现一些基础的定律、定理,这个能做到就更厉害了。但是前提是我们对AI一定要有很好的管控。
现在的AI有很多的安全、伦理的问题,像小孩一样,会演绎一些东西,通过他看到的世界、得到一些信号,推演出一些可能根本就无中生有的一些东西。但这是因为它的知识面比较小。ChatGPT的优势是创造,缺点是在知识,这是可以解决的,GPT4就已经有了很大提升。
另一个期待是,希望模型能够持续进化。现在模型的进化速度很快,但是目前可能没有人知道它会不会突然到一个地方就接近能力极限了,需要新的算法,新的范式、模式才能继续进化。
36氪:在您看来,技术层面想要看得更深更远,我们需要做什么样的尝试?
王长虎:可能需要有一群人抱着更纯粹的心态去做技术创新。
36氪:比如之前提到ChatGPT其实是量变引起质变。OpenAI能做成这件事情,部分原因确实是一开始就抱着纯科研创新的心态,那国内目前有没有可能也会有人沉下心去做更底层的技术创新,创造像transformer那样的“砖块”?
王长虎:一定有。中国有很多的,不管是高校还是科研机构都在做这样的一些创新的尝试。
经过这20年的发展,中国科研水平已经能够匹敌、超越外企研究院甚至很多国外顶尖高校。但是ChatGPT出来也让我看到一些差距,在什么地方?就是一些重要核心的颠覆性创新。
36氪:从目前的情况来看,现在大厂、明星创业者、科研团队都已经开始在大模型领域施展拳脚了,您认为中国能做出来类似于GPT-4的模型吗?您最看好谁?
王长虎:首先我觉得中国一定能做出来,因为模式已经走通了,大家都知道目标在那,我们就去做就好了。但到底谁能跑出来,还是都能跑出来,也不一定,有可能最后也未必是一家通吃,有可能是多家并存。
莫欺少年穷。首先国内大模型要比ChatGPT落后,这是大家达成共识的事情。但是现在有弱点很正常,只要能把模型放出来,有用户的feedback,意味着就有太大的机会把模型迭代起来。所以我也很期待,到什么时候能出现一个大多数人都满意的大模型,尽快追上或者赶超OpenAI。
36氪:像微软加OpenAI这样的组合,您觉得在中国能不能行得通呢?
王长虎:这个组合已经被验证成功了,但看是否在中国也可以行得通,首先是要有同样组合才行。那样组合是有一些条件的,像OpenAI最开始是非盈利状态,集结了一批非常厉害的科研人员,很长一段时间都不关注商业路径。
第二个,OpenAI是一家公司,整个团队会有同样的目标、愿景、使命,这是很难得的,一些庞大科研机构可能并不能做到这一点。
另外,微软作为科技巨头,一是提供了资金,二是提供了算力,采取了非常紧密的合作方式。所以说,这种模式在中国怎么去构建,是不是有资本能够为非盈利机构投资都是问号。现在虽然有很多企业想做大模型,那也可能是因为他们看到了商业化的空间。
同时,A加B有不同的加法,到底是真金白银合作,还是相对独立运营,可以选择的合作方式其实很多。如果要完全复制这样的模式,我觉得可能很难。但是,在中国即使不是这种模式,也可能成功。比如大公司,百度或者字节,即使他们不跟OpenAI那样的创业团队合作,他们自己难道就没有这样的科研实力吗?目标在那里,往那儿走就行了。
但仍然是那句话,更重要的是下一个更牛的事情是什么,能不能做出来。
王长虎团队目前正在招聘核心的技术(包括算法、算法工程、前后端等)以及产品人才,欢迎投递简历至邮箱hr@aishi.ai
关键词: