GIV2022香港中文大学王晓刚:超大模型赋能智能汽车
2022年12月16 —17日,由合肥市人民政府和中国电动汽车百人会联合主办的2022全球智能汽车产业峰会在安徽合肥举行,由安徽省发改委指导本届论坛围绕智能汽车发展的全球新变革与新战略主题,设置了五场主题论坛和两场闭门会议,与行业组织,高校,龙头企业代表共同探讨中国智能汽车发展新路径
其中,香港中文大学电子与计算机工程系教授王晓刚在12月16日举行的科学家论坛上发表了精彩演讲。以下为现场演讲实录:
各位专家,各位同事下午好!今天非常高兴有这样一个机会跟大家分享我们超级模型在人工智能领域的一些新的进展,会给智能汽车行业的发展带来一些新的价值。
新时代智能驾驶,智能驾驶舱,AI云三位一体提供的智能服务,是推动智能汽车进步的关键因素未来我们想要在驾驶体验上得到质的改变的点,取决于我们的智能驾驶和智能驾驶舱的深度融合,无论是硬件成本,还是开发效率,包括安全性,都有了很大的提升
此外,AI云也是非常关键的元素我们知道,在智能汽车时代,未来的智慧城市如果没有强大的云控制平台,是无法界定L3和L4智能汽车的监管责任的同时,我们的AI云还可以完成智能驾驶的数据闭环,不断在线更新模型,完善自动驾驶的整体解决方案
智能驾驶舱AI云是一个非常强大的智能大脑通过提供智能推荐,千人千面等等,我们的智能驾驶舱才能真正成为我们的第三生活空间
三位一体的智能服务,离不开人工智能诸多技术问题的解决比如在自动驾驶,智能驾驶舱领域,需要解决一系列场景的长尾问题所谓长尾问题,就是出现的频率很低,但是一旦出现,影响或者这些数值很高要解决这些长尾问题,让我们的智能汽车有一个更通用的场景,包括如何建立一个数据的闭环,如何在大量数据从前端汽车流回来的时候,低成本高效率的给它贴标签,如果人只贴标签是不可能的
同时,我们如何探索各种硬案例来改善我们的体验,包括自动驾驶的模拟,我们如何通过人工智能生成这些内容,也有助于更好的人机交互体验。
说超模型的出现能给这些核心问题的解决带来很好的突破,是因为它大大提高了人工智能的天花板,使人工智能从传统的以单一任务为目标的弱人工智能转变为更一般的强人工智能。
我们认为未来我们的驾驶和驾驶舱会在产品层面深度融合,让我们可以自动识别驾驶员的状态和意图,更好的实现人机驾驶现在我们说飞行员和驾驶舱是在不同的芯片和不同的域控制器上实现的英伟达和高通都推出了集成驾驶舱芯片未来,这两种功能将在同一芯片上实现一个是大大降低了我们硬件的成本,一个是基于统一的计算平台,大大提高了开发效率,可以更好的提高安全性
我们也看到了驾驶和AI云的结合,可以带动我们智能汽车和智能城市的加速我们在智慧城市里有很多智能摄像头,实际上在智能汽车里也有很多传感器,比如未来的智慧城市和智能汽车,它们可以作为彼此的基础设施我们在智能城市的摄像头大约有几吨的计算能力我们可以看到,智能汽车的计算能力将提升1—2个数量级,传感器的数量也将提升1—2个数量级如何更好的利用我们前端发回的感知数据的价值,是未来非常重要的核心点
最近几天,工信部也发布了关于智能网联汽车准入和启动上路试点工作的通知各地也出台了一系列法律法规,明确L3和L4责任边界认识到这一点非常重要背后必须有一个强大的AI云控制平台,它可以定义我们网联汽车自动驾驶责任的边界在哪里,在出现某种危机的情况下,它们将如何处理这些车辆在智慧交通方面,我们看到已经铺设了很多基础设施如何实现这些基础设施的功能,能够给各部委和城市的管理带来核心价值,也有赖于驾驶和AI云的有效结合
人工智能在过去十年发展迅速2014年起,人工智能首次突破人眼识别率,突破工业应用红线最近从2020年开始,超大款受到了极大的关注OpenAI发布了GPT3,拥有千亿参数的自然语言理解之前我们说一个几百万或者几千万参数的模型已经比较大了当它达到几千亿的规模时,我们发现这个模型发生了很多质的变化,精度有了很大的提高而且可以自动匹配各种人体精度的自动标注,解决各种传统问题
从NLP自然语言理解到视觉,这些大型模型的更多参数的可视化实现是比较困难的,因为它占用了更多的视频内存,包括这个通信因为可视化模型往往非常大,一个GPU甚至无法支持下一个模型,所以存在一系列挑战到目前为止,最大的可视化模型是超过300亿个参数
伴随着时间的推移,我们的人工智能和深度学习对于模型的参数,包括它的计算能力,其实是一个指数增长的趋势我们还没有看到它的放缓趋势,它不断给我们带来各种惊喜和突破
在智能汽车领域,特斯拉将首先成立人工智能的数据中心AIDC—Dojo,它有大量的存储来帮助他返回数据,并且它在当时建立了自己的大数据视觉模型,一个拥有10亿个参数的视觉模型另外,也很重要特斯拉也开始有自己的自研芯片为什么要有自己自研的芯片就是因为这些芯片需要专门为未来的超大型模型和非常复杂的模型做,来解决它的内存问题,通信问题和同步问题,可以实现各种数据和模型的并行
训练一个超大型的模型,需要一个复杂庞大的支撑体系来支撑,包括底层的一些硬件基础这些芯片需要经过成千上万个GPU的训练即使有了一些硬件设施,你的训练框架也需要进行深度优化,因为往往一个模型无法被一个GPU或者一台机器完全支持的时候,几千个GPU如何进行通信和同步,包括混合精度的优化等等这个基础还涉及到各种关键
几年前,我们的模型还很小的时候,我们还可以继续尝试也就是说,如果这种模式效果不好,我们将在不同的网络结构中再次尝试但是今天我们要训练一个超大型的模型,它消耗的硬件资源是非常巨大的而且有时候完成一个培训需要一两个月的时间,不允许我们做这样的尝试所以里面的各种技术,我们可以用很小的成本找到神经网络的最优结构,包括我们感知大模型训练的方式,包括我们如何标准化数据我们需要收集各行各业的数据来一起训练这么大的模型,而且很多数据,因为数据规模已经很大了,包含了很多噪音我们怎么能在这样的噪音基础上训练他们呢有了这样的模型,就可以用在很多行业和垂直领域,具有非常好的通用性
比如基于这样一个超大型的模型,我们可以在自动驾驶中实现数据回流,大量的数据会从汽车的终端传输出去传输的超大模型可以超过人类标注的精度只要人工干预很少,大部分人工都会用超大模型标注这些数据,然后用这些数据训练实际部署在我们车上的小模型
一旦我们遇到某些情况,比如自动驾驶仪,驾驶舱,或者性能不佳,我们就可以找到这种硬伤案例我们如何找到相关数据来更新您的模型当我们有了一个庞大的数据库,就可以根据你想要的疑难案例样本,找到这样一个模型进行再训练所以硬案的挖掘也是超级模型起到的一个非常关键的作用
在自动驾驶中,我们可以看到各种奇形怪状的汽车,各种路障包括人的行为为什么我们的自动驾驶可以应用于各种场景,取决于我们感知的模型,它的一般性能解决不了这样的长尾问题
我们这里也做过这样一个实验,发现如果用一个超大型的模型来做,我们的标注效率会提高上百倍,他的标注成本会大大降低用大模型标注的精度可以接近或超过人工标注的水平
此外,我们还提到了疑难病例的挖掘在测试或者体验的过程中,我们发现在某些情况下,我们的自动驾驶仪或者座舱表现不好,仅仅是因为有一些非常难的感知样本和一些不规则的手势如何才能得到一两个样本,并从我的数据库中自动搜索成千上万个相似的样本它依赖于我们基于超大模型挖掘和自动标注困难样本的系统找到这些样本后,我们就可以利用这些困难
另外我们也看到最近这些大型模型都有生成内容的能力,也就是AIGC,可以生成更真实的各种内容的图像,包括人,物,场通过自然语言的描述,我们的模型可以自然生成各种2D和3D模型,或者通过一些工具和手工敢于去做,这将为我们未来测试的仿真提供非常丰富的测试数据,也可以基于我们自己
最近业界有很多讨论,比如ChatGPT,基于大模型的自然语言理解的突破基于ChatGPT聊天机器人,我们可以和它进行开放式对话它可以生成代码,不同垂直领域的文档等等,让人们看到通用人工智能的未来可能性,给人机交互带来更多希望
当然,我们也可以看到,目前一个大型模型的训练需要一两个月的时间,所依据的数据都是过去的数据如果我们向ChatGPT询问最近发生的事情,甚至是动态更新的知识,目前它是没有办法解决这些问题的如何把这些ChatGPT的大模型和我们网络上一些动态更新的数据结合起来,提高人机交互体验,也是未来发展的一个方向
总之未来大模型的发展空间还是很大的,不断突破人类对人工智能认知的边界和天花板相信未来在感知,决策,模拟,人机交互等各个方面都会给我们带来新的价值和体验
谢谢你
声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。