1月30日,联想全球创新中心显示业务产品营销高级总监崔希波,以及联想研究院技术战略与创新平台技术总监张柳新,做客联想员工论坛直播间,为大家详细介绍了联想裸眼3D显示器的产品特色、性能,以及背后的先进技术创新。以下是文字实录(略有编辑)。
主持人:亲爱的观众朋友们上午好,欢迎收看联想员工论坛组织的分享交流会,我是员工论坛的管理员以及本档节目的主持白鸽男孩。本期分享交流会将会围绕公司内外的热点话题邀请大咖进行一个小时的访谈盛筵。最近在2024 CES上,联想有一款产品获得了全球的瞩目,它就是联想首款4K 27寸裸眼3D显示器,我们今天也特别邀请了显示业务产品营销高级总监崔希波,以及联想研究院技术战略与创新平台的技术总监张柳新。我们邀请二位大咖和我们一起聊一聊,并探索一下裸眼3D背后的奥秘。首先,想邀请二位嘉宾跟我们分享一下这背后裸眼3D技术的原理到底是怎样的?
崔希波:大家好,我是崔希波,非常高兴有机会在此进行分享,非常感谢现场小伙伴们的参与。今天我和柳新跟大家分享一下裸眼3D是什么,未来在什么场景上能应用,更重要的是背后怎么实现了裸眼3D。大家都看过3D电影,很多戴眼镜的伙伴们永远的痛点是眼镜和3D电影的眼镜在打架,那裸眼3D背后的奥秘、技术支撑是什么?现在我开始分享。
第一先分享一下裸眼3D意味着什么?大家有没有意识到,每天不论用笔记本、一体机,还是显示器,用的都是二维的图面,大家都在追求怎么回归现实,平常接触的都是三维环境,怎么还原真实的世界是我们有意无意都想追求的东西。我们的业务是做显示器,一直都是二维的显示器,一直在想怎么能让大家更好的去享受3D世界,还原真实的世界,这是我们最开始的出发点。显示的发展有个历程,大家记得之前显示是从小变得越来越大,大家想看的越来越清楚,所以显示器分辨率越来越高、色彩越来越好、尺寸越来越大。其实视觉是最重要的来源,有统计说大概83%人类的信息是通过眼睛、视觉来获得。今天面临同样的问题是大家想要模拟的在2D世界里更真实,对整个行业的挑战是怎么看到真正的3D效果而且不带条件的。过去有很多3D设备,也曾经有过3D电视、3D电影,包括各种XR设备都有各自的条件在里面。我们整个的思考逻辑是怎么把门槛条件降低,让大家更快、更好地进入到3D视界,来还原真实的生活。
整个显示行业包括人的交互,最开始IBM在1981年推出了第一台个人PC,那时候第一个个人显示器也是在全球诞生,大家知不知道特别大的CRT显示器再到薄的液晶,再到更大尺寸,其实大家一直沿着这个路线发展,从80年代一直到现在,这条路线发展了40年以上。大家说光看不行,还得交互,所以后面就加上了触控,像智能手机和各种显示设备加上了触控的交互。大家还是不过瘾,这也是为什么后来出现了3D XR的设备,大家都说光看清了还不行,怎么让它还原得更真,其实是整个产业一直在推动的事情。我们这款显示器的技术研究历经了超过一年半的时间,去研究技术怎么让大家不用戴眼镜就能够看到真实的3D效果,怎么让你用起来更方便。裸眼3D说新也不是特别新,大家也知道有些品牌出了裸眼3D,但也是附带了很多条件,比如要运行很多的软件在上面,3D效果和软件的显卡性能要求很高。再一个他做不了大尺寸,原尺寸都很小,14寸、13寸,这尺寸平常用太小了,所以我们的ThinkVision 27寸3D显示器在全球首先突破了这么一件事情,把尺寸做到27寸4K分辨率,实现裸眼3D。
我们具体做了什么事情呢?第一件事,我们认为现在还是2D为主的世界,平常的办公、Windows所有的都是2D,纯3D对大家的接受度会有很大的障碍,所以第一件事是要突破怎么实现2D、3D混合显示,想看3D的时候看3D,用2D的时候还是一个很好的2D显示器,这里要进行突破,第二是突破大尺寸。
第三件事,既然是显示设备,怎么让大家还能享受现在常规的2D色彩、声音、效果、显示、连接,都要提供很好的支持,在此之上,再给用户加一个3D的应用,这是我们产品设计的特点。
第二个特点,一会儿柳新会讲背后的技术,比如柱状透镜技术,我们用智能算法、人眼追踪技术,实时地把3D的效果呈现给用户,不需要佩戴任何的眼镜,无论你戴不戴眼镜,你戴近视镜还是不近视可以看到同样的效果。我曾经给一个客户做测试,这个客户有一些视觉的问题,他看正常的3D是看不清的,但是看我们的显示器也看到了3D效果,所以它的适用性特别广。二是以前在电影院看3D电影的时候,如果你移动一下,可能会发现效果很差,分辨率和显示质量也会很差,包括移动的时候会有发晕的感觉,所以用人眼追踪技术包括里面有内置的算法板卡,怎么做算法和人的智能交互,解决了你坐在这,你去挪动,物体可以跟着你挪动,看到的还是正常的3D效果,活动团队应该也在外面安排了一些产品供大家体验,后面大家可以去体验一下。
最后一点,改善显示质量,很多人对3D的印象不是特别好,原因是很多时候,显示效果确实有很多问题,我们在做这款显示器的时候进行了自己的调校,在业界的一个突破是第一次让这项技术走出了实验室,实现量产、批量复制,提供一致性的体验,这也是联想在行业中的突破和领先创新。
我们这台显示器能够实现2D、3D切换,怎么切换呢?我们有一个自动功能,会支持很多格式的3D内容,当播放3D片源的时候,显示器会自动切成3D模式,当你换成word、PPT则自动切换成2D内容,整个是无缝切换,还可以支持热键强制切换。我们跟友商一个很大的区别是什么呢?友商的笔记本一定要打开一个应用程序才能把内容播放出来,这叫做播放器,我们也有播放器,但我们的特点是不用播放器,把原生的driver安装上去就可以实现播放,尽量减少使用内容的难度。同时我们把显示器本身的显示也做的非常专业,比如支持DCIP、P3的色域,双99色域,包括Adobe色域等非常专业的色域,包括4K的超清屏,也添加了出厂的小于2的色场矫正。我们把原来所做的显示器各种创新,包括很多模块化设计,可以模块化加装摄像头、加装音箱,全都放在一个显示器上,把2D能做的、3D能做的都集成在一个显示器上。另外整个的算法主要依赖于在屏里集成的算法板卡硬件。别人家实验室做的很多东西需要至少一个GTX的显卡才可以拽动起来,而我们不需要,大家手里的设备比如ThinkPad X1,采用我们的显示器装上driver就可以播放,入门门槛降低了很多。
最后,是怎么尽可能简化安装,2D即插即用,插上就可以用2D显示,3D简单装driver就可以用,不需要装很多的软件,其他附带软件都是附加的福利,比如提供的一些AI、3D转换在CES上也是业界很领先,包括支持的设计软件通用引擎和整个的展示工具都会以推送的方式给大家,装了windows update会给大家推荐这一套东西,可以选择使用,也可以选择使用自己的软件。更重要的问题是显示器本身不带系统。大家知道很多软件的痛点是什么?兼容性。所以我们的路线是尽量3D显示的所有算法不依赖于Windows的操作系统,算法独立运行,最大程度减少了软件冲突的可能性,让显示不受影响,这也是现在业界的独一份。
然后跟大家分享我们看到的应用领域,第一个领域是工业设计领域,比如像汽车制造、建筑设计、工程施工、装修类的这些客户都特别感兴趣。举个简单的例子,不知道现场小伙伴有没有产品经理,联想做产品是什么步骤?ID团队设计完ID之后下一步做什么?要打样,打样的周期至少需要两周,需要花几万块钱打样,看完之后要再去改,可能要再一轮打样,四周的时间就过去了,甚至不止四周,中间还要改,还要花很多钱。通过这个3D显示器,不能说全部减少,至少有机会减少一步,让整个周期和速度提升,包括成本也会改善,少一个打样,显示器的价格就出来了。还有医疗的客户也在看,有没有机会用三维的东西用在医疗教学这些领域,这都有很大的想像空间。第二就是专业教培,当老师讲花蕾的结构、地球的结构,大家都是通过二维图去想像,用了这个3D显示器可以很直观地看到它是什么。而且很多技术实验包括技工类培训都有一定的操作危险性,通过我们的这套系统可以更大限度地减少这种危险性,当然现在有很多用VR、XR来做,我们的特点是一个开放环境,现实的3D场景和显示器是融合在一起的。另外,大家也可能听过Google Starline怎么把远程会议、远程协同3D化。在疫情期间不知道大家有没有这种感觉,我跟美国同事讲一个产品的时候,他很难看到这东西是什么,包括跟高层领导汇报的时候也很难看到这到底是啥,因为大家无法见面。如果变成3D协同的3D会议,那大家就可以看到这是什么东西,整个的沟通效率会提升,这也是未来潜在的应用。
最后是大众应用,现在很多游戏公司也感兴趣,有游戏公司的客户买了这个机器进行他们的实验。还有网购,现在全是二维的,如果未来网购变成3D,大家能看到商品是什么,那体验会是什么样?最终会实现从工业到民用行业的转换,未来可能真的就是回到3D世界。技术需要不断的进步,产品也会不断的丰富,这样最终有一天会触达千家万户,3D、2D随意去切。
我们做的这个产品不仅仅是台显示设备,我们还在考虑内容从哪来、怎么获得内容、怎么更好地交互,和二维、三维的交互都是未来技术要逐步去丰富和加强,把它形成一套整体闭环的解决方案,怎么很好地获得内容、生成内容,就像大家玩抖音用剪映编辑视频一样,是不是有一个很简单的工具能很快生成3D文件,老师很快生成3D课件,这些东西怎么更生动化的结合AI和各种大模型能快速地做出来。未来的交互既然是3D就不会是平面交互,会是一个空间的交互,空间交互是什么样子?有很多想像空间,未来需要更多的探索。我们的3D显示实际上是开拓了一个新的行业,显示从2D到3D的运算需求是指数级,我们是做PC的公司,也做服务器,存储量也是数量级的增加,对整个的产业投资和对我们公司,可能有更广阔的机会。很多小伙伴会关注3D显示器背后到底有些什么样神秘的技术,后面请研究院的张柳新给大家分享一下背后的技术问题。
张柳新:谢谢Simon的介绍,谢谢主持人,大家好,我是来自联想研究院的张柳新,非常荣幸能够有机会在员工论坛组织的分享交流会上和大家做一些沟通。刚才Simon介绍了我们全球首款27寸、4K、2/3D可切换的裸眼3D显示器产品以及市场机会和前景。我接下来从3D体验升维的角度来讲讲它的背后积累的关键技术。
为什么要强调3D的体验升维呢?因为我们认为,3D带来的体验升维其实就是3D的用户刚需,用户在使用了3D设备以后,对3D的体验形成了依赖,再也回不到2D设备的体验了,那就产生了刚需。举一个例子,我们都知道现在用的手机都有前置摄像头,可以拍我们的影像,但是我们发现一个很有趣的现象,有一部分用户在有了前置摄像头以后还会配一个手机壳,这个手机壳带镜面反射,可以当镜子用,平时会用背面手机壳的镜面反射来照镜子。既然手机有了前置摄像头为什么不用摄像头当镜子呢,这是一个非常有趣的现象。其实现场可以来做一个调研,现场有多少人愿意看自己身份证上的那张2D照片,现场的同事愿意的可以举个手,线上的小伙伴有愿意看自己身份证照片的可以扣1,不愿意的可以扣2,我们看一看是1多还是2多。我自己其实有过一个初步的调研,绝大部分人都会跟我反馈他们不太愿意看身份证上的照片,反正我也不太愿意,因为确实不太好看。同样是看自己,我们照镜子的时候好像就没有觉得特别的难看,这就是体验升维带来的魅力,当我们习惯了3D设备,习惯了照镜子带给我们3D的体验,再回到2D用摄像头看就已经不习惯了,我产生了3D设备的体验依赖,所以就形成了3D刚需。所以一个3D设备要既叫好又叫座,我们认为最关键的是让用户形成依赖的3D体验。所以在构建3D背后核心技术的时候,也是围绕着如何给用户带来更好的体验升维来去做一些考虑,所以接下来,我会围绕着3D体验升维,从显示、内容和交互的升维来分别谈一谈背后构建的核心技术。
首先,来看一下显示升维,它的目的就是给用户带来非常舒适的3D观看体验,先从人为什么能感知3D说起,这一页的动图就是在说我们为什么能感知到3D。简单来说,能感知到3D是因为我们有两个眼睛,双眼因为位置不同,当看同一物体的时候因为位置的不同会产生视角的差异,现场和线上的小伙伴也可以做一个尝试,你用两个眼睛去看手指,当你分别闭上左眼和右眼的时候,会发现其实手指的位置在左眼和右眼的图像里面会稍微有些不一样,这个不一样其实就叫做视差,大脑接收到了来自左眼和右眼带有视差的左图和右图,再经过大脑的合成就会形成3D,这是我们为什么能够感受到3D的视觉原理。
从技术上,如果要让我们感知到3D就得去模拟刚才的过程,所以从技术上来说,让我们感知到3D的方式主要有两种,一种是人戴眼镜的方式,大家也都非常熟悉,比如像现在的XR设备,它是通过把两个近眼显示器戴在左眼和右眼前面,然后通过这两个近眼显示器分别显示出带有视差的左图和右图,然后让我们感知到3D,这是人戴眼镜的方式。还有一种方式是把人戴的眼镜放到屏幕上,叫屏戴眼镜的方式,就是在屏幕的前面贴一个光栅,然后用这个光栅去过滤屏幕上显示的交织的左图和右图,保证左图可以投到左眼、右图投到右眼来形成3D,我们说的裸眼3D的显示就是屏戴眼镜这一类的技术方案。
这一页是详细的通过一个动图展示裸眼3D大致的原理,首先会在屏幕前面贴合一个光栅,现在的主要是柱状透镜的光栅。系统会实时追踪双眼的位置,然后根据实时追踪到双眼的位置以及光栅的信息,我们会去计算屏幕上左图和右图交织的图像是什么,然后把交织的图像显示到屏幕的面板上,因为光路是可逆的,所以交织的图像显示在面板上以后,通过光栅的过滤就会把左图和右图分别投射到左眼和右眼,因为这些都是根据眼睛的位置去事先计算,所以光路可逆以后是可以保证左图进左眼、右图进右眼,从而产生了裸眼3D的效果。从这个原理可以看到对于裸眼3D显示来说,最关键的技术是我们要实时地知道用户双眼的位置。这样的技术对于改善观看的舒适度是非常非常有必要的,为什么这么说呢?我们之所以能看到3D物体是因为能接收到物体表面发射或者反射的光线,在真实的世界下,3D物体表面的光线是本身就存在的,当你移动的时候去看3D物体,你的眼睛移到一个视角就能立刻能够接收到物体表面产生的光线,这个过程是不存在任何延迟的。但是当我们看裸眼3D显示器的时候,原理是当我移动的时候得先知道眼睛的位置,然后再根据这个位置去左右交织图像,然后再通过光栅的过滤把左图投到左眼、右图投到右眼。这个过程中会存在一个延迟,这个延迟就形成了我们跟实际在看一个真实物体没有延迟的过程会形成一个习惯上的差异,当这个延迟过大的时候,我们就会因为这个习惯的差异产生一些不舒适,比如说眩晕、疲劳。其实有效地改善观看舒适度的有效方式就是尽可能地减少眼动跟踪的延迟,我们基于这个也是构建了自己的高精度、低延迟的双眼3D位置跟踪的算法。我们的算法现在基于普通的RGB摄像头就可以大于150帧每秒的速度去实时计算人的双眼在空间中的位置,这样换算成延时,整个算法的延迟小于7毫秒,再加上图像交织可能需要一部分延迟,大概8到12毫秒这样会确保整个延时控制在20毫秒以内,从而保证用户在观看的时候能够有一个舒适的观看体验,这是在显示的升维这块所构建的技术。
接下来是内容的升维,目的是为了给用户带来非常丰富的3D体验,这块对于一个创新设备来说是非常重要的。这块主要关注的问题有两个,第一是如何在裸眼3D显示设备上能够尽可能地无缝兼容现在已经有的3D内容。我们知道现在市场上已经有大量的3D内容,比如设计模型、教育3D实验资源、3D游戏,这些都是已经有的3D内容,这些内容因为之前没有裸眼3D显示器,所以主要都是为2D设备开发的,所以输出上不支持左右图格式,只能在2D显示器上看,所以没有办法直接在裸眼3D的设备上用。为了解决这个问题,其实一个传统的做法就是我们提供SDK,然后把这个SDK给到应用和内容的开发者,让他们围绕着我们的设备重新开发相应的内容和应用来适配设备,那显然是可以,但这是一个非常耗时、耗力、耗钱的做法,是一个非常漫长的生态构建过程。
因为我们是设备制造商,解决这个问题可以从我们更擅长的领域,从设备本身、从底层的显示图形硬件上考虑。为了解决这个问题,我们构建了一个设备端跨应用的渲染引擎。这个引擎干什么事呢?它是可以从显卡驱动这一层,当设备打开一个3D应用以后,从显卡驱动这一层获取到3D内容本身的3D信息,比如说3D模型的点云、网面、着色信息是可以拿到的,拿到以后在引擎里面做一层渲染,把本来是单视图的3D信息渲染成适合裸眼3D显示的左右图格式,然后再输出到上层应用在显示器上显示。这样一个本身就是3D格式的内容通过引擎以后就可以不需要做任何的修改,就可以直接在我们的设备上浏览和使用,这是围绕着跟3D现有内容怎么兼容的技术积累和创新。这是我们相应的演示,大家其实可以看到现在笔记本上打开的是一个传统的2D设计软件,应该是SketchUp,这个设计软件没有对它做任何的修改,所以当我们打开一个3D汽车模型的时候会发现还是2D显示的模式在呈现,只能看到单视图的汽车模型,但是当我们开启了右下角的跨应用渲染引擎以后,就可以在引擎这一层通过拿到汽车模型的数据,然后渲染成裸眼3D设备适合观看的左右图格式来观看,这样做的好处是不需要对3D内容做任何修改就可以在设备上适配,目前对于主流的设计软件,我们正在用这种方式来做一些适配,来满足Simon刚才提到的工业设计客户的需求,这是第一个解决的问题。
在内容上第二个要解决的问题是怎么能够把一些海量的2D内容转换成3D来在设备上显示,大家知道和3D内容相比,现在有的2D内容会更加的海量,比如说照片、视频,网上有各种各样海量2D的内容,但这些2D内容在2D的显示器上看只能是看的尽可能清楚,因为缺乏3D信息所以就不是很生动,如果我们能让这些2D的内容变成3D,在我们的3D设备上看会更加生动,会让我们的设备更加的有吸引力,怎么能把海量的2D内容转化成3D来在设备上显示?这个过程想起来容易但是做起来不是那么容易,我们知道2D的内容本身是缺乏3D信息的,转成3D本身是有难度的,所以在这里就借助了AI算法从2D内容上估计每个像素3D的信息,但是借助AI估计3D的过程非常消耗算力,即使现在主流的转换算法在主流的显卡比如4090上上,也很难做到高分辨率实时转换,所以对某些场景,比如在线看一个视频,对这种实时性要求高的场景就很难满足,所以在这个过程中需要找到一个特别高效、能够达到实时的转换方式。
我们在考虑算法的时候,是源于一个非常有趣的心理学的发现叫知觉填充,说的直白一点就叫做脑补。直觉填充是人类可以根据自己的认知去发现一些本身不存在的视觉线索,比如现在看到的图片上一些几何形状,像三角形、矩形、圆和直线,这些图形本身是不存在的,但是靠认知是可以感知到它的存在。基于这个原理就在想当进行2D到3D转换的时候,本质就是把一个单视图的2D转化成适合3D左右图的格式。当转换成左右图的时候,能不能把左右图都变得特别清楚,只把原始的2D图像还是保留清晰度,另外一幅转换出来的图像把其中的因素变得模糊,然后让大脑基于清楚图像里清楚的部分,来脑补另一个图像上模糊的部分,从而可以节省一部分算力,所以带着这个想法,我们做了大量的用户实验,发现把模糊程度调到一定的程度、中等程度的时候,用户其实是感知不到3D的效果。基于这样的想法就构建了从2D到3D的转换算法,是可以通过一定的判断和规则,比如说眼睛看的区域和基于场景的理解去判断图像上重要的区域,转换的时候把这些重要的区域尽可能的保持清楚,把一些不重要的区域模糊化,然后再通过知觉填充的方式从另一幅清楚的图像填充这些模糊的部分,来达到高效的2D转3D的过程。目前我们的算法也是行业内首个可以支持4K超高清视频的实时转化,也就是在看4K电影的时候,通过我们的显示器可以毫无压力地转换成3D的格式。在当前业界主流的算力显卡上也就是2080以上的显卡上也都能够适配的非常好。这是个演示的视频,无论在视频聊天场景还是看一张照片、在线视频、在线电影都是可以一键通过预置的2D转3D的算法服务,然后转换成设备上可以看的3D格式,明天应该也会在一层有相应的演示,大家有兴趣可以去体验一下。
有了显示的升维和内容的升维以后,还有一个重要的升维是交互升维,我们怎么给用户3D内容带来更加自然的体验。刚才介绍到,3D算法可以非常高精度、低延迟的检测双眼在空间中的位置。除了可以检测到双眼在空间中的位置以外,我们还可以检测到双眼的视线朝向,同时可以对双手表面高达778个表面3D点的位置也可以做一些检测。基于检测出来的信息可以去探索在真实世界里非常自然的交互方式叫做手眼协同的交互。我们知道在真实世界里和物体的交互最自然的方式就是手和眼的配合,先看到一个物体然后再上手去交互,所以现在基于算法的能力也在做相关的手眼配合尝试。
这里展示的是怎么在桌面的环境下怎么通过手眼配合来和桌面的应用图标进行交互,通过眼睛看向图标,然后通过一个手势去触发应用。这是我们怎么通过手眼配合去和一个3D模型做一些交互。左边展示的是当这个模型看到3D效果时,在屏幕外面就是出屏效果的时候,现在的做法是可以眼睛看向这个模型然后触发可交互的状态,直接通过双手和模型做交互。右边是这个模型在屏幕里面,看到的3D效果是入屏效果,可以通过眼睛先看到模型触发交互态,然后再把真实的双手映射成屏幕中虚拟的双手和物体进行交互,通过手眼配合的方式给用户带来更自然的3D模型交互方式。
以上是我介绍的从显示升维、内容升维、交互升维,背后为了提升用户的体验来构建的关键核心技术。最后,ThinkVision刚刚也是迎来了它的20周年,其实也是一个非常巧的事,我们知道十年的英文单词是decade,所以2D不仅仅是二维空间的意思,也有二十年的意思,今天讨论从2D到3D也是可以意味着从20年到30年,所以我们也是希望未来能够基于我们的技术和ThinkVision一起从2D到3D,从20年到30年和ThinkVision一起迎接它的下一个辉煌的十年,谢谢大家。
评论