虚拟实验室-Unreal 版本

虚拟实验室的Unreal 版本,第一个版本主要是以《探究通电螺线管外部的磁场分布》颗粒为例,设计和开发一个正式版本。


数字人-需求和技术方案调研

<p>[TOC]</p> <table> <thead> <tr> <th>作者</th> <th>QFord</th> </tr> </thead> <tbody> <tr> <td>更新日期</td> <td>2024-6-22</td> </tr> </tbody> </table> <h1>背景</h1> <p>我们接收到来自<strong>数字宗教部</strong>生成数字人的需求,可参照的竞品app,如下图所示: <img src="https://www.showdoc.com.cn/server/api/attachment/visitFile?sign=4e78b26e56916459737ab9d00f0a7de5&amp;amp;file=file.png" alt="" /> 此外,还有一个视频:可以参照<strong>UE开发-小群</strong>的共享文件:数字永生人.mp4。</p> <p>第二个竞品是: <a href="https://www.guiji.ai/#/index?bd_vid=10943476659289843655">https://www.guiji.ai/#/index?bd_vid=10943476659289843655</a> 上述的这个竞品经过初步沟通,发现价格比较高昂,按照用户的使用分钟来计费,每客户每分钟需要¥100。 因此,希望我们开发调研下比较合适的数字人技术方案。</p> <p><strong>我们的应用场景:</strong> 为<strong>IP佛学大师</strong>打造数字人形象(<strong>已有</strong>法师的演讲视频素材,<strong>无法</strong>提供真人拍摄),专注于提供佛学的相关问答。</p> <ul> <li>形象保真度高(2D视频?)</li> <li>支持基本的动作(有表情更好,可基于问答的内容来自动做出反馈)</li> <li>支持语音问答(用户提问佛学相关的问题,数字大师优先基于知识库内容<strong>真人语音</strong>回复)</li> <li>支持录入知识库</li> <li>运行终端:iOS+安卓、PC端(大屏显示)</li> <li>可以通过Web页面方式集成到自己开发的应用中(支持鉴权登录后方可使用,防止非授权用户使用),比如通过webview在展示。</li> <li>不需要平台提供额外的技术人员进行应用开发,我们的开发可直接基于平台提供的SDK能力完成上述需求的开发。</li> </ul> <h1>需求</h1> <ol> <li>调研拟真数字人的竞品及输出可行性方案</li> <li>调研结论写在下面</li> </ol> <h1>技术方案调研</h1> <h2>0. NVIDIA ACE (Avatar Cloud Engine)</h2> <p><strong>调研结论:</strong>数字人有大模型支持,人物生动灵活,面部标签丰富,和人沟通很自然。但是需要自己部署NVIDIA进行训练,还需要购买指定级别GPU。开发时间和成本花费较大。不适用于快速产出,比较适用于研发基础服务的场景。</p> <p><strong>优点</strong></p> <ul> <li>支持3D数字人,人物精细度高</li> <li>支持和数字人语音沟通</li> <li>数字人面部表情丰富</li> </ul> <p><strong>缺点</strong></p> <ul> <li>微服务需要向NVIDIA申请。</li> <li>微服务部署服务器需要指定级别GPU([参数文档](<a href="https://docs.nvidia.com/ace/latest/modules/ace_agent/reference/support-matrix.html?highlight=hardware">https://docs.nvidia.com/ace/latest/modules/ace_agent/reference/support-matrix.html?highlight=hardware</a># &quot;参数文档&quot;))</li> </ul> <p>[NVIDIA ACE 数字人开发套件-概述](<a href="https://www.showdoc.com.cn/2520997255382414/11259477470819255">https://www.showdoc.com.cn/2520997255382414/11259477470819255</a> &quot;NVIDIA ACE 数字人开发套件-概述&quot;)</p> <h2>1. 硅基-数字人互动</h2> <p><strong>调研结论:</strong> 此技术方案目前的主要应用场景是虚拟数字人直播,在这种使用场景下的费用是可控和可预期的。 而作为要发布给用户使用的应用,成本费用将作为很大的考量,费用是由用户的数量和使用时长相关联的,导致费用是不可控和不可预期的。 因此,此技术方案目前不适合当前的项目需求。</p> <p><strong>优点</strong></p> <ul> <li>支持通过视频转2D数字人角色,人物保真度高</li> <li>支持保留视频角色的服装</li> <li>支持语音式GPT问答</li> <li>拥有SDK,可供Web、移动端等快速接入</li> </ul> <p><strong>缺点</strong></p> <ul> <li>不支持3D数字人</li> <li>口型/面部表情比较单一,无法根据内容来变化</li> <li>不支持丰富的人物动作库,无法根据内容来变化动作</li> <li>未提供游戏引擎接入SDK</li> <li>接入费用高 a. 充值套餐最低需要¥30万起 b. 每转换或修改数字人角色都需要重新计费(单次3800+,充值后可5折,充值越多折扣越高) c. 每个用户使用都需要计费,每10分钟计费高达¥100</li> </ul> <h2>2. 华为-数字内容生产线</h2> <p>[官方文档链接](<a href="https://support.huaweicloud.com/productdesc-metastudio/metastudio_01_0000.html">https://support.huaweicloud.com/productdesc-metastudio/metastudio_01_0000.html</a> &quot;官方文档链接&quot;)</p> <p><strong>调研结论:</strong> 华为数字内容生产线(MetaStudio)功能齐全且强大,应用场景广,能够满足各种定制需求。拥有控制台自助服务,能够一站式快速生成所需内容。计费模式较为复杂,按需计费、包年/包月、一次性预付费时长包等计费模式。 综合对比其他大厂方案,华为的不做优先推荐。</p> <p><strong>功能特性:</strong> <img src="https://www.showdoc.com.cn/server/api/attachment/visitFile?sign=31081e16d0b2e9f3e606bfd2bc6d358d&amp;amp;file=file.png" alt="" /></p> <p><strong>产品价格:</strong> 2D数字人形象制作8,000/个、声音制作2,000/个、智能交互(于已有数字分身形象和声音,结合知识库和观众进行视频交互对话,清晰度1080p。)包月4000/月,包年40000/年</p> <p>[价格详情](<a href="https://console.huaweicloud.com/metaStudio/?region=cn-north-4#/metaStudio/overview">https://console.huaweicloud.com/metaStudio/?region=cn-north-4#/metaStudio/overview</a> &quot;价格详情&quot;)</p> <p><img src="https://www.showdoc.com.cn/server/api/attachment/visitFile?sign=25244c20665840f6548748c2fa18e331&amp;amp;file=file.png" alt="" /></p> <p><strong>优点:</strong></p> <ul> <li>支持2D数字人制作,仅需录制一段视频,即可克隆出相似度99%以上的、具有高精度头部、眼部动作,以及讲话能力的超写实分身数字人</li> <li>支持3D数字人制作,支持照片建模,能够进行语音和视觉驱动(语音驱动:根据输入文本或语音驱动数字人口型、表情等动作;视觉驱动:通过摄像头采集真人运动数据,驱动数字人运动。)</li> <li>支持数字人智能交互,可自定义交互内容</li> <li>多语言泛化:一次母语训练,多语种支持;支持20+语种,覆盖主流语言。</li> <li>拥有SDK,可供Web、移动端等快速接入</li> </ul> <p><strong>缺点:</strong></p> <ul> <li>生产线功能复杂,学习成本高</li> <li>不确定能否根据内容来变化面部表情</li> <li>费用较高</li> </ul> <h2>3. 万彩-数字人互动</h2> <p><strong>调研结论:</strong> 从官网的<strong>AI数字人</strong>看仅提供在线内容创作,未发现提供给第三方应用的服务。</p> <p>[官网网站](<a href="https://ai.kezhan365.com/">https://ai.kezhan365.com/</a> &quot;官网网站&quot;)</p> <h2>4. Charater Creator</h2> <p><strong>调研结论:</strong> 适用于自研的商业解决方案。</p> <p><strong>优点</strong></p> <ol> <li>行业最为领先的实时数字人解决方案</li> <li>支持照片生成3D角色(默认相似度可达7-80%)</li> <li>生成的3D角色是裸模,其他可定制(如发型、胡子、服装等)</li> <li>支持丰富的动作库和60+表情(可扩展)</li> <li>支持主流3D游戏引擎和主流DDC软件(如3dmax、blender和maya等),便于扩展第三方功能</li> <li>支持影视级动捕</li> </ol> <p><strong>缺点</strong></p> <ol> <li>CC是用来快速生产3D数字人的解决方案,而AI等其他能力需要额外再开发和集成。</li> <li>目前是通过照片生成3D数字人,相似度低于2D方案,提高相似度需要一定角色制作的功底。</li> </ol> <h2>5. AI 换脸</h2> <p><strong>调研结论:</strong> 一种取巧的简易解决方案,适用于要求不高的场合。 视频可通过AI换脸方式执行,可准备一些可用的视频素材用于替换。 此方案缺乏与数字人的交互,难以扩展。</p> <h2>6. 百度-曦灵·数字人的世界</h2> <p><strong>调研结论:</strong> 利用最新的AI算法,使数字人不仅讲话口型自然准确,还能够模仿真人的表情和动作,甚至能在实时对话中根据语义生成合适的动作表情。 百度数字人-产品咨询 需要提交表单,官方会派人联系。百度的这个方案纳入备选。 [百度数字人-产品咨询](<a href="https://cloud.baidu.com/survey/digitalhuman.html">https://cloud.baidu.com/survey/digitalhuman.html</a> &quot;百度数字人-产品咨询&quot;)</p> <p>[官方网站](<a href="https://xiling.cloud.baidu.com/?_=1719041220000">https://xiling.cloud.baidu.com/?_=1719041220000</a> &quot;官方网站&quot;)</p> <h2>7. 讯飞-虚拟人</h2> <p><strong>调研结论:</strong>支持<strong>互动交流</strong>、支持多端接入、支持免费7天体验使用、支持2D真人和3D写实、提供专业技术人员快速完成业务集成,<strong>能满足基本需求</strong>。讯飞的这个方案纳入备选。 <strong>产品价格:</strong> <img src="https://www.showdoc.com.cn/server/api/attachment/visitFile?sign=2fc27260f7a144bc28a564982552f7f2&amp;amp;file=file.png" alt="" /></p> <p>[官网介绍](<a href="https://virtual-man.xfyun.cn/products/openapi">https://virtual-man.xfyun.cn/products/openapi</a> &quot;官网介绍&quot;)</p> <h2>8. 蚂蚁-灵境数字人</h2> <p><strong>调研结论:</strong>支持<strong>数字人对话</strong>、支持多端接入和快速对接,<strong>可满足基本需求</strong>。蚂蚁的这个方案纳入备选。 <strong>产品价格:</strong> ¥3000 每路/每月</p> <p>[官网介绍](<a href="https://antdigital.com/products/digitalhuman/?Source=shuziren_baidu_my_56809&amp;bd_vid=11644745059844794733">https://antdigital.com/products/digitalhuman/?Source=shuziren_baidu_my_56809&amp;bd_vid=11644745059844794733</a> &quot;官网介绍&quot;)</p> <h2>x. 自研方案</h2> <p>自研方案的指导思想主要是基于现有成熟技术方案的整合,主要涉及到以下几个业务模块:</p> <ul> <li>数字人生成(比如通过CC,可支持真人和卡通化效果,仿真度依赖于美术角色的开发者的技艺)</li> <li>嘴型和动作同步(CC系列软件提供)</li> <li>基于知识库的AI问答(工程院AIAE团队已有能力)</li> <li>真人语音训练模拟(已有开源项目支持)</li> <li>文本驱动语音(已有开源项目支持)</li> <li>游戏引擎应用集成和开发(Unreal和Unity3D)</li> <li>Web端生产平台(可选)</li> </ul> <h1>总结</h1> <ol> <li>在9月份这个时间节点前即可用,建议可选用成熟的大厂开箱即用的方案。</li> <li><strong>备选入围厂商推荐</strong>:百度-曦灵·数字人的世界、讯飞-虚拟人、蚂蚁灵境数字人。</li> <li>可选的厂商还是比较多的,可以具体对接服务提供商的商务并制作第一个demo版本后再进一步筛选和评估。</li> </ol>

页面列表

ITEM_HTML