虚拟实验室的Unreal 版本，第一个版本主要是以《探究通电螺线管外部的磁场分布》颗粒为例，设计和开发一个正式版本。

数字人-需求和技术方案调研

<p>[TOC]</p> <table> <thead> <tr> <th>作者</th> <th>QFord</th> </tr> </thead> <tbody> <tr> <td>更新日期</td> <td>2024-6-22</td> </tr> </tbody> </table> <h1>背景</h1> <p>我们接收到来自<strong>数字宗教部</strong>生成数字人的需求，可参照的竞品app，如下图所示： <img src="https://www.showdoc.com.cn/server/api/attachment/visitFile?sign=4e78b26e56916459737ab9d00f0a7de5&amp;file=file.png" alt="" /> 此外，还有一个视频：可以参照<strong>UE开发-小群</strong>的共享文件：数字永生人.mp4。</p> <p>第二个竞品是： <a href="https://www.guiji.ai/#/index?bd_vid=10943476659289843655">https://www.guiji.ai/#/index?bd_vid=10943476659289843655</a> 上述的这个竞品经过初步沟通，发现价格比较高昂，按照用户的使用分钟来计费，每客户每分钟需要￥100。因此，希望我们开发调研下比较合适的数字人技术方案。</p> <p><strong>我们的应用场景：</strong> 为<strong>IP佛学大师</strong>打造数字人形象（<strong>已有</strong>法师的演讲视频素材，<strong>无法</strong>提供真人拍摄），专注于提供佛学的相关问答。</p> <ul> <li>形象保真度高（2D视频？）</li> <li>支持基本的动作（有表情更好，可基于问答的内容来自动做出反馈）</li> <li>支持语音问答（用户提问佛学相关的问题，数字大师优先基于知识库内容<strong>真人语音</strong>回复）</li> <li>支持录入知识库</li> <li>运行终端：iOS+安卓、PC端（大屏显示）</li> <li>可以通过Web页面方式集成到自己开发的应用中（支持鉴权登录后方可使用，防止非授权用户使用），比如通过webview在展示。</li> <li>不需要平台提供额外的技术人员进行应用开发，我们的开发可直接基于平台提供的SDK能力完成上述需求的开发。</li> </ul> <h1>需求</h1> <ol> <li>调研拟真数字人的竞品及输出可行性方案</li> <li>调研结论写在下面</li> </ol> <h1>技术方案调研</h1> <h2>0. NVIDIA ACE (Avatar Cloud Engine)</h2> <p><strong>调研结论：</strong>数字人有大模型支持，人物生动灵活，面部标签丰富，和人沟通很自然。但是需要自己部署NVIDIA进行训练，还需要购买指定级别GPU。开发时间和成本花费较大。不适用于快速产出，比较适用于研发基础服务的场景。</p> <p><strong>优点</strong></p> <ul> <li>支持3D数字人，人物精细度高</li> <li>支持和数字人语音沟通</li> <li>数字人面部表情丰富</li> </ul> <p><strong>缺点</strong></p> <ul> <li>微服务需要向NVIDIA申请。</li> <li>微服务部署服务器需要指定级别GPU([参数文档](<a href="https://docs.nvidia.com/ace/latest/modules/ace_agent/reference/support-matrix.html?highlight=hardware">https://docs.nvidia.com/ace/latest/modules/ace_agent/reference/support-matrix.html?highlight=hardware</a># "参数文档"))</li> </ul> <p>[NVIDIA ACE 数字人开发套件-概述](<a href="https://www.showdoc.com.cn/2520997255382414/11259477470819255">https://www.showdoc.com.cn/2520997255382414/11259477470819255</a> "NVIDIA ACE 数字人开发套件-概述")</p> <h2>1. 硅基-数字人互动</h2> <p><strong>调研结论：</strong> 此技术方案目前的主要应用场景是虚拟数字人直播，在这种使用场景下的费用是可控和可预期的。而作为要发布给用户使用的应用，成本费用将作为很大的考量，费用是由用户的数量和使用时长相关联的，导致费用是不可控和不可预期的。因此，此技术方案目前不适合当前的项目需求。</p> <p><strong>优点</strong></p> <ul> <li>支持通过视频转2D数字人角色，人物保真度高</li> <li>支持保留视频角色的服装</li> <li>支持语音式GPT问答</li> <li>拥有SDK，可供Web、移动端等快速接入</li> </ul> <p><strong>缺点</strong></p> <ul> <li>不支持3D数字人</li> <li>口型/面部表情比较单一，无法根据内容来变化</li> <li>不支持丰富的人物动作库，无法根据内容来变化动作</li> <li>未提供游戏引擎接入SDK</li> <li>接入费用高 a. 充值套餐最低需要￥30万起 b. 每转换或修改数字人角色都需要重新计费（单次3800+，充值后可5折，充值越多折扣越高） c. 每个用户使用都需要计费，每10分钟计费高达￥100</li> </ul> <h2>2. 华为-数字内容生产线</h2> <p>[官方文档链接](<a href="https://support.huaweicloud.com/productdesc-metastudio/metastudio_01_0000.html">https://support.huaweicloud.com/productdesc-metastudio/metastudio_01_0000.html</a> "官方文档链接")</p> <p><strong>调研结论：</strong> 华为数字内容生产线（MetaStudio）功能齐全且强大，应用场景广，能够满足各种定制需求。拥有控制台自助服务，能够一站式快速生成所需内容。计费模式较为复杂，按需计费、包年/包月、一次性预付费时长包等计费模式。综合对比其他大厂方案，华为的不做优先推荐。</p> <p><strong>功能特性：</strong> <img src="https://www.showdoc.com.cn/server/api/attachment/visitFile?sign=31081e16d0b2e9f3e606bfd2bc6d358d&amp;file=file.png" alt="" /></p> <p><strong>产品价格：</strong> 2D数字人形象制作8,000/个、声音制作2,000/个、智能交互（于已有数字分身形象和声音，结合知识库和观众进行视频交互对话，清晰度1080p。）包月4000/月，包年40000/年</p> <p>[价格详情](<a href="https://console.huaweicloud.com/metaStudio/?region=cn-north-4#/metaStudio/overview">https://console.huaweicloud.com/metaStudio/?region=cn-north-4#/metaStudio/overview</a> "价格详情")</p> <p><img src="https://www.showdoc.com.cn/server/api/attachment/visitFile?sign=25244c20665840f6548748c2fa18e331&amp;file=file.png" alt="" /></p> <p><strong>优点：</strong></p> <ul> <li>支持2D数字人制作，仅需录制一段视频，即可克隆出相似度99%以上的、具有高精度头部、眼部动作，以及讲话能力的超写实分身数字人</li> <li>支持3D数字人制作，支持照片建模，能够进行语音和视觉驱动（语音驱动：根据输入文本或语音驱动数字人口型、表情等动作；视觉驱动：通过摄像头采集真人运动数据，驱动数字人运动。）</li> <li>支持数字人智能交互，可自定义交互内容</li> <li>多语言泛化：一次母语训练，多语种支持；支持20+语种，覆盖主流语言。</li> <li>拥有SDK，可供Web、移动端等快速接入</li> </ul> <p><strong>缺点：</strong></p> <ul> <li>生产线功能复杂，学习成本高</li> <li>不确定能否根据内容来变化面部表情</li> <li>费用较高</li> </ul> <h2>3. 万彩-数字人互动</h2> <p><strong>调研结论：</strong> 从官网的<strong>AI数字人</strong>看仅提供在线内容创作，未发现提供给第三方应用的服务。</p> <p>[官网网站](<a href="https://ai.kezhan365.com/">https://ai.kezhan365.com/</a> "官网网站")</p> <h2>4. Charater Creator</h2> <p><strong>调研结论：</strong> 适用于自研的商业解决方案。</p> <p><strong>优点</strong></p> <ol> <li>行业最为领先的实时数字人解决方案</li> <li>支持照片生成3D角色（默认相似度可达7-80%）</li> <li>生成的3D角色是裸模，其他可定制（如发型、胡子、服装等）</li> <li>支持丰富的动作库和60+表情（可扩展）</li> <li>支持主流3D游戏引擎和主流DDC软件（如3dmax、blender和maya等），便于扩展第三方功能</li> <li>支持影视级动捕</li> </ol> <p><strong>缺点</strong></p> <ol> <li>CC是用来快速生产3D数字人的解决方案，而AI等其他能力需要额外再开发和集成。</li> <li>目前是通过照片生成3D数字人，相似度低于2D方案，提高相似度需要一定角色制作的功底。</li> </ol> <h2>5. AI 换脸</h2> <p><strong>调研结论：</strong> 一种取巧的简易解决方案，适用于要求不高的场合。视频可通过AI换脸方式执行，可准备一些可用的视频素材用于替换。此方案缺乏与数字人的交互，难以扩展。</p> <h2>6. 百度-曦灵·数字人的世界</h2> <p><strong>调研结论：</strong> 利用最新的AI算法，使数字人不仅讲话口型自然准确，还能够模仿真人的表情和动作，甚至能在实时对话中根据语义生成合适的动作表情。百度数字人-产品咨询需要提交表单，官方会派人联系。百度的这个方案纳入备选。 [百度数字人-产品咨询](<a href="https://cloud.baidu.com/survey/digitalhuman.html">https://cloud.baidu.com/survey/digitalhuman.html</a> "百度数字人-产品咨询")</p> <p>[官方网站](<a href="https://xiling.cloud.baidu.com/?_=1719041220000">https://xiling.cloud.baidu.com/?_=1719041220000</a> "官方网站")</p> <h2>7. 讯飞-虚拟人</h2> <p><strong>调研结论：</strong>支持<strong>互动交流</strong>、支持多端接入、支持免费7天体验使用、支持2D真人和3D写实、提供专业技术人员快速完成业务集成，<strong>能满足基本需求</strong>。讯飞的这个方案纳入备选。 <strong>产品价格：</strong> <img src="https://www.showdoc.com.cn/server/api/attachment/visitFile?sign=2fc27260f7a144bc28a564982552f7f2&amp;file=file.png" alt="" /></p> <p>[官网介绍](<a href="https://virtual-man.xfyun.cn/products/openapi">https://virtual-man.xfyun.cn/products/openapi</a> "官网介绍")</p> <h2>8. 蚂蚁-灵境数字人</h2> <p><strong>调研结论：</strong>支持<strong>数字人对话</strong>、支持多端接入和快速对接，<strong>可满足基本需求</strong>。蚂蚁的这个方案纳入备选。 <strong>产品价格：</strong> ￥3000 每路/每月</p> <p>[官网介绍](<a href="https://antdigital.com/products/digitalhuman/?Source=shuziren_baidu_my_56809&bd_vid=11644745059844794733">https://antdigital.com/products/digitalhuman/?Source=shuziren_baidu_my_56809&bd_vid=11644745059844794733</a> "官网介绍")</p> <h2>x. 自研方案</h2> <p>自研方案的指导思想主要是基于现有成熟技术方案的整合，主要涉及到以下几个业务模块：</p> <ul> <li>数字人生成（比如通过CC，可支持真人和卡通化效果，仿真度依赖于美术角色的开发者的技艺）</li> <li>嘴型和动作同步（CC系列软件提供）</li> <li>基于知识库的AI问答（工程院AIAE团队已有能力）</li> <li>真人语音训练模拟（已有开源项目支持）</li> <li>文本驱动语音（已有开源项目支持）</li> <li>游戏引擎应用集成和开发(Unreal和Unity3D)</li> <li>Web端生产平台（可选）</li> </ul> <h1>总结</h1> <ol> <li>在9月份这个时间节点前即可用，建议可选用成熟的大厂开箱即用的方案。</li> <li><strong>备选入围厂商推荐</strong>：百度-曦灵·数字人的世界、讯飞-虚拟人、蚂蚁灵境数字人。</li> <li>可选的厂商还是比较多的，可以具体对接服务提供商的商务并制作第一个demo版本后再进一步筛选和评估。</li> </ol>

虚拟实验室-Unreal 版本

数字人-需求和技术方案调研

页面列表