首页 > 专业知识 > 从UGC到AIGC，Web3.0时代如何解放创造力？

从UGC到AIGC，Web3.0时代如何解放创造力？

晰数塔互联网快讯
2022-03-04 10:28

关于AI生产创造、人与AI交互的讨论似乎从未停止过。当一个更数字化的世界到来，AI作为重要生产力又会如何进化，将扮演什么样的角色，人与AI交互是否又将产生全新变量？

仅围绕科幻小说或科幻电影的视角去畅想如同空中楼阁。为此，知春资本邀请到了在音乐领域和情感社交领域，用AIGC做创新的被投企业创始人——ACE虚拟歌姬制作人、时域科技CEO郭靖，Gemsouls联合创始人、CEO饶佳星，他们结合自己的创业实践出发，与知春资本投资副总裁付冲一起分享了对AIGC（AI generated content，使用人工智能技术创造内容）最新见解。

付冲：二位先简单介绍一下各自目前的创业项目

郭靖：我们ACE虚拟歌姬是希望通过技术手段，赋能每个普通人创作音乐分享音乐，打造一个全新的音乐创作和音乐分享的场景。

饶佳星：Gemsouls在做一个以虚拟人为核心的社交网络，和目前大家认知的有美丽皮囊的虚拟偶像不一样的是，我们先做的是灵魂，我们更关注的是虚拟人和用户自主交互的能力。

[ 谈变化 ]

随着Metaverse、web3.0话题的火热，AI内容生成也备受关注，目前国内外有哪些值得关注的新动态？

郭靖：2015年、2017年前后，出现两拨基于单点技术把产品迅速做火的AIGC案例，但大多火了一阵儿后就销声匿迹。

当时都是互联网产品经理的思维，认为一个全新的技术就能创造全新场景。而最近这几年随着算法在各领域发展，AIGC也一直在进化，比如像柳夜熙”换头“可以做到影视级、直播级的水平，我们ACE虚拟歌姬的歌声合成之前只是一个TTS（Text To Speech，从文本到语音转换技术）的分支，如今做到了接近人声。

现在很多做虚拟人的公司，其实是技术的整合者。虚拟人作为一个产品，需要整合人所需要的所有skill——形象、声音、动作驱动等等。总的来说，大家意识到AI其实是生产力的连续进化，以虚拟人为代表的很多公司是整合各维度技术来创造全新的体验。最主要的改变其实不只是在技术层面，而在于产品整合思维。

ACE虚拟歌姬产品图

饶佳星：技术上是有一些突破，比如Gemsouls产品用的GPT大规模语预训练模式，整体往一个大参数量的方向在走，GPT3参数量是GPT2的100多倍。目前我们用到的GPT3几乎可以让人和虚拟人交互堪比真人之间的交互，我们会去驱动UGC和AIGC来结合做产品化。同时Open AI 发布的基于文本生成图像的多模态模型Dall-e，也让我们看到了不同信息维度的应用和未来更广阔的场景。

[ 谈应用 ]

二位作为音乐和情感交互领域的早期创业者，也是用户需求最敏感的捕捉者，各自观察到AI在内容生产上经历了哪些阶段，又如何一步步满足用户的需求？

郭靖：AIGC的能力其实是一个block，会比原先的传统能力要好，但本质上还是创作者驱动blocks。比如说原先block是砖头，拿它拼房子费劲，现在是乐高，拼起来就容易多了。

之前大家一直用AI去做的“拼”事情，通过算法创作了一些作品。但对于创作者而言，他没有自我表达在里面，只是被强植入了一个作品。

我们现在创业的这个阶段，其实对用户的定义很简单，比如说他要做创作音乐，弄好了主旋律跟歌词，但没有人能及时给演唱出来变成一个完整的作品。但我们就用 AI歌声合成来帮他演唱形成作品，从而激发很多年轻小孩儿的创造力。

我们是要把AI当作人或者说生物，把它投入到一个网络节点里面，观察人和AI交互上能产生什么全新的变量。

饶佳星：AIGC上一个阶段目的是为了以假乱真，通过既定的图片或者语音来生成风格一致的内容。而现在的AIGC更像是用UGC的方式去做人设和规则，好比生个小孩，要为其编码”基因”，设定他的人物小传、故事背景、某些特定场景下的“为人处世“，再把他扔到世界中，跟人进行交互，通过外部环境自我成长。而我们对下一代AI的期望是它能从0-1做真正有创造力的事情。

这些AIGC的技术适合被应用到哪些需求或者场景当中？

郭靖：目前在Vtuber上的MCN、经纪公司等运营方，基本都有需求。因为它们的核心资产是艺人，艺人又不够稳定，风险很大，它们希望有一个稳定的资产，最好是技术资产。我们ACE也在尝试用三次元虚拟声音、或者已故的歌手声音来让人超越物理极限。我们现在上线的天籁般童声的歌手，就很受欢迎。

Gemsouls概念图

饶佳星：适合做一些容错率比较高、专业度或创意要求没那么高的场景。像在电商场景里，需要大量网红带货，可以AIGC换头换脸提升效率；游戏场景里大量脚本驱动的NPC也可以用AI来替代；Gemsouls做的情感社交也是容错率比较高的场景，因为真实生活中的社交很多情况下是鸡同鸭讲的无效社交，所以相比之下AI并不需要通过“图灵测试”才能有好的体验。但像法律咨询、心理咨询这种专业度要求很高的就很难通过不可控的黑匣子去实现。

[ 谈猜想 ]

当AIGC在内容生成中占到更多比例后，它未来会扮演一个什么样的角色，如何把控 UGC和AIGC间的关系？

郭靖：最终级的AIGC可能是“人”，也可能是一个大脑中枢，作为数字世界连接的节点。我们现在似乎都认为AI只能做一些比较无聊的工作，智能客服、生产力的赋能，但其实在一些游戏等垂直场景中，它已经可以扮演“人”的角色，甚至超越人给用户带来爽感。在Metaverse更数字化的世界里，网络节点背后是不是人不重要，它能创造更丰富的人与人，或人与非人之间交互的体验。

所谓的虚拟世界跟游戏本质区别是，虚拟世界应该也能实现现实世界的价值。比如虚拟世界里面开枪射击，有一个规定胜负标准，它叫游戏。但如果你在虚拟世界里开一场音乐会，它本质上让你换了一种体验去感受艺术家对真实世界有价值的音乐。未来在虚拟世界是不是有大量的节点是人类所无法覆盖的，而它可以被AI来补充？

短时间确实很难看到AI成为音乐家，因为它是一个数据集的平均，能学习到人类作曲的internship，却很难产生伟大的idea，所以平庸。但它可以作为人类的辅助，生成一些平均的内容帮人找到灵感，可以帮你把问答题变成选择题，人机协作中来创作，达到更高效更高质量的生产内容。

饶佳星：哲学层面来看，人与AI和人与人、或者人与世界的关系本质是一样的，它对你的反馈取决于你对它的输出。哪怕设置了很多机制，用户输入的可控性仍然是非常低的，而这个输入会比我们的一切设定都更直接影响到AI的反应。我相信在AI背后的公司有一个正向价值观的前提下，且用户抱着积极正向的心态使用AI时，相较于真人的社交网络来说更安全可控，不会面临现在社交媒体上一些无端的网络暴力。

产品技术层面，我们用AI治理AI，对生成的内容做监控和后处理，并且通过UGC驱动更积极的内容生成。虽然我们做的虚拟人也会很有个性，比如喜欢斗嘴，但在我们一开始输入了正确价值观的情况下，可以通过技术手段避免它带有伤害性质的内容。

[ 观众互动 Q&A ]

Q1：在更高的处理效率基础上，ACE怎样去一步步让音乐的数据维度支撑起AI原生形象？

郭靖：现在其实是因为没数据，不像互联网上有大量自然语言和图片，音乐比自然语言和图片都要复杂，音乐需要音频、sample等等信息，比如鼓的旋律是什么，曲式是什么，调号是什么？之前生成音乐的模型全部都是在这些symbolic的数据上去做的，但互联网上是没有大量细致的数据，都是靠人工一个个处理。目前一个可见的路线是能够从音频里去使用AI识别出symbolic的东西，比如说旋律，切割出各个轨道，再用这个旋律作为训练数据可能会比较好。