基于生成式AI的AI相机简易设计方案

人工智能应用1年前 (2023)发布 aixure

118 0 0

导读：生成式AI的爆火，给产品设计带来了更多可能性，产品工作人员可以尝试将AI技术落地至应用中，比如本篇文章里，作者就尝试基于生成式AI梳理了一份AI相机应用的设计方案，一起来看看。文章结构：一、用户群体 1. 一般用户女性，不了解AI生成技术，不会使用，…

生成式AI的爆火，给产品设计带来了更多可能性，产品工作人员可以尝试将AI技术落地至应用中，比如本篇文章里，作者就尝试基于生成式AI梳理了一份AI相机应用的设计方案，一起来看看。

文章结构：

一、用户群体

1. 一般用户

女性，不了解AI生成技术，不会使用，对于繁琐操作不了解，没有系统学习过摄影技术的用户（绝大部分女性）。

产品核心，简单，可视化，比起繁琐的操作，越简单这类用户使用的可能性就越大，越是视觉化的展示，该类用户的操作可能性就越大。

产品一定要具有社交功能，同时要有追随热度的准备。

产品效果一定要好看，而且玩法功能要是不是更新/推出新玩法，保证用户热情。

2. 核心用户

一般用户中，对于AI写真/艺术照片等功能感兴趣，同时愿意尝试的用户，该类用户付费使用会导致部分用户流失（先付费再使用不合理）。

妙鸭相机模式：

应该先尝试后定制模式，用通用模型生成结果加AI换脸，使得结果更像用户，这样用户尝试满意后再定制，可能机会更高。

3. 专业型用户

对AI绘画/摄影有了解的用户，该类用户需要在平台获利，才能长久的为产品带来优质的模版。可以考虑在社交版块对这些用户生成的模版进行付费买断，或者感知使用次数付费。

二、用户需求

1. 社交性需求

社交需求是最常见的用户需求，主要分为三类。

第一类，跟风爆点/热门类话题。

该类需求和当下热度时刻相关，2022年的原神大头特效就是最好的例子。

该类特效可以通过开源的deepfacelab完成，AI相机想要满足该类用户的需求，必须做到紧追互联网热点，如在2023年4月推出AI相机，最好的模型应该是“多巴胺服饰模型”

关注社交热度完成部分可行功能，是AI相机长期运营的一种模式。

第二类，创造新话题内容/热度的需求。

这类主要是内容创作者长期需求，在互联网的主要表现为，新内容/风格的传播，如“复古风”复刻DVD的质感特效，获得流量。

对于该类用户的需求，满足一次就是一次巨大的风口他们本身就是流量的创造者，同时该类用户的需求是最难满足的，互联网的流量不可确定性的因数太多，对于AI相机（核心为生成式AI）来说，满足多样化的风格是基础，如前些年流行复古，为了流行赛博朋克/革命元素都有可能，尽可能满足模型的多样性是对于这类用户最好的回应。

第三类，好看/有趣/艺术/独特的内容分享。

这类用户需求更贴合AI相机的能力，该类需求满足方向为引起用户的分享欲望，这类社交需求核心就是分享欲，AI相机通过生成内容让用户产生正向落差（远超预期的照片），会激发该类用户的分享需求。

同时该类用户的自发推广，是产品推广必要的推动。AI相机需要满足的是夯实内功，打磨AI生成与人物融合的质量，AI生成模型的出图率与质量等最基础的质量问题。

2. 自我满足性需求

自我满足性需求，同样是AI相机最核心的用户群体，AI相机在某种程度上是和美颜相机是一样的。都能提供快速的，低成本，无痛的身体改造。

美颜相机的出现给予外貌普通的女生快速获得外貌资本的可能性，这也是美颜相机在需要展示外貌资本行业直播行业普遍存在的原因，AI相机在某种程度上能部分（随着技术提升完全）取代美颜相机。

自我满足需求在用户个体的表现有以下几点：

1）外在的展示需求

该类需求和美颜相机一样，希望通过技术手段获得外貌资本，用于在社交/聊天/直播等地方获得优势。

技术不完善的Stable Diffusion直播生成变脸：

技术较为完善的deep face live直播换脸：

AI相机在实时直播行业的影响在不断的冲击美颜相机的市场份额，在该需求层面下，AI相机能完成的结果远高于美颜相机的，在个人信息的保留用户更想她自己，这一核心领域AI相机的表现出色，而这一点恰恰是用户内心最敏感的点，美颜相机下的五官信息变化较大，AI换脸相机保留用户五官信息，这能给予用户心理上的慰藉，

但是deepface核心问题在于肖像权，所有生成式AI的脸部融合结果比起换脸更加安全。

2）内在展示需求

于外在展示需求不同，内容展示需求更具有私密性，内在展示需求的核心在于，用户的自我取悦。其表现形式上个人写真等不外传隐私性极高的照片上，这类需求主要是女性用户对于自身“美”记录的想法，是绝对私密的内容，同时私房照行业的乱象对于这些用户来说也是“劝退”的关键。

AI相机如今的技术能满足这类用户的部分需求，而且AI相机更具有私密性，不存在人为的数据泄露问题，同时也减少了用户家庭环境对于该类用户指责。

（该类用户转化为付费用户的概率高定制个人模型的可能性高）

通过生成式AI，获得用户喜欢的写真结果，让用户能获得取悦自己的照片，并且让用户几乎免费获得高费用写真的结果（穿搭/妆容/专业摄影费用高昂），同时用户有选择风格的权利（“私房照”的选择权利大部分在拍摄者手中，用户选择权利较少）在AI生成恰恰是用户权利最大的情况，用户可以按照心情生成自己想要的结果，同时还有指导拍摄的样式（在现有的结果上提出需要，能减少摄影者的“主观想法”）。

技术要求为更精细的人体生成结果/环境生成结果，对于平台的要求为绝对私密的内容保护，可指定的后期修图。保证用户内容不会外泄。

3. 记录型需求

1）情侣记录需求

这是最普遍的用户需求，一般情侣用户喜欢记录自己相处中的美好细节，这时候AI相机能提供场地/服饰等选择，对于用户来说会使得照片的背景环境更加丰富，照片的实际出片效果更好（满足用户背景优化/色调优化）。

对于某些原因无法相遇的异地恋用户，定制一张二人的情侣照片也是对于遗憾的一种弥补（AI生成式的照片定制）。

对于情侣来说头像也是具有重要记录意义的，但是网上找头像容易出现问题，个人定制头像比较麻烦，不能随心所欲，AI生成的恰好能满足部分用户需求（如q版头像），生成结果完全能作为情侣的头像。

2）宠物记录需求

这类需求的主要表现如猫狗vlog，用户会记录宠物的日常生活，该类用户对于宠物的感情深消费大，构造宠物的独立模型，生成一些宠物私房照对于该类用户来说有不错的吸引力。同时AI相机可以获得宠物的独特照片，让其具有不可替代性。效果如下。

有关于自己狗狗的有趣照片，对于有宠物记录需求的用户而言，这是非常有趣的记录信息。

3）怀旧记录需求

照片原初的作用其实是记录，在相机价格高昂的年代，照片承担的是用户记忆载体的需求，如今的照片功能更偏向于社交，让照片的记录本质其实是很多用户潜藏的需求，用户可能遇到过图片太多要清空的情况，然后很多照片处于“食之无味，弃之可惜”的情况，其核心原因是该类照片的记录回忆不足以让用户产生强烈情感波动，这类照片在摄影价格高昂的年代其实不具备拍摄可能。

限制拍摄/照片的产生结果，某种程度上是可以减少这样的照片，我们可以在AI相机中推出“每日照片功能”，用户每天上传一张照片，同时接合chatgbt的辅助，让用户写下简短的“今日心情”，AI相机会将图片/文字/时间/风格接合做出一张日历图片，“每日图片”上传时间满一年，我们会将日历打印送给用户，让用户重新捡起这一年的记忆，通过唤起用户记录需求，培养用户“日记习惯”。

4. 商业化需求（B端需求涉及到sd工作流暂时不做介绍）

1）产品设计图

AI生成图片，高效准确，对于如汽车/音响/建筑物等存在现实模型的产品，用户可以根据pormpt获得批量产品结果，对于设计来说是生产力工具。

产品设计工作主要涉及到lora训练/contrelnet使用等，非c端功能，具体工作流，有需要我下期再讲。

2）买量广告素材

买量游戏需要海量的游戏素材，生成AI的搞笑低价对于买量游戏来说是最好的生产工具。

3）服装模特

众所周知，略。

三、技术路线与其优势方向（简易说明）

1. 常见的图像生成模型

1）对抗生成网络

优势：

gan网络在图像对图像的生成中，对于原信息的保护好。生成输出快，显卡占用校单一风格变化稳定高效。模型单一，不需要其他操作能实现用户一件操作。

gan模型实例年龄变化：

风格变化：

gan实例，风格迁移（CycleGAN）：

gan实例，高保真人像图片生成（stylegan3模型的人体毛发生成效果逼真，gan网络在高保真图像生成上有很强的效果）：

gan网络对于AI相机的意义在于，能给予用户一个稳定照片玩法，如脸部变老，变风格等，这些在视频软件工具中的常见功能，用户可以通过这件功能的吸引去开始使用AI相机，低成本的内容生成，可以提升c端用户数量。

2）Diffusion Model扩散模型

优势：

生成内容丰富，可以根据语义变化。对于图片信息的学习较为完整，比起gan网络限制较少。接合姿态点，景深图可以稳定生成指定姿势。lora训练过程稳定，样本需求校能完成去噪超分等工作。能满足多样化需求。

diffusion实例，风格迁移：

目标图片：

生成结果：

diffusion实例，prompt（提示词在AI绘画具有很重要的地位，有可能以后再讲）生成。

lora的使用（dva风格的lora）

sd还有很多实际上不错的生成效果/生成方式，在这暂时不介绍，有兴趣可以在sd工作流梳理中进一步介绍。

diffusion是AI相机的核心，作为生成AI负责用户需求的生成，但是生成的消耗较大，如果免费c端成本较高，可以通过gan满足部分用户好奇，在给予每个新用户部分使用通用模型的权限，方式将用户数量提升。

2. 其他基础技术

图像融合。

图像融合技术是生成式AI和用户实际数据产生效果的最后一步，融合产生问题会很大程度上减少用户对AI相机的依赖性，同时图像融合式实时AI相机的重要攻克难关。

姿态点估计/景深估计/边缘检测/图像檫除。

略。

四、产品设计功能设计

1. 用户权限设计

1）基础用户权限

开放部分显卡算力消耗低的功能免费使用，如stylegangan的年龄变化功能，风格迁移等功能。

开放有限次数的AI写真/艺术照等，AI写真照采用通用人物模型生成（在生成结果融合用户目标图片给予用户初次体验AI写真的效果）对标妙鸭相机的功能。采用先体验后定制模式。

开放社区功能，用户可以浏览社区用户的生成结果和操作步骤，但是无法复制粘贴内容。

开放付费渠道/推广渠道，用户可以通过系统任务获得付费货币（推广产品/推广链接/推广码），然后使用单次付费渠道享受付费功能，

2）付费用户权限（定制模型用户）

定制模型用户可以获得一定的付费货币，付费货币用于照片的高清下载画册定制等。开放社区全部权限，如一键生成社区效果，复制prompt（prompt笔记），社区推荐权利。开放AI写真/艺术照的全部权限，用户可以定制写真/艺术照等。开放指定后期功能，用户可以选择指定的后期需改自己的照片。开放隐私功能。用户的生成结果不保留，同时在用户保存下载后，会清除app内容的生成结果记录，保证用户的个人隐私。

3）会员付费用户

会员用户可以无限次数下载内容会员用户可以获得有限排队权会员用户的后期定制权利提升（选择后期的权利＞一般用户）会员用户可以在社区发布悬赏贴（提出自己需求，由其他用户尝试得到prompt）开放高级定制模块（输入个人需求prompt）开放具备重绘功能开放controlnet功能

4）企业级用户

对于需要批量生成结果用于推书/买量素材等的用户，开放批量生成渠道。

对于有AI相机直播需求的用户，可以定制AI相机直播软件，适配用户电脑，同时提供后勤服务。

2. 写真功能

stable Diffusion 对于图像生成效果有部分是极好的（在特定的prompt下），该类结果对于用户而言是社交/收藏的选择。

1）一般写真使用流程

写真功能是AI相机最核心的功能之一，我将工作流程中的用户反馈细分，AI绘图的关键问题有两种，一种是用户对生成结果直接不满意，一种是对脸部表情不满意，二者的实际处理方式不同，生成结果不满选择重新生成的，脸部结果不满意采用模型中的脸部修复功能/选择直接融合用户脸部信息等，保证尽可能的想用户，如何还不满意开方人工服务。

同时在用户重绘内容时，不应该再次排队，应当预留用户的操作响应时间，保证用户的良好使用体验，用户结果生成后的10s内，服务器依旧分配给该用户，在10s没有进行再次生成，结束任务用户重新排队。

2）私密写真

私密写真是部分自我满足需求用户取悦自己的一种方式，如暴露的衣物加诱人的姿势构成的图片，这些图片女性部分是用作收藏（同时部分用户会用作贩卖福利姬模式）是否开放私密写真模式这存在很大的讨论空间，但是不变的是，在这发面无论是有需求的一般用户也好，还是有商业目的用户也好，她们都有很高的消费欲望（一套私房照500起步，同时会有不利的情况发生）。

私密照片应该作为限制功能，划分到提示词的高级模块，保证该类功能不会被滥用，具体功能为用户选择了高级模块后，可以自主输入prompt，用户同时在图片prompt（给用户选择的生成内容提示词用图片展示）内容扩展增加部分普通模式不具备提示词。后续会介绍。

3）艺术图片生成

艺术照片和写真不同，用户能接受图片的怪异程度/不想自己的程度高，核心是艺术照片好不好看。

艺术中用户的五官没有图片效果重要，艺术照片的核心是效果，同样的部分艺术照片想要实现AI换脸的难度极大，不太现实，所以艺术照片的生成流程应该增加是否检测到人脸布置。

艺术照片的流程：

同样艺术照片也开设立高级模块（高级模块中也有艺术照片）。

4）背景照片/情侣头像生成功能

用于用户生成喜好背景，用于手机壁纸/生成画面选择等（高级模块）。

用户根据需求生成情头。

具体功能设计略（功能较为场景）。

5）图片玩法功能

单张图片说话功能Stable diffusion+wav2lip效果如下（无法展示动态额）。

这是生成结果，限制图片结果真实256*256，限制较大。

玩法2，生成动图Stable Diffusion AnimateDiff软件效果。

效果中会出现很诡异的生成结果，现阶段实用性一般，同时真人模型效果一般。

玩法生成漫画，输入买火柴的女孩。

生成结果存在问题，但是效果能接受，后续添加用户写台词功能，会是很不错的一种玩法。

玩法gan网络的年龄变化，风格迁移等。

6）指导拍摄功能

生成式AI对于用户来说是全新的获得照片模式，但是很多时候AI商用往往是通过特效/图生图改变风格将AI作为获得图像玩法的一个工具。我简单的梳理一下美颜相机和和AI相机的操作逻辑。

其实AI生成，用户是没有操作干预的，AI是基于提示词的生成结果，这里就会有一个巨大优势，当下环境无法满足摄影需求，但是AI可以提前生成相似结果。生成不受到环境的干预。

场景案例：

明天和朋友外出游玩，需求拍摄好看的外景照片。

AI相机可以提前预设场景/用户姿势/光线/镜头等摄影参数，生成结果，用户对于生成结果满意。相机可以更加生成图片的prompt，在现实中找到对应的教程，提前知道用户操作，或者用户可以记录为笔记，在有需求的时候进行系统指导拍摄（人物框模式）。

通过指导拍摄，用户会获得实际的参与感，让AI相机发挥相机的基础职能。

7）预测拍摄功能

上面提到AI相机生产不受到环境影响，同时AI还能做出预测结果。

场景案例：

用户健身；

用户健身其实是个长期坚持的结果，用户短期很难获得成效，但是AI可以根据用户训练模型针对的做出预测训练效果图，给予健身用户目标。

用户减肥同理；

房间装修预测；

用户根据生成结果，廉价的获得无数方案，用于指导装修。

预测效果对于AI相机来说是个实用性很高的功能，特别是涉及到设计类方面其实是个tob的工作流。

8）社区功能（简单版）

社区交流版块：

用户分享生成/拍摄/有趣的事情。

功能：

一件复制商城图片的prompt，并且收录到用户的笔记本中，方便用户使用。定期评选最佳摄影作品，该最佳作品会生成固定模板供用户使用。推出悬赏机制，用户吧自己想要的风格做悬赏，用户完成相应的prompt获得奖励。推出用户表情包制作功能。推出照片后的故事，用户赋予自己照片的故事（真实/杜撰），每月评选最佳的照片故事给予奖励。

社区商业版块：

用户衣服定制，用户生成结果的衣服可以在商城中发起我想要定制图片衣物/首饰等，我们会将定制的价格公示，（价格随着用户数量的提升不断减少，最低为成本价格的5倍）假设用户数量不满足基础数量，则告知用户，商品无法生成。推出立牌/扑克牌/明信片等定制服务。推出生成结果相识衣物推荐等。图片修复/精修功能。

9）用户付费功能（简易）

参考用户权限高级提示词付费模型定制付费（普通模型/高定模型）会员付费直播软件工具付费（暂时不提）

3. 提示词设计

1）一般模块

采用图片展示代替输入prompt的形式，让用户可以完成视觉操作。

如提示词雪山，改为的图像展示。

相机镜头的选着也是如此，繁琐的提示词不利于用户的选择。

其中的镜头语言更是让人摸不着头脑，光线也是繁琐。

同样采用图片展示加标签模式，方便用户使用。

参考常见相机的滤镜功能。