当前位置 > 散户吧 > 财经要闻 > 宏观经济 > 0.8秒出图！国产AI绘画上演“速度与激情”！

0.8秒出图！国产AI绘画上演“速度与激情”！

发布时间：2022-11-09 16:20来源：全球财经散户吧字号：大中小

全国累计治愈出院5911例

今日重点关注：新冠肺炎疫情经济数据： 09:30 中国1月工业品出厂价格指数...

英国第四季度经济表现平平但在大选后出现反弹

港股早知道：港股业绩期炒作火热港股通初调整名单周五出炉

　　秒速生图火爆全网

　　最近，在各大社交平台上，一款叫作“盗梦师”的AI绘画小程序火了。

本文来自散户吧WWW.SANHUBA.COM

　　具体火到什么程度呢？据以往团队的采访得知，9月产品刚上线一周时间，盗梦师便创造了日增5万用户的纪录。

本文来自散户吧WWW.SANHUBA.COM

　　从Midjourney 到 Stable Diffusion，再到国内如雨后春笋般涌现的AI绘画平台，在使用方式上差异不大，均采用「以文生图」的方式。「以文生图」顾名思义就是只要你把想法、脑洞以文字输入给AI，这些文字描述就会被算法驱动，变成一张张生动、精致的图片。本文来自散户吧WWW.SANHUBA.COM

　　而真正能让盗梦师从众多AI绘画平台中脱颖而出的，当属其鲜明的技术优势与舒适的产品体验。

本文来自散户吧WWW.SANHUBA.COM

　　从输入描述到输出图片，全程仅不到5秒，对比其他产品动辄几十秒甚至几分钟的时间，可谓天壤之别。本文来自散户吧WWW.SANHUBA.COM

　　同时还有多种绘画风格、多图批量输出、多尺寸高分辨率、画师参考等功能辅助用户开展创作，使得整个绘画过程更便捷、有趣和惠普。加之其免费的新手体验，上线以来便在用户间产生了良好的口碑。

本文来自散户吧WWW.SANHUBA.COM

　　最快，有多快本文来自散户吧WWW.SANHUBA.COM

　　据了解，盗梦师由前谷歌人工智能研究院科学家、NLP自然语言处理领域预训练语言模型“ALBERT”第一作者——蓝振忠博士带队研发。本文来自散户吧WWW.SANHUBA.COM

　　最终由西湖大学深度学习实验室和西湖心辰科技有限公司（西湖大学深度学习实验室孵化的 AIGC 创业公司）共同推出。本文来自散户吧WWW.SANHUBA.COM

　　依托于西湖大学良好的科研和成果转化环境、充足的科研资金及软硬件设备，西湖心辰组建了一支长期致力于研究自然语言处理，计算机视觉及深度学习的结合与应用的团队。

本文来自散户吧WWW.SANHUBA.COM

　　在Stable Diffusion的基础上，盗梦师凭借团队在AI领域多年的深耕以及西湖大学实验室的成熟算力，找到了一个可发挥自有技术优势的地带，并通过“秒生图，生精图”的特点快速占领AI画画高地。本文来自散户吧WWW.SANHUBA.COM

　　我们通过原生stable diffusion在pytorch、TensorRT与Oneflow三个框架下的实现与盗梦师自有模型对比可以看到：

本文来自散户吧WWW.SANHUBA.COM

　　pytorch上原生的Stable diffusion生成一张图需要3.4s，第三方Oneflow需要1.4s生成时间。而盗梦师的自有模型只需要0.8s，并且不会影响生成效果。本文来自散户吧WWW.SANHUBA.COM

　　这是因为盗梦师针对速度和质量两个方面分别做了技术优化，在提速侧，进行了算子重写、模型量化、采样函数优化；在提质侧，采用了自有中文语言模型、多尺寸弹性训练等。这才使得盗梦师在生成图片时，不仅速度上有了质的提升，最终的呈现效果也有明显优化。本文来自散户吧WWW.SANHUBA.COM

原生 Stable -Diffusion（左）与盗梦师生成图（右）对比

　　各大模型分析本文来自散户吧WWW.SANHUBA.COM

　　从今年8月发布至今，Stable Diffusion仍是最火的开源AI生图模型。与其他开源图片生成模型相比，其有着出图速度快、质量高等特点。

本文来自散户吧WWW.SANHUBA.COM

　　但在画人物方面，Stable Diffusion的弊端也很明显，如经常存在多头、多只手、多条腿或人物部分肢体丢失等问题。本文来自散户吧WWW.SANHUBA.COM

原生 Stable -Diffusion（左）与盗梦师（右）对比

　　同时，原生Stable Diffusion仅支持英文作为唯一输入语言，对于国内用户来说也十分不友好。

本文来自散户吧WWW.SANHUBA.COM

　　针对语言障碍的问题，国内曾有团队开源了支持中文的stable diffusion 模型——“太乙 Stable Diffusion”。但经测试发现，太乙Stable Diffusion虽然能够理解中文独特的文化表达，但语义理解方面仍有所欠缺，会给出与输入prompt不匹配的图片。本文来自散户吧WWW.SANHUBA.COM

　　如输入：雾气弥漫的森林，中世纪风格霍比特人村庄

本文来自散户吧WWW.SANHUBA.COM

太乙 Stable Diffusion（左）与盗梦师（右）对比

　　而且无论对于哪种模型，图片质量的好坏都与输入的关键词密切相关，专业、适当的输入词需要用户有大量的经验，新手往往用户难以克服。本文来自散户吧WWW.SANHUBA.COM

　　因此，改变模型是一切问题的根本解。

本文来自散户吧WWW.SANHUBA.COM

　　盗梦师改变了什么

本文来自散户吧WWW.SANHUBA.COM

　　如上文所说，文生图效果由模型的图像生成能力与自然语言理解能力共同决定。于是，盗梦师团队在训练图像生成能力的同时着重加强了机器理解层的能力，使自己区别于市面上的其他平台。

本文来自散户吧WWW.SANHUBA.COM

　　在图像生成方面，盗梦师根据过往在AI生成领域积累的经验，在前期做了大量科研和训练工作。并且使用了与Stable Diffusion不同的训练方案，使得盗梦师生成的图片更加精细，不会产生截断等问题。

本文来自散户吧WWW.SANHUBA.COM