数字化伍德灯 http://m.39.net/news/a_8052394.html
本文简要介绍IEEEICCV录用论文“ControllableArtisticTextStyleTransferviaShape-MatchingGAN”的主要工作。该论文主要针对文字风格化问题,提出了一种双向结构映射框架,可以将输入风格图的结构和纹理特征渲染到目标文字上,从而获得艺术字,并能调节艺术字的变形程度,取得了文字可识别性与文字艺术效果上的平衡。
图1本文方法效果图一、研究背景艺术字在现实生活中有着广泛的应用,例如广告平面设计、海报设计、PPT制作等等,使用艺术效果更强烈的文字作为标题,能够吸引注意,更加突出其表达的内容。对于用户输入的任意一张风格图,例如火焰而言,想要生成对应的火焰文字,势必要对文字的形状做出调整,使之边缘部分看上去更像舞动的火焰。但是,过大的文字变形会使得文字难以辨认,失去其本身所乘载的价值。因此,我们需要在文字的可识别性和艺术性上取得平衡。而现有的图像风格化工作[1]-[3]以及专门针对文字的风格化工作[4][5]都没有考虑到这一点。
二、ShapeMatchingGAN原理简述图2网络整体框架图图2是这篇文章提出的ShapeMatchingGAN的整体结构。由于风格的复杂性,本文方法采取模块分解的思路,将结构与纹理分开处理。网络主要分为三个部分,分别是SketchModule,GlyphNetwork和TextureNetwork。而双向结构匹配的框架主要分为两个部分,反向匹配和正向匹配。
在反向匹配阶段,网络主要利用SketchModule将文字的形状特征迁移到风格图的主要结构上,获得简化的结构图,与风格图、风格的结构图一起,组成训练集。其中,风格的结构图是使用抠图的方式得到的前景Mask。下图展示了SketchModule的网络结构。网络使用包含高斯卷积的SmoothnessBlock将结构图与文字图映射到同一个模糊空间,然后训练TransformationBlock的去模糊模块,将模糊的文字图映射回原文字,从而学会从模糊的边缘重建文字的形状特征。当输入结构图时,TransformationBlock就能将其结构简化。另外,通过调整高斯模糊的模糊程度,就能控制输出的简化结构图的简化程度,从而为后续的形变控制提供对应的成对数据。最后,只有一张风格图难以训练网络,所以采用随机裁剪的方式,将图片裁剪成图像块,生成足够的训练集。
图3SketchModule框架图
在正向匹配阶段,GlyphNetwork学习将不同简化程度的结构图映射回原始结构图,从而学会为简单的边缘增添风格图的结构特征,而TextureNetwork学习将结构图映射回风格图,从而学会为黑白图片渲染风格的纹理信息。
TextureNetwork的任务相对简单,是一个图像到图像的一对一映射过程。论文采用经典的Image-to-imageTranslation的网络来训练这个任务。
GlyphNetwork的任务相对困难,是一个多对一的映射。为了防止网络仅仅学会记住输出图片的样子,而不去学习映射过程,文章提出了可控的残差模块,代替中间层的标准残差模块。可控的残差模块由两个标准的残差模块线性组合而成,其加权系数由文字的变形程度控制,如图4所示。当=1时,可控的残差模块的右侧输出被截断,网络只训练左侧的残差模块完成最大变形程度的映射;反过来,当=0时,可控的残差模块的左侧输出被截断,网络只训练右侧的残差模块完成最小变形程度的映射。这两种映射都是一一映射,易于学习。最后,当在0到1之间取值的时候,整个网络学习在两种极端之间取得平衡。
图4可控残差模块示意图三、主要实验结果及可视化效果图5与其他方法的比较图6形变程度比较图7动态风格化效果(Gif动图)本文与3种图像风格化与2种文字风格化算法进行了比较。图5展示了相关的比较结果。可以看出,ImageAnalogy和T-Effect都没有考虑文字的变形程度,因为边缘显得生硬。而NST和Doodle则产生了明显的色差。UT-Effect因为块融合的步骤,损失了一些边缘和纹理的细节。而本文的方法则取得了更优的结果。图6展示了本文方法与UT-Effect在文字变形程度上的比较。UT-Effect由于采用不同分辨率下块匹配的思路,所以无法保证变形程度调节的连续性,同时损失了边缘细节。而本文方法则能生成更准确的边缘细节,同时文字的变形也是连续变化,更方便用户的比较和选择。图7更清晰地展示了文字变形的Gif图,文字边缘的叶片和冰晶逐渐生长得愈发丰茂。四、总结及讨论ShapeMatchingGAN首次研究了文字形变程度可控的文字风格化问题,并且提出了一个有效的基于双向结构匹配的解决框架。
ShapeMatchingGAN提出了一个SketchModule将文字的形状特征迁移到风格图的形状上,从而将单张风格图扩展为不同简化程度下的成对的训练图片,为单张图像风格化的学习提供了有力的工具。
ShapeMatchingGAN提出了一种可控的残差模块,能够通过对特征空间进行插值,达到对网络输出结果进行控制的目的,使得用户能够通过制定变形程度参数,快速地获得对应变形程度的艺术字。
五、相关资源ShapeMatchingGAN论文网站:
转载请注明地址:http://www.1xbbk.net/jwbls/923.html