AI离艺术创作的“整体”有多远?
本文为我与 Echooo 合作撰写,可访问 Echooo 查看原文:原文链接
引用 Quote 部分为 AI 创作。使用模型 Gemini 2.5 Flash
模糊的边界=显赫的鸿沟
Nanobanana、Seedream、Sora 等等这些 AI 影像生成的模型大行其道的时代,这个世界诶的艺术概念是否需要得到一些更新?
当技术以如此迅猛的姿态介入创作的核心领域,过去那些界定“艺术家”与“作品”的边界,无疑正被一次次无声地冲刷和重塑。
因为从现在这个时代开始,人人都可以让 AI 为自己创作作品
这份前所未有的普及,模糊了创作者与欣赏者的传统界限,让“艺术”不再是少数人独享的殿堂,而是每一个人触手可及的表达工具——无论其是否具备传统意义上的绘画、雕塑或编码技能。
说到编码,Vibe Coding 的横空出世,AI 在文本生成领域的技术能力已经拓展到了实践方面,他们所生成的文本已经在某些抽象层面上能获得了实际的作用。网络上甚至出现了“0 门槛编写软件”“0 经验制作产品”的口号,但是这是否是现状?
然而,深入审视这些诱人的承诺,我们不难发现,即便是如 Vibe Coding 这般将生成式文本推向应用前沿的工具,其背后也并非全然的“无门槛”。真正的挑战,往往在于如何精准地向 AI 提炼和传达那些抽象的“意图”和“逻辑”,而非仅仅停留在表层的指令。这需要使用者具备对业务流程、用户需求乃至系统架构的深刻理解,而这些,恰恰是无法通过简单的技术手段一键生成的“经验”。
我曾经遇到一个难以解决的问题,自己开发的某个软件在自己的设备上编译运行良好,一发到朋友的设备上就无法启动。AI 搜索不出任何解决方案(系统没有任何相关日志)的情况下我突然回想起了有的时候某些软件在 Windows 系统下无法运行与含有中文字符的目录,我急忙去问朋友他所运行的目录,一看果然有中文。我在自己的设备上给文件目录加上中文,复现了错误,这才提醒他应该要放在无中文路径下运行。
这个经验让我意识到,AI 在处理那些非标准化、依赖于人类直觉与特定环境上下文的问题时,仍然显得力不从心。它能高效检索和整合既有的知识体系,却难以像人类大脑那样,通过类比、联想和试错,从看似不相关的线索中抽丝剥茧,最终触及问题的症结所在。这种能力的缺失,恰恰构成了当前 AI 辅助解决复杂问题的一道隐形边界。
对于编程领域的认识尚且如此,更别说图像领域。在我来看,AI 在视觉、图像这方面的生成结果仍然是一些「视觉碎片」。
这些图像或许在形式上光鲜亮丽,充斥着各种元素和色彩,却往往缺乏内在的逻辑衔接、叙事深度或是情感共鸣,如同堆砌的词藻,华丽而空洞,难以构成一个完整且有生命力的“视觉语句”,更遑论触及真正的艺术灵魂。它们是像素的集合,而非意义的载体。
就像 AI 可能很会写Code Snippet,但是组成一个 Application,一个 Project 那还很遥远。AI 对于图像方面,例如设计,它或许可以产出不错的 Component、Assets,这种可服用,或者拼图组件的一部分,但是形成一个完整的具有一定审美的作品,被他者理解,欣赏,认可,这条路还很遥远
这种碎片化的精通,无疑揭示了 AI 在“从部分到整体”的创作飞跃中所面临的内在瓶颈。它能够熟练地模仿局部风格、拼接元素,却难以真正理解整体的构图意图、叙事架构,以及人与作品之间那种微妙而深刻的互动关系。在 AI 的图像库里,或许盛满了无数精美的“词汇”,但要将这些词汇组织成一段流畅、富有感染力且能被普遍感知的“诗篇”,它仍需跨越一道名为“创造性综合”的鸿沟。
审美与技法
对我所了解和认识的画师来说,绘画是一个审美与技法结合的过程。但是目前 AI 所创作绘画的过程中,对于审美的认知是通过人类标记习得的,比较单调;而对于技法的认知,其实某种程度上是一片空白,因为Diffusion 类的模型正好跳过了这一步骤。
这种跳跃式的生成机制,虽然赋予了 AI 惊人的“出图”速度,却也使其在理解并内化艺术创作的深层逻辑上存在先天不足。它能模仿结果,却难以掌握过程;能堆叠元素,却难以构建意境,更无法像人类艺术家那样,将每一次笔触、每一次色彩选择都融入对主题的理解和情感的表达之中,从而让作品不仅仅是图像,更是思想与感知的具象化。
关于这方面我其实有一个暴论般的猜想是通过 Transformer 模型来补全画师在完成一幅作品中的每一步操作。类似于 Photoshop 的操作历史记录的回溯和补全,每次画笔、喷漆、填充、擦除、涂抹等工具的记录,或许是一个适合 Transformer 的学习资料,而将临摹作品作为 RL 的标准。这或许是一个非常异想天开般的路线
这个设想的奇妙之处在于,它不再止步于结果的模仿,而是深入到创作的微观执行层面,试图让 AI 不仅仅是“画出”一幅画,更能“理解”并且“重现”一个人类艺术家从无到有、从构思到落笔的完整心路历程与技法逻辑。若真能实现,那便不再仅仅是像素的排列组合,而是对“技艺”本身的深度学习与传承,甚至可能为我们揭示艺术创作中那些未曾被量化的直觉与灵感是如何被一步步具象化的。
或许,现在的 Diffusion 模型,更适合作为一种带有魔力的笔刷
将它视为一种前所未有的工具,能瞬间涂抹出难以想象的肌理与色彩,将灵感以最快的速度具象化,就像一把能够直接触及潜意识的画笔。它不再是试图取代画家的“终结者”,而更像是一个强大的协同者,辅助人类艺术家拓宽表达的边界,让他们在宏观的策略与细节的构思上倾注更多心力,而非被重复性的劳动所牵绊。
这种笔刷不仅可以为人类画师所用,也可以用于有决策、技法所驱动的 AI 画师。
它将不再是冰冷的算法,而是拥有了“手感”与“心智”的数字助手,能够根据预设的创作意图,精准地选择笔触、控制力度、调和色彩,甚至在特定场景下,自主学习并优化其创作策略,从而在形式与内容之间建立起更深层次的联系,让作品焕发出独特的生命力。
产生内容和编制内容,这是一个体系化,系统化的构建思维,目前的 AI 尚且没有在这个方面能替人类完成太多。
这不仅仅是技术维度的限制,更深层的原因在于,真正的“内容”并非信息的简单堆砌或元素的随机组合,它包含了对语境的深刻理解、对受众心理的精准把握,以及对叙事逻辑的精妙编排。这些能力,常常内嵌于人类复杂的认知活动中,与我们的文化背景、情感经验乃至哲学思辨紧密相连,是机器通过海量数据模仿表象却难以触及其内在肌理的领域。
因此,当我们将“内容生产”的期待寄托于 AI 时,往往会发现,它所生成的多是“信息”的有效排列组合,而非拥有灵魂与共鸣的“作品”。前者可以填充数据库、提升效率,但后者则需穿透表象,触及意义的深层,而这,正是当前 AI 在“创作”之路上面临的真正瓶颈——一个关乎深度理解、人文关怀与精神建构的宏大命题。
品味才是人类的护城河
人类与 AI 的角色有一个很明显的特征,人类才是那个给出评价,掌握话语权的一方。而人类究竟能给出何种品质的评价,又能够将这份话语权引领向何方?
这份判断力与引导力,正是区分艺术与计算、直觉与算法的关键所在。当 AI 能够无限逼近甚至超越人类在局部技法上的精湛,唯有对“美”的深层理解、对“意义”的捕捉与赋予、以及对“感动”的真切体察,才能成为人类艺术家不可替代的最终防线。这不仅仅是技术之争,更是心智与灵魂的较量。
这种在评价方面的能力,或许可以被抽象地称之为品味。这是人类艺术家、创造者、发明者能力高低的划分标准。
品味并非单一的审美偏好,它更是一种高度提炼的洞察力,能够穿透表象直抵事物的本质,在信息洪流中筛选出有价值的脉络,在纷繁芜杂的意象中辨识出独特的精神内核。这份能力决定了作品的格局与深度,赋予了创作者超越匠气的可能,使其能将散落的灵感凝铸成连贯的叙事,将习得的技法升华为独有的风格。
它不囿于技巧的娴熟,也不止步于素材的堆砌,而是关乎一种超越形式的把握,一种在混沌中建立秩序、在平庸中发现非凡的智慧。这种品味,是人类经验、文化积淀和情感共鸣的综合体现,是机器即便穷尽数据也难以习得的领域,因为它根植于生命体验的复杂性,而非简单的逻辑运算。
这才是人类相比于 AI,都是创作内容的行为,但其背后本质的不同。
在许多科幻小说的设想里,AI 的出现应该是代劳那些枯燥无聊的工作。结果在 2025 年的今天,AI 从事的最多的工作居然是各种各样的创作工作。但是谁能说,创作其中就没有无聊的工作。或许人们现如今看到的 AI 正在无情地创作,而人类正在往一个更高维度的创作冲顶。
这种“维度冲顶”的本质,并非是将创作的权力拱手相让,而是将人类心智从繁琐的具象执行中解放出来,专注于意义的凝练、情感的注入、以及宏大叙事的构建。AI 在此,便从一个竞争者转变为一个超高效的、无疲惫感的执行工具,它能够将人类高维度构思的“意图”迅速转化为无数个具体的“方案”,从而让人类艺术家得以在更广阔、更抽象的创意层面试验和探索,真正实现从“画匠”到“思想家”的升维。