书 · AI 与创意艺术
当机器开始作画、谱曲、写诗、剪辑视频,"创造力是人类最后的堡垒"这句话首次显出脆弱。从 1973 年 Cohen 让计算机执笔到 2022 年扩散模型席卷全球,再到 2024 年视频与音乐生成的全面爆发——艺术与 AI 的关系,正从工具、合作者,逼近一个让所有创作者都心怀警惕的字:替代。
第一幕:机器作画的史前时代(1965—2014)
AI 进入艺术领域的时间,比许多人想象的要早得多。
1965 年,德国学者 Frieder Nake 与 Georg Nees 在斯图加特展出了人类历史上第一批由计算机生成的几何抽象作品;同年的纽约 Howard Wise 画廊也举办了一场名为 Computer-Generated Pictures 的展览。早期算法艺术(Algorithmic Art)由数学家与工程师主导——他们写下规则,让绘图仪在纸上落笔,作品冷峻、几何、机械。
1973 年,英国艺术家 Harold Cohen 启动了一个改变其后半生的项目:AARON。这是一个用 LISP 写成的程序,能够自主地生成线条、构图、上色。与那些只会执行指令的算法不同,AARON 拥有 Cohen 编写的"绘画知识":什么是物体、什么是遮挡、什么是构图平衡。AARON 的作品在伦敦 Tate、旧金山 SFMOMA、巴黎蓬皮杜中心展出过,成为博物馆收藏的第一批 AI 作品。Cohen 一直与 AARON 合作直到 2016 年去世——他从未把它视为对手,而是"一位永不疲倦的合作者"。
九十年代后,Karl Sims 在 Genetic Images(1993)中让观众选择更"美"的进化方向,由遗传算法繁衍下一代图像;2000 年代后期,Casey Reas 与 Ben Fry 的 Processing 让算法艺术走向开源大众化。但这一阶段的"AI 艺术"仍属于程序员的私语,与主流艺术市场关系若即若离。
变量在等一个引爆点。
第二幕:GAN 与第一次拍卖(2014—2018)
2014 年,古德费洛在蒙特利尔深夜的酒吧里写下了生成对抗网络(Generative Adversarial Networks, GAN)的最初草稿。生成器与判别器互为对手,通过博弈逼近真实数据分布——这个看似简单的设定开启了图像生成的新纪元。
GAN 之后,2015 年 Leon Gatys 等人发表 A Neural Algorithm of Artistic Style,论文中那些"用梵高风格重画照片"的样图席卷了社交网络,神经风格迁移(Neural Style Transfer)一夜成名。2017 年起,BigGAN、StyleGAN 让生成图像的清晰度和多样性飙升;StyleGAN 生成的"虚拟人脸"以假乱真,催生了 thispersondoesnotexist.com 这样的现象级网站。
真正把"AI 艺术"推向主流的,是 2018 年 10 月 25 日的一场拍卖。法国艺术团体 Obvious 用 GAN 生成了一幅模仿古典肖像风格的作品——Edmond de Belamy。佳士得(Christie's)将其列入纽约拍卖会,估价 7,000 至 10,000 美元。最终成交价:432,500 美元,是估价的四十多倍。画作右下角是一个数学公式式的"签名"——GAN 损失函数。
艺术市场第一次为一个由算法生成的图像买单。但争议随之而起:作品所用的代码大量基于 Robbie Barrat 在 GitHub 公开的项目,而 Obvious 团队的实质贡献被广泛质疑。这场拍卖既是 AI 艺术的胜利,也暴露出"作者归属"将成为日后所有讨论的核心。
第三幕:扩散模型之夏(2022)
2021 年 1 月,OpenAI 发布 DALL·E。它能根据文本提示生成图像——"一个穿芭蕾舞裙的小白萝卜在遛狗"。这个不太严肃的演示令世界第一次直观感受到"文生图"(Text-to-Image)可以何等具体。
但真正的核爆发生在 2022 年。
- 4 月:OpenAI 发布 DALL·E 2,画质与构图远超前代,迅速成为社交网络的现象级产品。
- 7 月:Midjourney 进入公测,把生成入口放在 Discord 频道。其美学倾向偏向电影感与油画质感,吸引大量插画师、概念设计师;公测半年内即实现盈利。
- 8 月:Stability AI 发布 Stable Diffusion 1.4,基于 Robin Rombach 等人在 CompVis 实验室提出的潜在扩散模型(Latent Diffusion Model),权重与代码全部开源。
Stable Diffusion 的开源是这场革命中最具地震性的事件。任何人下载 4 GB 的权重文件,便可在自家显卡上生成图像。围绕它,HuggingFace、Civitai、AUTOMATIC1111 等社区在数月内构建出一整套微调(DreamBooth、LoRA)、控制(ControlNet, 2023 年 2 月由张吕敏开源)、组合(ComfyUI)的工具栈。"AI 绘画"从一个云端付费服务变成了一种人人可改装的开源生产力。
2022 年 8 月底,美国科罗拉多州博览会美术比赛"数字艺术"组别冠军颁给了 Jason Allen 的作品 Théâtre D'opéra Spatial——它由 Midjourney 生成,再经 Photoshop 与 Gigapixel 后期。比赛规则未禁止 AI 生成,但争议席卷艺术界。这是史上第一次由 AI 作品在传统艺术比赛中夺冠。
第四幕:从静帧到运动(2023—2024)
图像被攻克之后,下一座山是视频。
2023 年 2 月,Runway 发布 Gen-1,让用户用文本与参考图像驱动视频风格化;同年 6 月推出 Gen-2,正式跨入"文生视频"。但当年大多数 AI 视频仍只是"会动的图像",分辨率低、角色一致性差、物理常识屡屡崩坏。
转折点在 2024 年 2 月。OpenAI 发布 Sora,对外公开了一系列长达一分钟、有摄影机调度、有人物动作连贯性的样片——东京街头一名穿红衣的女子穿过霓虹光影、樱花在风中飘落。视频生成第一次让人开始相信,长镜头、复杂物理、多角色互动并非遥不可及。Sora 当日并未开放使用,但它定义了 2024 年视频生成的"基准线"。
随后是一连串的追赶:
- 2024 年 6 月:快手发布"可灵",是中国第一个大规模公开的视频生成模型,其物理一致性与镜头语言一度被认为追平 Sora。
- 2024 年 5 月与 12 月:Google 相继发布 Veo 与 Veo 2;Meta 发布 Movie Gen 系列;Runway 推出 Gen-3 Alpha。
- 2025 年起:可灵 1.6、Sora 2、混元、字节跳动 PixelDance、智谱 CogVideoX——每月都有新模型让"上一代"在数周内贬值。
视频生成的工业化迅速重塑广告、影视预演、社交内容。Coca-Cola 在 2024 年圣诞推出全 AI 生成广告,引发广告界震荡;TikTok 与 Instagram 的内容流中,AI 短视频的份额以肉眼可见的速度上升。
第五幕:声音的革命(2023—2024)
文字、图像、视频之后,声音成为下一片战场。
2022 年起,Riffusion 用扩散模型生成谱面图再合成音乐,开了一个先声。2023—2024 年,三家公司站到风口:
- Suno(波士顿,2022 成立):2023 年 12 月发布 v2,让用户用一句话生成完整带歌词的歌曲;2024 年 3 月 v3 让 30 秒升级到 2 分钟;2024 年 5 月 B 轮融资 1.25 亿美元。
- Udio(伦敦,前 DeepMind 团队):2024 年 4 月公测,A16z 领投,被业界视为 Suno 的最强劲对手。
- ElevenLabs(伦敦,2022):在语音克隆和有声书赛道独占鳌头。
但音乐界的反击迅速到来。2024 年 6 月 24 日,美国唱片业协会(RIAA)代表 Sony Music、Universal、Warner 三大巨头同时起诉 Suno 与 Udio,指控其大规模复制有版权的录音用于训练。两家公司在答辩中首次公开承认其训练集"包含从公开互联网获得的录音",并主张"合理使用"(Fair Use)。诉讼仍在进行,但它将为整个生成式音乐行业划下规则边界。
与此同时,Spotify 在 2025 年承认平台上有数百万首"AI 生成"曲目,部分艺人合谋用 AI 量产歌曲骗取流媒体分成;几大版权管理协会开始要求训练数据透明化与艺人退出权(opt-out)。
第六幕:写作辅助与文学边界
ChatGPT 之后,文字创作首先被深度卷入 AI 浪潮——但也最早遭遇反弹。
2023 年 2 月,亚马逊 Kindle Direct Publishing 上 AI 生成的儿童书与小说集泛滥,平台被迫推出 AI 生成内容的强制申报政策。同年起,多家文学杂志(如 Clarkesworld)因 AI 生成投稿暴增而被迫暂停接收外部稿件。
但在专业写作内部,AI 已悄然成为合作者。Sudowrite、NovelCrafter、Plottr 等工具被部分网络小说作者公开使用;2024 年日本芥川奖得主九段理江公开表示,自己的获奖作《东京同情塔》中约 5% 的文本由 ChatGPT 生成。这一表态在文学界激起激烈讨论:合作的边界在哪里?署名是否需要更新?读者是否有"知情权"?
更深层的问题是风格同质化。当大量作者依赖同一个底层模型润色,互联网内容会不会逐步收敛到一种"AI 标准腔"?这是创意写作面临的、与图像和视频截然不同的危险——慢性的、不易察觉的语言贫化。
第七幕:艺术家的反击(2023—2025)
技术狂欢的另一面,是艺术家社区前所未有的愤怒。
2023 年初,波兰插画家 Greg Rutkowski 发现自己的名字成为 Stable Diffusion 用户最常用的提示词之一——超过他本人毕生作品总数的图像被生成出来,模仿他的风格署他的名。他的画作被未经许可纳入 LAION-5B 训练集;他公开发表声明,呼吁立法规制。
同年 1 月,三位艺术家(Sarah Andersen、Kelly McKernan、Karla Ortiz)对 Stability AI、Midjourney、DeviantArt 提起集体诉讼;同月,Getty Images 在英美双线起诉 Stability AI,指控其使用了 1200 万张 Getty 图像(带有可识别水印)训练 Stable Diffusion。Getty v. Stability 于 2025 年在英国伦敦高等法院开庭,是图像生成版权第一案。
技术层面,芝加哥大学 Ben Zhao 教授带领团队推出了两件武器:
- Glaze(2023 年 3 月):在艺术家发布作品前,在像素层面添加肉眼难辨的扰动,使模型学到错误的风格特征。
- Nightshade(2023 年 10 月):更进一步的"投毒"工具,被它处理过的图像若被纳入训练集,会让模型对相关概念产生系统性偏移。
数十万名艺术家下载使用了 Glaze 与 Nightshade。这是历史上第一次,被技术冲击的群体用技术本身来反击。与此同时,ArtStation 等平台被迫在 2023 年初推出"NoAI"标签,让作者声明禁止其作品被用于训练。
第八幕:版权的世纪诉讼
2023 年 12 月 27 日,《纽约时报》起诉 OpenAI 与 Microsoft,指控其未经授权使用百万级 NYT 文章训练 GPT 系列。诉状中附带了数十页的"逐字复述"证据:在特定提示下,GPT-4 几乎一字不差地输出了 NYT 的付费墙文章。这是迄今为止最具影响力的生成式 AI 版权诉讼之一。
2024—2025 年间,更多案件汇成洪流:
- 美国作家协会(Authors Guild)联合多名作家起诉 OpenAI、Meta;
- 《华尔街日报》、《纽约邮报》起诉 Perplexity;
- 多家德国、法国出版商在欧盟数字单一市场指令下追讨权利金;
- 中国"AI 生成图像第一案"在 2023 年 11 月作出判决,北京互联网法院首次认定使用 Stable Diffusion 生成的图像在符合特定条件下享有著作权——但该案的争议远未平息。
立法层面,欧盟 AI Act 于 2024 年 8 月生效,首次要求通用 AI 模型披露训练数据摘要。美国 2024 年起多个州的 NO FAKES Act、ELVIS Act 等针对 AI 克隆名人声音与肖像的法律陆续推进。
技术、法律、艺术家、平台、巨头——五方角力之下,"AI 与创意"的关系正被重新书写。它不再只是一个美学问题,而是关于劳动、产权、文化记忆的根本议题。机器并未取代艺术家,但它已经永久改变了艺术家的处境。
太史公曰
余观艺术与 AI 之相遇,自 Cohen 写 AARON 至今已逾半世纪。前四十年,AI 是艺术家书房里的一支奇笔,写程序作画乃极少数人之私语。后十年,扩散模型与大模型横空出世,机器作画、机器谱曲、机器写小说,皆从实验室走入街市。Edmond de Belamy 一锤拍卖、Sora 一段东京街景、Suno 一首五分钟流行曲——震惊世人的从来不是技术上限,而是平民化速度。然狂欢之下,亦有暗流:插画家发现自己半生风格被三个英文单词召唤、配音演员发现自己声音被克隆为他人台词、出版社发现训练集中藏着自家全部档案。Glaze 与 Nightshade 之类的"反 AI"技术应运而生——这是历史上第一次,被冲击者用自己的智慧对抗洪流。Getty v. Stability、《纽约时报》v. OpenAI、RIAA v. Suno,三场跨国诉讼将塑造未来十年的创作秩序。机器是否会"创作"?这是哲学问题,留给后世辩论。眼前更紧迫的,是机器在何种条件下"借鉴"才不构成掠夺,是创作者在何种合约下与机器协作才不至沦为零件。AI 不会让创意死去,但它已让"作者"二字的定义,比文艺复兴以来任何一次都更加摇晃。
亲历者说
征集中
如果你是被 AI 影响的艺术家、音乐人、作家、设计师,欢迎提交贡献分享你的经历。
参考资料
- McCorduck, P. (1991). AARON's Code: Meta-Art, Artificial Intelligence, and the Work of Harold Cohen. W. H. Freeman.
- Goodfellow, I., Pouget-Abadie, J., Mirza, M., et al. (2014). Generative adversarial nets. Advances in Neural Information Processing Systems, 27.
- Gatys, L. A., Ecker, A. S., & Bethge, M. (2016). Image style transfer using convolutional neural networks. Proceedings of CVPR 2016, 2414-2423.
- Christie's (2018). Is artificial intelligence set to become art's next medium? (Edmond de Belamy auction record).
- Ramesh, A., Pavlov, M., Goh, G., et al. (2021). Zero-shot text-to-image generation (DALL·E). Proceedings of ICML 2021.
- Rombach, R., Blattmann, A., Lorenz, D., et al. (2022). High-resolution image synthesis with latent diffusion models. Proceedings of CVPR 2022, 10684-10695.
- Roose, K. (2022, September 2). An A.I.-generated picture won an art prize. Artists aren't happy. The New York Times.
- Shan, S., Cryan, J., Wenger, E., et al. (2023). Glaze: Protecting artists from style mimicry by text-to-image models. Proceedings of USENIX Security 2023.
- Shan, S., Ding, W., Passananti, J., et al. (2023). Prompt-specific poisoning attacks on text-to-image generative models (Nightshade). arXiv preprint arXiv:2310.13828.
- The New York Times Company v. Microsoft Corporation, OpenAI, et al. (2023, December 27). U.S. District Court, Southern District of New York, Case No. 1:23-cv-11195.
- Andersen et al. v. Stability AI Ltd. et al. (2023, January 13). U.S. District Court, Northern District of California.
- Getty Images v. Stability AI (2023, filed). High Court of Justice (UK) and U.S. District Court, District of Delaware.
- RIAA (2024, June 24). Major music companies sue Suno and Udio for copyright infringement.
- OpenAI (2024, February 15). Sora: Creating video from text. OpenAI Research Blog.