我通过AI去背景工具处理了成千上万的产品图像。点击上传,点击去除,下载结果。这只需要3秒,并且成功率达到了95%。
但我对它的实际工作原理完全不清楚,直到有位开发者朋友问我我的工具使用了哪个模型,我愣住了。所以我进行了一些研究。以下是我所了解到的,以供那些使用这些工具但不参与其构建的人参考。
基本概念
AI背景去除是一种“图像分割”——AI查看图像中的每一个像素,并决定:这个像素是产品的一部分(前景)还是背景的一部分?
这就像Photoshop中的魔术棒工具的一个非常快速、非常精确的版本。不同的是,AI不是通过颜色相似性来选择像素,而是理解物体是什么。
它是如何学习的
AI是在数百万张图像上训练的,这些图像已经由人类标记了前景和背景。“这是一个鞋子的照片。鞋子是前景。其他的都是背景。” 对不同物体、不同背景、不同光照条件的重复训练达到了数百万次。
在足够的示例后,AI学习到了以下模式:
- 物体有边缘
- 边缘具有特定的视觉特征(对比度变化、纹理变化)
- 某些形状是常见的(人、产品、动物)
- 背景通常比前景更均匀
这个训练过程被称为“深度学习”,使用了神经网络——一种松散地受到大脑处理视觉信息方式启发的数学结构。
进化:从简单到复杂
第一代:基于颜色(2000年代)
早期工具通过颜色选择像素。“去除所有接近这种绿色的像素。”这就是绿幕(色键)工作原理。它需要一个特定且均匀的背景颜色,并在自然背景下完全失效。
第二代:边缘检测(2010年代)
像Photoshop的“选择主体”这样的工具使用边缘检测算法来找到前景和背景之间的边界。比基于颜色的更好,但在处理复杂边缘(头发、毛发、透明物体)时仍然挣扎。
第三代:语义分割(2018-2022)
像U-Net和DeepLab这样的AI模型学会理解物体是什么,而不仅仅是边缘在哪里。它们可以识别“这是一个鞋子”,并将其从背景中分开,即使鞋子的颜色与背景相匹配。这是使消费者AI背景去除可行的突破。
第四代:高分辨率抠图(2023-2026)
目前的模型如BiRefNet及类似架构处理最难的情况:透明玻璃、细发、半透明面料和复杂边缘。它们不仅仅是做出二元的前景/背景决策——它们计算每个像素的确切不透明度,这就是现代工具能够保留玻璃瓶透明度或头发微妙边缘的原因。
为什么它在产品照片上如此有效
产品照片实际上是AI背景去除的最简单案例:
清晰的主题。 图像中央有一个产品。AI不需要决定哪个物体需要保留。
对比度。 大多数产品照片中,产品与背景之间有一定的对比度。即使是浅灰色背景上的白色产品,对于现代AI来说也有足够的对比度。
训练数据。 这些模型在产品图像上经过大量训练,因为这就是主要的商业应用场景。AI见过数百万的鞋子、包、瓶子和电子产品。
定义的边缘。 大多数产品有清晰且定义明确的边缘。与头发或毛发不同,产品的轮廓通常是干净的边界。
为什么有时会失败
了解失败模式有助于你规避这些问题:
透明物体。 玻璃瓶、透明塑料包装、透明宝石。AI必须决定:这个透明区域是前景还是背景?现代模型在这方面的处理远比旧模型好,但这仍然是第一大失败案例。
颜色匹配。 白色产品在白色背景上。黑色产品在深色背景上。当没有对比度时,AI无法找到边缘。解决方案:拍摄时增加产品与背景之间的对比度。
细致细节。 细线、精致的链条、单根头发、花边图案。这些只有几个像素宽,AI可能会漏掉它们或将背景像素包含在内。
反射和阴影。 产品在背景上的阴影可能会让AI感到困惑——阴影是产品的一部分还是背景的一部分?大多数工具默认会去除阴影,但有时会去除过多或过少。
模糊边界。 产品放在表面上,产品的底部与表面融为一体。AI必须猜测产品的结束和表面的开始在哪里。
3秒的流水线
当你将图像上传到像pic1.ai这样的工具时,以下是这3秒内发生的事情:
-
预处理 (~0.1s): 图像被调整为模型的输入分辨率(通常为1024×1024或2048×2048),同时保留原始图像以便最终输出。
-
推理 (~1-2s): 神经网络通过数十层处理图像,每一层提取越来越抽象的特征。早期层检测边缘和纹理。中间层识别物体部分。最后层生成一个“面具”——一个灰度图像,其中白色表示前景,黑色表示背景。
-
细化 (~0.5s): 面具被放大回原始图像分辨率并进行细化。边缘细节被锐化。半透明区域获得其不透明度值。
-
合成 (~0.2s): 精细化的面具应用到原始图像上。背景像素变为透明(PNG)或被替换为白色(JPEG)。产品根据你的设置居中并调整大小。
-
输出 (~0.2s): 最终图像被压缩并交付。
接下来会怎样
这项技术仍在不断改进。目前的研究重点是:
- 实时视频背景去除(用于产品视频)
- 更好的透明度处理(玻璃、水、烟雾)
- 3D感知分割(理解产品的3D形状以更好地处理边缘)
- 自动质量评估(AI告诉你什么时候对结果不自信)
在实际应用中,目前这一代工具能够处理95%以上的产品照片,而无需任何手动修正。剩下的5%(透明物体、极端颜色匹配、非常细致的细节)需要快速的手动修正——通常在60秒以内完成。
有关不同工具如何处理这些挑战的实际比较,请查看我对30种产品的5种工具测试。对于需要避免的常见错误,这里有7个背景移除错误,这些错误静悄悄地杀死了我的转化率。
