这里是Aideas，每日分享AI相关资讯。本文由Aideas Agent整理并推荐。项目地址：/mlfoundations/open_clip，程序语言：Python，收藏: 11,291，分支: 1,073，今日收藏: 17 stars today。

OpenAI的CLIP（对比语言-图像预训练）开源实现。OpenCLIP在各种数据源和计算预算上训练了几个模型，范围从小规模实验到更大规模的运行，包括在数据集上训练的模型，如LAION-400M、LAION-2B和DataComp-1B。

OpenCLIP

训练的一些最佳模型及其零-shot ImageNet-1k 准确率如下所示，以及OpenAI训练的ViT-L模型和其他最先进的开源替代品（所有模型均可通过OpenCLIP加载）：

模型：ConvNext-Base，训练数据：LAION-2B，分辨率：256px，看到的样本数：13B，ImageNet零-shot准确率：71.5%
模型：ConvNext-Large，训练数据：LAION-2B，分辨率：320px，看到的样本数：29B，ImageNet零-shot准确率：76.9%
模型：ConvNext-XXLarge，训练数据：LAION-2B，分辨率：256px，看到的样本数：34B，ImageNet零-shot准确率：79.5%
模型：ViT-B/32，训练数据：DataComp-1B，分辨率：256px，看到的样本数：34B，ImageNet零-shot准确率：72.8%
模型：ViT-B/16，训练数据：DataComp-1B，分辨率：224px，看到的样本数：13B，ImageNet零-shot准确率：73.5%
模型：ViT-L/14，训练数据：LAION-2B，分辨率：224px，看到的样本数：32B，ImageNet零-shot准确率：75.3%
模型：ViT-H/14，训练数据：LAION-2B，分辨率：224px，看到的样本数：32B，ImageNet零-shot准确率：78.0%
模型：ViT-L/14，训练数据：DataComp-1B，分辨率：224px，看到的样本数：13B，ImageNet零-shot准确率：79.2%
模型：ViT-G/14，训练数据：LAION-2B，分辨率：224px，看到的样本数：34B，ImageNet零-shot准确率：80.1%
模型：ViT-L/14-quickgelu，训练数据：WIT，分辨率：224px，看到的样本数：13B，ImageNet零-shot准确率：75.5%
模型：ViT-SO400M/14，训练数据：WebLI，分辨率：224px，看到的样本数：45B，ImageNet零-shot准确率：82.0%
模型：ViT-L/14，训练数据：DFN-2B，分辨率：224px，看到的样本数：39B，ImageNet零-shot准确率：82.2%
模型：ViT-SO400M-14-SigLIP-384，训练数据：WebLI，分辨率：384px，看到的样本数：45B，ImageNet零-shot准确率：83.1%
模型：ViT-H/14-quickgelu，训练数据：DFN-5B，分辨率：224px，看到的样本数：39B，ImageNet零-shot准确率：83.4%
模型：ViT-H-14-378-quickgelu，训练数据：DFN-5B，分辨率：378px，看到的样本数：44B，ImageNet零-shot准确率：84.4%

具有额外模型特定细节的模型卡可以在Hugging Face Hub的OpenCLIP库标签下找到。

注意，src/open_clip/中的部分建模和标记器代码是OpenAI官方存储库的改编。

用法

安装OpenCLIP：

pip install open_clip_torch

以下是使用OpenCLIP的示例代码：

import torch
from PIL import Image
import open_clip

model, _, preprocess = open_clip.create_model_and_transforms('ViT-B-32', pretrained='laion2b_s34b_b79k')
model.eval()  # 模型默认处于训练模式，这会影响某些使用BatchNorm或随机深度的模型
tokenizer = open_clip.get_tokenizer('ViT-B-32')

image = preprocess(Image.open("docs/CLIP.png")).unsqueeze(0)
text = tokenizer(["一个图表", "一只狗", "一只猫"])

with torch.no_grad(), torch.autocast("cuda"):
    image_features = model.encode_image(image)
    text_features = model.encode_text(text)
    image_features /= image_features.norm(dim=-1, keepdim=True)
    text_features /= text_features.norm(dim=-1, keepdim=True)

    text_probs = (100.0 * image_features @ text_features.T).softmax(dim=-1)

print("标签概率:", text_probs)  # 打印: [[1., 0., 0.]]

如果模型使用timm图像编码器（convnext，siglip，eva等），请确保安装最新的timm。如果看到图像编码器的“未知模型”错误，请升级timm。如果模型使用transformers标记器，请确保安装transformers。要高效计算数十亿个嵌入，您可以使用clip-retrieval。

预训练模型

这里提供一个简单的模型接口来实例化预训练和未训练的模型。要查看可用的预训练模型，请使用以下代码片段。

>>> import open_clip
>>> open_clip.list_pretrained()

注意：许多现有检查点使用原始OpenAI模型的QuickGELU激活。此激活实际上在最近版本的PyTorch中效率低于原生torch.nn.GELU。模型默认现在是nn.GELU，因此应使用带有-quickgelu后缀的模型定义来使用OpenCLIP预训练权重。所有OpenAI预训练权重将始终默认为QuickGELU。还可以使用非-quickgelu模型定义与使用QuickGELU的预训练权重，但会出现准确性下降，经过微调后，这种下降可能会在较长的运行中消失。未来训练的模型将使用nn.GELU。

加载模型

模型可以使用
open_clip.create_model_and_transforms加载，如下面的示例所示。模型名称和相应的pretrained键与open_clip.list_pretrained()的输出兼容。

pretrained参数还接受本地路径，例如/path/to/my/b32.pt。还可以通过这种方式从huggingface加载检查点。

# pretrained也接受本地路径
model, _, preprocess = open_clip.create_model_and_transforms('ViT-B-32', pretrained='laion2b_s34b_b79k')

微调分类任务

OpenCLIP专注于训练CLIP模型。要在下游分类任务（例如ImageNet）上微调训练过的零-shot模型，请参见WiSE-FT。

数据

要将数据集下载为webdataset，建议使用img2dataset。

YFCC和其他数据集

除了通过CSV文件指定训练数据外，OpenCLIP还支持webdataset，这对于大规模数据集是推荐的。预期格式是一系列.tar文件。每个.tar文件应包含每个训练示例的两个文件，一个是图像，另一个是相应的文本。这两个文件应具有相同的名称但不同的扩展名。例如，shard_001.tar可以包含文件，如abc.jpg和abc.txt。可以从Multimedia Commons下载YFCC数据集。

训练CLIP

安装

首先创建一个虚拟环境：

python3 -m venv .env
source .env/bin/activate
pip install -U pip

然后，可以通过pip install 'open_clip_torch[training]'安装用于训练的openclip。

示例单进程运行代码：

python -m open_clip_train.main \
    --save-frequency 1 \
    --zeroshot-frequency 1 \
    --report-to tensorboard \
    --train-data="/path/to/train_data.csv"  \
    --val-data="/path/to/validation_data.csv"  \
    --csv-img-key filepath \
    --csv-caption-key title \
    --imagenet-val=/path/to/imagenet/root/val/ \
    --warmup 10000 \
    --batch-size=128 \
    --lr=1e-3 \
    --wd=0.1 \
    --epochs=30 \
    --workers=8 \
    --model RN50

注意：imagenet-val是ImageNet的验证集的路径，而不是训练集！如果不想在整个训练过程中对ImageNet进行零-shot评估，可以删除此参数。请注意，val文件夹应包含子文件夹。如果没有，请使用脚本进行处理。

多GPU及以上

对于较大的数据集（例如Laion2B），建议将--train-num-samples设置为低于完整纪元的值，例如--train-num-samples 135646078，以便在进行替换采样时与--dataset-resampled结合使用。这允许频繁检查点以进行更频繁的评估。

断点续训：

python -m open_clip_train.main \
    --train-data="/path/to/train_data.csv" \
    --val-data="/path/to/validation_data.csv"  \
    --resume /path/to/checkpoints/epoch_K.pt

使用 CoCa 生成文本

import open_clip
import torch
from PIL import Image

model, _, transform = open_clip.create_model_and_transforms(
  model_name="coca_ViT-L-14",
  pretrained="mscoco_finetuned_laion2B-s13B-b90k"
)

im = Image.open("cat.jpg").convert("RGB")
im = transform(im).unsqueeze(0)

with torch.no_grad(), torch.cuda.amp.autocast():
  generated = model.generate(im)

print(open_clip.decode(generated[0]).split("")[0].replace("", ""))

#AI软件技巧#

开源的对比语言-图像预训练模型:OpenCLIP

OpenCLIP

用法

预训练模型

加载模型

微调分类任务

数据

YFCC和其他数据集

训练CLIP

安装

示例单进程运行代码：

多GPU及以上

断点续训：

使用 CoCa 生成文本

相关推荐

前端Flex布局可视化布局工具介绍，vue和html5快速设计利器

HTML 简介（html简介及优缺点）

关于HTML5被简称做H5，你怎么看?（html5缩写）

前端开发规范(一、HTML篇)

html5 工业web组态-开发自定义的组件 (炫酷按钮)

Python每日一库之Beautiful Soup（python mtime）

怎么用三种代码写「九九乘法表」（如何编写九九乘法表的程序）

HTML标签速查手册?别死记硬背了，带你从原理上掌握它!

用node.js实现一个网页爬虫（nodejs爬虫模拟浏览器）

推荐36种免费React模板和主题「干货」