Ollama v0.4 可运行 Llama 3.2 Vision 啦 - 文章 - 开发者社区

Llama 3.2 Vision 现已可在 Ollama 中运行，提供 11B 和 90B 两种规模。

入门指南

下载 Ollama 0.4，然后运行以下命令：


            
ollama run llama3.2-vision

要运行更大的 90B 模型：


            
ollama run llama3.2-vision:90b

要将图像添加到提示中，拖放图像到终端，或在 Linux 中将图像路径添加到提示中。

注意：Llama 3.2 Vision 11B 至少需要 8GB 的 VRAM，90B 模型至少需要 64GB 的 VRAM 。

示例

手写

picture.image 手写示例

光学字符识别 (OCR)

picture.image OCR 示例

图表与表格

picture.image 图表与表格示例

图像问答

picture.image 图像问答示例

使用方法

首先，拉取模型：


            
ollama pull llama3.2-vision

Python 库

使用 Ollama Python 库[1]与 Llama 3.2 Vision：


            
import ollama  
  
response = ollama.chat(  
    model='llama3.2-vision',  
    messages=[  
        {  
            'role': 'user',  
            'content': 'What is in this image?',  
            'images': ['image.jpg']  
        }  
    ]  
)  
  
print(response)

JavaScript 库

使用 Ollama JavaScript 库[2]与 Llama 3.2 Vision：


            
import ollama from 'ollama'  
  
const response = await ollama.chat({  
  model: 'llama3.2-vision',  
  messages: [{  
    role: 'user',  
    content: 'What is in this image?',  
    images: ['image.jpg']  
  }]  
})  
  
console.log(response)

cURL


            
curl http://localhost:11434/api/chat -d '{  
  "model": "llama3.2-vision",  
  "messages": [  
    {  
      "role": "user",  
      "content": "what is in this image?",  
      "images": ["<base64-encoded image data>"]  
    }  
  ]  
}'

参考资料

[1] Python 库: https://github.com/ollama/ollama-python

[2] JavaScript 库: https://github.com/ollama/ollama-js

原文： https://ollama.com/blog/llama3.2-vision