Ollama v0.4 可运行 Llama 3.2 Vision 啦

大模型图像处理关系型数据库

Llama 3.2 Vision 现已可在 Ollama 中运行,提供 11B 和 90B 两种规模。

入门指南

下载 Ollama 0.4,然后运行以下命令:


            
ollama run llama3.2-vision  

        

要运行更大的 90B 模型:


            
ollama run llama3.2-vision:90b  

        

要将图像添加到提示中,拖放图像到终端,或在 Linux 中将图像路径添加到提示中。

注意:Llama 3.2 Vision 11B 至少需要 8GB 的 VRAM,90B 模型至少需要 64GB 的 VRAM 。

示例

手写

picture.image 手写示例

光学字符识别 (OCR)

picture.image OCR 示例

图表与表格

picture.image 图表与表格示例

图像问答

picture.image 图像问答示例

使用方法

首先,拉取模型:


            
ollama pull llama3.2-vision  

        

Python 库

使用 Ollama Python 库[1]与 Llama 3.2 Vision:


            
import ollama  
  
response = ollama.chat(  
    model='llama3.2-vision',  
    messages=[  
        {  
            'role': 'user',  
            'content': 'What is in this image?',  
            'images': ['image.jpg']  
        }  
    ]  
)  
  
print(response)  

        

JavaScript 库

使用 Ollama JavaScript 库[2]与 Llama 3.2 Vision:


            
import ollama from 'ollama'  
  
const response = await ollama.chat({  
  model: 'llama3.2-vision',  
  messages: [{  
    role: 'user',  
    content: 'What is in this image?',  
    images: ['image.jpg']  
  }]  
})  
  
console.log(response)  

        

cURL


            
curl http://localhost:11434/api/chat -d '{  
  "model": "llama3.2-vision",  
  "messages": [  
    {  
      "role": "user",  
      "content": "what is in this image?",  
      "images": ["<base64-encoded image data>"]  
    }  
  ]  
}'  

        

参考资料

[1] Python 库: https://github.com/ollama/ollama-python

[2] JavaScript 库: https://github.com/ollama/ollama-js

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论