当前位置: 首页 > news >正文

Llama 3.2-Vision 多模态大模型本地运行教程

Ollama 刚刚放出了对 Llama 3.2-Vision 的支持!这让人想起了新游戏发布带来的兴奋感——我期待着探索 Ollama 对 Llama 3.2-Vision 的支持。该模型不仅在自然语言理解方面表现出色,而且可以无缝处理图像,最好的部分是什么?它是免费的,专为边缘 AI 设计。

在这篇文章中,我将指导你将 Ollama 升级到 0.4.0 版,提供一个动手演示来帮助你在系统上运行 Llama 3.2-Vision,并讨论该模型的特殊之处以及它如何有可能彻底改变边缘 AI。

NSDT工具推荐: Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 可编程3D场景编辑器 - REVIT导出3D模型插件 - 3D模型语义搜索引擎 - AI模型在线查看 - Three.js虚拟轴心开发包 - 3D模型在线减面 - STL模型在线切割 - 3D道路快速建模 

0、有什么重大意义?

Llama 3.2-Vision 为最令人兴奋的语言模型之一带来了视觉功能,使其能够同时处理文本和图像。

  • 多模态功能:Llama 3.2-Vision 处理文本和图像,这对边缘 AI 应用程序至关重要。
  • 实时处理:针对边缘设备进行了优化,无需依赖云即可实现即时响应。
  • 增强隐私和降低成本:本地处理将敏感数据保留在设备上并降低云费用。
  • 易于部署:Ollama 的用户友好设置简化了多模式 AI 实施,即使对于没有深厚 AI 专业知识的开发人员也是如此。
  • 边缘优化:非常适合机器人、AR 和医疗保健等现实世界的应用,其中实时图像理解是关键。

1、将 Ollama 升级到 0.4.0

要解锁 Llama 3.2-Vision 的强大功能,你需要将 Ollama 升级到 0.4.0 版本。操作方法说明在这里,简述如下:

  • 下载最新版本。前往 Ollama 的 GitHub 页面并下载版本 0.4.0。这是一个预发布版本,因此请选择适合你系统的资产,例如,macOS 请选择“Ollama-darwin.zip”。
  • 运行应用程序。下载文件后,运行应用程序。
  • 验证安装。通过运行以下命令检查更新是否成功:
ollama --version
#ollama version is 0.4.0-rc3

你应该看到版本 0.4.0-rc3 作为输出。

注意:版本 0.4.0-rc3 是预发布版本,因此请务必留意未来的稳定版本。

2、安装 Llama 3.2 Vision 模型

现在已经更新了 Ollama,让我们来提取 Llama 3.2-Vision 模型。使用以下命令:

ollama run x/llama3.2-vision:11b

11b 指的是该模型的 110 亿参数版本,可确保视觉任务的高精度。

你可以通过运行以下命令来验证安装:

ollama list

输出应显示:

NAME                        ID              SIZE      MODIFIED     
x/llama3.2-vision:latest    2*****6a29    7.9 GB    * hours ago   

3、运行 Llama 3.2-Vision

让我们进入最有趣的部分 — 在图像上运行 Llama 3.2-Vision 模型。

Source: Harry Potter Wiki

以下是如何从命令行界面 (CLI) 正确执行此操作:

ollama run x/llama3.2-vision:latest "describe this image: /Users/../images/Gryffindor_ClearBG.png"

将 /Users/../images/Gryffindor_ClearBG.png 替换为你选择的图像路径。模型将分析图像并根据其理解提供响应。

输出如下:

The image appears to be a logo or emblem for the Hogwarts house Gryffindor. It features a bold, red and gold color scheme, which are the traditional 
colors associated with Gryffindor. The design is simple yet striking, with the words "Gryffindor" in a curved line above a lion's head, which is a common 
symbol of bravery and courage - values that Gryffindor house embodies.

此示例展示了模型识别对象及其符号含义的能力。

4、使用 Python 与 Llama 3.2-Vision 集成

为了使用 Python 中的 Ollama 集成 Llama 3.2-Vision 的图像处理功能,这里有一个实际示例,您将图像转换为 base64 格式并将其发送到模型进行分析。Python 代码片段展示了如何使用 Pillow (PIL) 库将图像转换为 base64,然后利用 Ollama 的聊天功能来解释图像。

from PIL import Image
import base64
import iodef image_to_base64(image_path):# Open the image filewith Image.open(image_path) as img:# Create a BytesIO object to hold the image databuffered = io.BytesIO()# Save the image to the BytesIO object in a specific format (e.g., PNG)img.save(buffered, format="PNG")# Get the byte data from the BytesIO objectimg_bytes = buffered.getvalue()# Encode the byte data to base64img_base64 = base64.b64encode(img_bytes).decode('utf-8')return img_base64# Example usage
image_path = '/Users/../images/Gryffindor_ClearBG.png'  # Replace with your image path
base64_image = image_to_base64(image_path)

在这种情况下处理图像时,Base64 编码至关重要,因为它允许将图像数据直接嵌入到请求中。在此示例中,我们将 base64 编码的图像传递给模型,以使用模型的文本和视觉功能识别其中的内容。此设置演示了 Llama 3.2-Vision 如何无缝处理基于图像的查询。

获得 base64 编码的图像后,它会与查询一起发送到模型进行解释。

# Use Ollama to analyze the image with Llama 3.2-Vision
response = ollama.chat(model="x/llama3.2-vision:latest",messages=[{"role": "user","content": "Describe this image?","images": [base64_image]}],
)# Extract the model's response about the image
cleaned_text = response['message']['content'].strip()
print(f"Model Response: {cleaned_text}")

在响应中,模型返回处理后的结果,例如识别提供的任何视觉数据的内容。

5、结束语

借助 Llama 3.2-Vision,Meta 在边缘 AI 方面迈出了一大步,使设备比以往任何时候都更智能、更强大。无论您是 AI 研究人员、AI 开发人员,还是只是喜欢尝试最新技术的人,此版本都开辟了令人兴奋的新可能性。

如果你还没有升级并使用 Llama 3.2-Vision,请按照上述步骤立即升级和使用。准备好惊叹于您在边缘 AI 上可以取得的成就吧!


原文链接:Llama 3.2-Vision本地运行 - BimAnt

相关文章:

Llama 3.2-Vision 多模态大模型本地运行教程

Ollama 刚刚放出了对 Llama 3.2-Vision 的支持!这让人想起了新游戏发布带来的兴奋感——我期待着探索 Ollama 对 Llama 3.2-Vision 的支持。该模型不仅在自然语言理解方面表现出色,而且可以无缝处理图像,最好的部分是什么?它是免费…...

iOS 18.2 可让欧盟用户删除App Store、Safari、信息、相机和照片应用

升级到 iOS 18.2 之后,欧盟的 iPhone 用户可以完全删除一些核心应用程序,包括 App Store、Safari、信息、相机和 Photos 。苹果在 8 月份表示,计划对其在欧盟的数字市场法案合规性进行更多修改,其中一项更新包括欧盟用户删除系统应…...

照片怎么转换成pdf?盘点6种图片转pdf格式有效方法,直击要点!

照片怎么转换成pdf?在日常生活和工作中,我们难免会碰到需要将照片以pdf格式保存的情况,以便于更好的整理、分享或打印。虽然jpg格式的图片因其体积小而方便分享,但有时我们也希望将这些图片转换成pdf格式,以便于创建专…...

【Qt】Windows下Qt连接DM数据库

环境信息:W11 Qt5.12及以上 dm8 QODBC达梦 Windows环境创建ODBC数据源 使用 ODBC 方法访问 DM 数据库服务器之前,必须先配置 ODBC 数据源 在控制面板Windows工具中显示ODBC数据源管理器 ODBC数据源管理器标签 用户 DSN:添加、删除或配置本…...

2024 你还不会微前端吗 (上) — 从巨石应用到微应用

前言 微前端系列分为 上/下 两篇,本文为 上篇 主要还是了解微前端的由来、概念、作用等,以及基于已有的微前端框架进行实践,并了解微前端的核心功能所在,而在 下篇 中主要就是通过自定义实现一个微前端框架来加深理解。 微前端是…...

WPF+MVVM案例实战(三)- 动态数字卡片效果实现

1、创建项目 打开 VS2022 ,新建项目 Wpf_Examples,创建各层级文件夹,安装 CommunityToolkit.Mvvm 和 Microsoft.Extensions.DependencyInjectio NuGet包,完成MVVM框架搭建。搭建完成后项目层次如下图所示: 这里如何实现 MVVM 框…...

#网络安全#渗透测试# 渗透测试应用

网络安全渗透测试是一种重要的安全评估方法,用于发现和评估网络系统中的安全漏洞。在进行渗透测试时,需要注意以下几个关键点: 法律和道德考量 获得授权:在进行渗透测试之前,必须获得目标系统的正式授权。未经授权的测…...

MicroServer Gen8再玩 OCP万兆光口+IT直通之二

这个接上一篇,来个简单测试。 一、测试环境 PC端:Win10,网卡:万兆光纤(做都做了,都给接上),硬盘使用N年的三星SSD 840 交换机:磊科GS10,带两个万兆口 Gen…...

【JAVA面试题】Java和C++主要区别有哪些?各有哪些优缺点?

文章目录 强烈推荐前言区别:1. 语法和编程风格2.内存管理3.平台独立性4.性能5.指针和引用6.多线程7.使用场景 Java 的优缺点优点:缺点: C 的优缺点优点:缺点: 总结专栏集锦 强烈推荐 前些天发现了一个巨牛的人工智能学…...

保姆级教程!!教你通过【Pycharm远程】连接服务器运行项目代码

小罗碎碎念 这篇文章主要解决一个问题——我有服务器,但是不知道怎么拿来写代码,跑深度学习项目。确实,玩深度学习的成本比较高,无论是前期的学习成本,还是你需要具备的硬件成本,都是拦路虎。小罗没有办法…...

JMeter详细介绍和相关概念

JMeter是一款开源的、强大的、用于进行性能测试和功能测试的Java应用程序。 本篇承接上一篇 JMeter快速入门示例 , 对该篇中出现的相关概念进行详细介绍。 JMeter测试计划 测试计划名称和注释:整个测试脚本保存的名称,以及对该测试计划的注…...

如何使用Git

简介 一.git简介 Git是一个分布式版本控制工具,通常用来对软件开发过程中的源代码文件进行管理.通过Git仓库来存储和管理这些文件,Git仓库分两种: 本地仓库:开发人员自己电脑上的Git仓库远程仓库:远程服务器上的Git仓库 commit:提交,将本地文件和版本信息保存到本地仓库 p…...

Redis 哨兵 问题

前言 相关系列 《Redis & 目录》(持续更新)《Redis & 哨兵 & 源码》(学习过程/多有漏误/仅作参考/不再更新)《Redis & 哨兵 & 总结》(学习总结/最新最准/持续更新)《Redis & 哨兵…...

安卓基础001

前言 也是好久没有更新博客了,最近实习也是需要学习一些知识哈哈哈哈哈哈为了更好的发展嘛,咱们从客户端开始,过程可能有点像写前端,不喜勿喷,希望在学习的过程中也可以给大家带来一些简单得帮助吧....... tips:这里跳过安卓studio安装,大家可自行寻找教程 写的不详细,只是为了…...

shodan2:绕过shodan高级会员限制+metasploit批量验证漏洞

shodan2 shodanmetasploit批量验证漏洞 shodan的这个指令语法是特别多的,那么我不可能说一个个全部讲完,因为有的参数可能你一辈子都用不上,主要就是把一些红队最常用的参数给你讲完,今天我们看看怎么去查一个cve-2019-0708的一…...

【JAVA毕业设计】基于Vue和SpringBoot的母婴商城系统

本文项目编号 T 030 ,文末自助获取源码 \color{red}{T030,文末自助获取源码} T030,文末自助获取源码 目录 一、系统介绍二、演示录屏三、启动教程四、功能截图五、文案资料5.1 选题背景5.2 国内外研究现状5.3 可行性分析 六、核心代码6.1 查…...

探索Python安全字符串处理的奥秘:MarkupSafe库揭秘

文章目录 探索Python安全字符串处理的奥秘:MarkupSafe库揭秘第一部分:背景介绍第二部分:MarkupSafe是什么?第三部分:如何安装MarkupSafe?第四部分:MarkupSafe的简单使用方法1. 使用escape函数2.…...

Xcode真机运行正常,打包报错

1.问题: 老项目Xcode真机运行没问题,但但打包的时候却报了以下错误: some files could not be transferred (code 23) at /AppleInternal/Library/BuildRoots/4ff29661-3588-11ef-9513-e2437461156c/Library/Caches/com.apple.xbs/Sources/r…...

Android Audio基础——音频混音线程介绍(十)

MixerThread 是 Android 音频输出的核心部分,主要负责将多个音频流混合成一个输出流,通常用于处理多个音频源(如音乐播放器、语音通话、系统提示音等)的混音操作,混音后的音频数据会被发送到音频硬件(如扬声器或耳机)进行最终输出。大多数 Android 的音频都需要经过 Mix…...

【Excel】函数各类公式总结

在 Excel 中,有许多常用的公式和函数用于各种类型的计算,包括基本的数学运算、统计运算、逻辑判断、查找与引用、文本处理,以及复数计算。下面列出了一些常用的 Excel 函数: 1、数学与三角函数 SUM求和函数,计算一组…...

【入门篇】2.9 系统滴答定时器 SysTick

目录 一,SysTick 系统滴答定时器 二,SysTick寄存器 2.1 SysTick 控制和状态寄存器(CTRL) 2.2 SysTick 重装载数值寄存器(LOAD) 2.3. SysTick 当前值寄存器(VAL) 2.4 SysTick 校准值寄存器(CALIB) 三,使用SysTick定时器 四,用法示例 一,SysTick 系统滴答定时…...

BiRefNet:颠覆图像分割,AI黑科技再升级

BiRefNet:颠覆图像分割,AI黑科技再升级 BiRefNet 是一款超强的图像分割 AI 模型,精准度惊人✨,适用于医疗、农业、工业等多个领域🌍,让图像处理变得简单高效!快来体验这款黑科技吧!…...

编写一个简单的Iinput_dev框架

往期内容 本专栏往期内容: input子系统的框架和重要数据结构详解-CSDN博客input device和input handler的注册以及匹配过程解析-CSDN博客input device和input handler的注册以及匹配过程解析-CSDN博客 I2C子系统专栏: 专栏地址:IIC子系统_憧憬…...

ctfshow的sql注入解题思路171-211

ctfshow-SQL注入 web171:爆库名->爆表名->爆字段名->爆字段值 -1 union select 1,database() ,3 -- //返回数据库名 -1 union select 1,2,group_concat(table_name) from information_schema.tables where table_schema库名 -- //获取数据库里的表名 -…...

深入理解C语言中的静态库与动态库 —— 原理与实践

引言 在 C 语言编程中,库是预编译的代码集合,用于实现特定功能,以供其他程序使用。库可以分为静态库和动态库两种主要类型。静态库在编译阶段被链接到目标程序中,而动态库则是在运行时被加载。本文旨在深入探讨这两种库的工作原理…...

本地缓存库分析(一):golang-lru

文章目录 本地缓存概览golang-lru标准lrulru的操作PutGet 2q:冷热分离lruPutGet expirable_lru:支持过期时间的lruPutGet过期 总结 本地缓存概览 在业务中,一般会将极高频访问的数据缓存到本地。以减少网络IO的开销,下游服务的压…...

qt配置https请求

qt应用版本 windows 32位 先说下心理路程,你能遇到的我都遇到了,你能想到的我都想到了,怎么解决看这一篇就够了,从上午12点到晚上12点几乎没离开电脑(除了吃饭),对于openssl这种用的时候无感&am…...

C语言进阶——文件操作

一、文件的基本知识 1.1什么是文件 在程序设计中,一般谈的文件有两种:程序文件、数据文件。 程序文件:包括源程序文件(后缀为.c),目标文件(windows环境后缀为.obj),可执…...

MYSQL-查看用户权限语法(二十一)

13.7.5.21 SHOW GRANTS 语句 SHOW GRANTS [FOR user]此语句以GRANT语句的形式显示分配给MySQL用户帐户的权限,必须执行GRANT语句才能复制权限分配。 注意 要显示MySQL帐户的非特权信息,请使用SHOW CREATE USER语句。 参见第 13.7.5.12 节“ SHOW CREA…...

在MySQL中存储IP地址的最佳实践

文章目录 一、IP地址的格式二、存储IP地址的数据类型选择1. VARCHAR优点缺点 2. INT 或 BIGINT优点缺点示例 3. VARBINARY优点缺点示例 三、最佳实践建议1. 选择合适的数据类型2. 索引优化3. 数据验证4. 安全性考虑 四、Java支持五、结论 在现代网络应用中,IP地址是…...

基于wordpress学校系统/自建网站平台

一直把视图理解为一个select语句而已,视图一般就是用于查询,不会通过视图来更新表或视图本身的数据,所以视图根本不需要什么主键。今天自己建了一个视图view_test:drop view if existsview_testcreate viewview_testasselecta.c1,a.c2,b.c1,b…...

新人如何自学做网站/seo基础入门免费教程

点击上方“蓝色字”可关注我们!暴走时评:奥地利政府将使用以太坊区块链公证价值11.5亿欧元(约合13亿美元)的政府债券拍卖,联邦政府财政局(OeBFA)已指派银行业巨头Oesterreichische Kontrollbank…...

商城网站建站方案/石家庄新闻网头条新闻

一、调试前提 1. Hardware 720p的DSI接口屏hx8394d,MIPI接口相关原理图如下图 通过原理图获取的信息: 1)2.8V VDD供电脚 —— LDO17; 2)1.8V VDD供电脚 —— LDO6; 3)RESET脚 —— GPIO25; 4)TE脚(一般DSI CMD模式下才会使用)—— GPIO24; 5)背光使能脚 —— G…...

wordpress 慢 优化/网址域名注册信息查询

Handler的基本概念 当有一段处理耗时比较漫长的时候,我们就需要用线程来处理。Android中是用Handler类来处理线程的。 与Handler绑定的有两个队列,一个为消息队列,另一个为线程队列。Handler可以通过这两个队列来分别: 【消息队…...

深圳企业公司做网站/广州网站推广软件

实验模式: 这张图是我做想要做链路聚合,但是在链路聚合实验中,出现了点儿小小小的问题,介于篇幅太长,所以单独把问题抛出来; (在这里我们不讨论关于生成树的问题,因为默认为我都掌握…...

网站开发完后如何上线/搜索引擎的作用

PLC、触摸屏走wifi、4G卡或有线网远程联网调试PLC、触摸屏走wifi、4G卡或有线网远程联网调试系统框架图:框架图PLC、触摸屏走wifi、4G卡或有线网远程联网调试所需硬件: GRM530远程智能模块1台与Wifi、4G或有线网上网环境PLC、触摸屏走wifi、4G卡或有线网…...