小窗幽记机器学习
小窗幽记机器学习
AI大模型向量数据库机器学习
今天这篇小作文主要介绍 如何利用收集到的数据 训练GUI Agent专用的LLM及其升级版的大型动作模型(LAM),此外还介绍该领域当前主流模型。
11
0
0
0
云原生大模型向量数据库机器学习
时人不识凌云木,直待凌云始道高。小伙伴们好,我是微信公众号"小窗幽记机器学习"的小编卖席梦思的刘皇叔。延续前文:GUI Agent综述-1:总览GUI Agent综述-2:三大技术基石GUI Agent综述-3:发展历程GUI Agent综述-4:GUI Agent核心组件GUI Agent综述-5:GUI Agent框架百家争鸣GUI Agent综述-6:汇总GUI Agent训练数据集GUI
10
0
0
0
AI大模型向量数据库云通信
人生自是有情痴,此恨不关风与月。小伙伴们好,我是卖铁观音的小男孩。延续前文:GUI Agent综述-1:总览GUI Agent综述-2:三大技术基石GUI Agent综述-3:发展历程GUI Agent综述-4:深度解读GUI Agent的核心组件及其最新进展GUI Agent综述-5:GUI Agent框架百家争鸣GUI Agent综述-6:汇总GUI Agent训练数据集GUI Agent综述
8
0
0
0
AI大模型向量数据库机器学习
本文是之前GUI Agent综述系列的合订本。GUI Agent综述-1:总览GUI Agent综述-2:三大技术基石GUI Agent综述-3:发展历程GUI Agent综述-4:深度解读GUI Agent的核心组件及其最新进展GUI Agent综述-5:GUI Agent框架百家争鸣GUI Agent综述-6:汇总GUI Agent训练数据集GUI Agent综述-7:GUI Agent 模型
27
0
0
0
AI向量数据库大模型数据库
本文作为GUI Agent综述的第6篇,主要介绍用以优化 GUI Agent 的相关数据集。
54
1
0
1
AI大模型向量数据库数据安全
忽然一夜清香发,散作乾坤万里春。小伙伴们好,我是小编卖玉玺的汉室宗亲。延续前文:GUI Agent综述:9部曲揭秘下一代人机交互的前世今生-1:总览GUI Agent综述:9部曲揭秘下一代人机交互的前世今生-2:三大技术基石GUI Agent综述:9部曲揭秘下一代人机交互的前世今生-3:发展历程今天这篇小作文主要剖析组成GUI Agent的核心组件及其最新进展。后续还有以下5个章回,感兴趣的小伙伴
80
0
0
0
AI大模型向量数据库云通信
本文是GUI Agent综述的第5篇文章,主要介绍LLM驱动下的各种GUI Agent框架。
50
0
0
0
AI大模型机器学习数据库
OpenAI O1模型引发业界对大规模推理模型(large reasoning models ,LRM)研究的热潮。前文评测结果显示开源的Marco-o1效果不错,甚至超越部分闭源产品。今天这篇小作文将全面介绍Marco-o1的技术细节。
133
0
0
0
AI大模型向量数据库机器学习
小伙伴们好!我是微信公众号“小窗幽记机器学习”的小编卖风火轮的哪吒。很高兴能与小伙伴们分享人工智能领域的前沿技术和思考。今天的主题聚焦于一个激动人心的领域—— 大型语言模型(LLM)驱动的图形用户界面(GUI)智能体(Agent) 。想象一下,通过自然语言发出指令,计算机便能像贴心助手一样完成复杂操作。LLM驱动的GUI Agent正在让这一场景从梦想走向现实。这一领域融合了人工智能、人机交互和软
33
0
0
0
大模型大模型机器学习向量数据库
冰雪林中著此身,不同桃李混芳尘。小伙伴们好,我是微信公众号"小窗幽记机器学习"的小编卖龙椅的汉室宗亲。延续前文:GUI Agent综述:9部曲揭秘下一代人机交互的前世今生-1:总览GUI Agent综述:9部曲揭秘下一代人机交互的前世今生-2:三大技术基石今天这篇小作文主要追溯 LLM 驱动 GUI Agent的演进历程。后续还有以下6个章回,感兴趣的小伙伴可以留意下:GUI Agent综述:4-
25
0
0
0
AI大模型向量数据库机器学习
疏影横斜水清浅,暗香浮动月黄昏。小伙伴们好,我是微信公众号"小窗幽记机器学习"的小编卖龙袍的汉室宗亲。延续前文:GUI Agent综述:9部曲揭秘下一代人机交互的前世今生-1:总览今天这篇小作文主要介绍铸就GUI Agent的 三大技术基石 。后续还有以下7个章回,感兴趣的小伙伴可以留意下:GUI Agent综述:3-GUI Agent的发展历史GUI Agent综述:4-GUI Agent关键组
25
0
0
0
AI大模型向量数据库云通信
简要介绍Google DeepMind最新的多模态成果:PaliGemma 2,并从实战角度实测对比PaliGemma 2、Qwen2-VL、MinCPM-V在各个真实场景下的效果。
31
0
0
0
AI大模型向量数据库机器学习
引言 ========江寒水不流,鱼嚼梅花影。小伙们好,我是卖热干面的小女孩,继续 多模态大模型系列 。紧随前文: 多模态系列 | Google最新开源多模态:PaliGemma 2 简介&实战 ,今天这篇小作文全面解读PaliGemma 2的技术细节。PaliGemma 2是基于Gemma 2语言模型的开源视觉语言模型, 通过结合不同规模的模型和分辨率,微调后的模型在多项任务上取得SOTA。它扩
26
0
0
0
AI大模型向量数据库机器学习
孤村落日残霞,轻烟老树寒鸦,一点飞鸿影下小伙们好,我是卖热干面的小女孩,继续 多模态大模型系列 。紧随前文:多模态系列 | Google最新开源多模态:PaliGemma 2 简介&实战多模态系列 | Google开源多模态:PaliGemma 2技术全面解读今天这篇小作文以多模态模型PaliGemma 2微调为例,从实战角度介绍如何微调多模态大模型。完整的代码请到微信公众号《小窗幽记机器学习》上
26
0
0
0
AI大模型向量数据库机器学习
鉴于前文评测显示Gemini-2.0-flash-thinking模型推理能力强劲且无需绑定信用卡,以下简要介绍如何通过API调用该模型。若仅需体验,可通过官方入口等多种网络渠道访问:https://aistudio.google.com/prompts/new_chat?。 请注意,访问可能需要一定的网络技巧。白嫖额度: 每分钟 10次 请求,每天免费API调用 1500次 。开始前先注册一个G
244
0
0
0
云原生大模型向量数据库机器学习
近期,国内多家大厂与创业公司陆续发布了类 O1 推理模型,主打逻辑推理能力。其中,不少模型更是声称在性能上已大幅超越 OpenAI 的 O1-preview 等竞品。那么,这些 O1 模型的实际表现究竟如何?为此,我们对以下模型进行了全面测试:ChatGPT-4O、Claude-Haiku、Claude-Sonnet、Gemini-2.0-flash-thinking(12 月 19 日上线)、M
48
0
0
0
AI大模型机器学习算法
近日OpenAI团队向我们介绍了他们最新推出的"强化微调"(Reinforcement Fine-Tuning)技术。作为AI界的一大创新,这项技术有望让大型语言模型在特定领域内达到专家级水准。视频见于文末,视频对话文字版稿件(已经翻译为中文),见于另一篇小作文(已同步发送)。传统的监督微调虽然能调整模型的风格和语气等,但无法从根本上提升模型的推理和决策能力。而强化微调则通过强化学习算法,在给定任
53
0
0
0
AI大模型机器学习算法
OpenAI官方在X上发布帖子,“12天、12场直播,一堆大大小小的新东西,OpenAI的12天活动期从今天开始。”以下第2天视频对话内容的中文版。该视频展示了强化微调的逆天效果,可以只用少数样本就达到领域专家水平。中文版对话:Mark: 大家好,我叫 Mark,我是 OpenAI 的研发负责人。昨天,我们推出了 o1 正式版,并在接下来的几天内在 ChatGPT 中向用户推送。o1 的 API
34
0
0
0
AI大模型向量数据库云通信
引言 ========不知庭霰今朝落,疑是林花昨夜开。小伙伴们好,我是卖热干面的小女孩,继续端侧多模态系列,今天要介绍的模型是一款用于屏幕理解的GUI Agent模型,该模型由新加坡国立大学Show Lab和微软共同提出。更多端侧系列大模型可以订阅: 端侧大模型系列 。简介 ========ShowUI是一个视觉-语言-动作模型,旨在构建更高效的GUI助手。该模型通过创新的视觉Token选择、交替
80
0
0
0
开源大模型向量数据库机器学习
引言简介架构训练性能实战总结近年来,多模态领域发展迅猛,涌现出一大批大型视觉语言模型。从最初一味追求计算规模的扩张,到利用大模型生成合成数据以扩展数据多样性,再到近期愈发注重提升模型效率,技术趋势不断演进。如今,小型开源模型的崛起,展现了其独特的优势:它们可以轻松部署到浏览器或边缘设备,显著降低推理成本,同时支持用户自定义,满足更多实际应用场景的需求。典型代表包括 PaliGemma 3B、moo
54
0
0
0