We're sorry but react app doesn't work properly without JavaScript enabled. Please enable it to continue.
文档
备案
控制台
登录
立即注册
首页
文章
问答
视频
活动
下载资源
团队号
镜像站
发布
小窗幽记机器学习
文章
专栏
问答
小窗幽记机器学习
GUI Agent综述 : 7-GUI Agent 模型优化
AI
大模型
向量数据库
机器学习
今天这篇小作文主要介绍 如何利用收集到的数据 训练GUI Agent专用的LLM及其升级版的大型动作模型(LAM),此外还介绍该领域当前主流模型。
11
0
0
0
小窗幽记机器学习
GUI Agent综述 : 8-如何评测GUI Agent?有哪些评测基准?
云原生
大模型
向量数据库
机器学习
时人不识凌云木,直待凌云始道高。小伙伴们好,我是微信公众号"小窗幽记机器学习"的小编卖席梦思的刘皇叔。延续前文:GUI Agent综述-1:总览GUI Agent综述-2:三大技术基石GUI Agent综述-3:发展历程GUI Agent综述-4:GUI Agent核心组件GUI Agent综述-5:GUI Agent框架百家争鸣GUI Agent综述-6:汇总GUI Agent训练数据集GUI
10
0
0
0
小窗幽记机器学习
GUI Agent综述 : 9-GUI Agent应用与未来
AI
大模型
向量数据库
云通信
人生自是有情痴,此恨不关风与月。小伙伴们好,我是卖铁观音的小男孩。延续前文:GUI Agent综述-1:总览GUI Agent综述-2:三大技术基石GUI Agent综述-3:发展历程GUI Agent综述-4:深度解读GUI Agent的核心组件及其最新进展GUI Agent综述-5:GUI Agent框架百家争鸣GUI Agent综述-6:汇总GUI Agent训练数据集GUI Agent综述
8
0
0
0
小窗幽记机器学习
5万字长文全面解读GUI Agent的前世今生
AI
大模型
向量数据库
机器学习
本文是之前GUI Agent综述系列的合订本。GUI Agent综述-1:总览GUI Agent综述-2:三大技术基石GUI Agent综述-3:发展历程GUI Agent综述-4:深度解读GUI Agent的核心组件及其最新进展GUI Agent综述-5:GUI Agent框架百家争鸣GUI Agent综述-6:汇总GUI Agent训练数据集GUI Agent综述-7:GUI Agent 模型
27
0
0
0
小窗幽记机器学习
GUI Agent综述 : 6-汇总GUI Agent训练数据集
AI
向量数据库
大模型
数据库
本文作为GUI Agent综述的第6篇,主要介绍用以优化 GUI Agent 的相关数据集。
54
1
0
1
小窗幽记机器学习
GUI Agent综述 : 4-万字长文深度解读GUI Agent的核心组件及其最新进展
AI
大模型
向量数据库
数据安全
忽然一夜清香发,散作乾坤万里春。小伙伴们好,我是小编卖玉玺的汉室宗亲。延续前文:GUI Agent综述:9部曲揭秘下一代人机交互的前世今生-1:总览GUI Agent综述:9部曲揭秘下一代人机交互的前世今生-2:三大技术基石GUI Agent综述:9部曲揭秘下一代人机交互的前世今生-3:发展历程今天这篇小作文主要剖析组成GUI Agent的核心组件及其最新进展。后续还有以下5个章回,感兴趣的小伙伴
80
0
0
0
小窗幽记机器学习
GUI Agent综述 : 5-GUI Agent框架百家争鸣
AI
大模型
向量数据库
云通信
本文是GUI Agent综述的第5篇文章,主要介绍LLM驱动下的各种GUI Agent框架。
50
0
0
0
小窗幽记机器学习
推理模型专题 | 开源类O1:Marco-o1技术全面解读
AI
大模型
机器学习
数据库
OpenAI O1模型引发业界对大规模推理模型(large reasoning models ,LRM)研究的热潮。前文评测结果显示开源的Marco-o1效果不错,甚至超越部分闭源产品。今天这篇小作文将全面介绍Marco-o1的技术细节。
133
0
0
0
小窗幽记机器学习
GUI Agent综述 : 揭秘GUI智能体的前世今生-1 : 总览篇-启程
AI
大模型
向量数据库
机器学习
小伙伴们好!我是微信公众号“小窗幽记机器学习”的小编卖风火轮的哪吒。很高兴能与小伙伴们分享人工智能领域的前沿技术和思考。今天的主题聚焦于一个激动人心的领域—— 大型语言模型(LLM)驱动的图形用户界面(GUI)智能体(Agent) 。想象一下,通过自然语言发出指令,计算机便能像贴心助手一样完成复杂操作。LLM驱动的GUI Agent正在让这一场景从梦想走向现实。这一领域融合了人工智能、人机交互和软
33
0
0
0
小窗幽记机器学习
GUI Agent综述 : 3-GUI Agent的发展历程
大模型
大模型
机器学习
向量数据库
冰雪林中著此身,不同桃李混芳尘。小伙伴们好,我是微信公众号"小窗幽记机器学习"的小编卖龙椅的汉室宗亲。延续前文:GUI Agent综述:9部曲揭秘下一代人机交互的前世今生-1:总览GUI Agent综述:9部曲揭秘下一代人机交互的前世今生-2:三大技术基石今天这篇小作文主要追溯 LLM 驱动 GUI Agent的演进历程。后续还有以下6个章回,感兴趣的小伙伴可以留意下:GUI Agent综述:4-
25
0
0
0
小窗幽记机器学习
GUI Agent综述 : 2-GUI Agent的三大技术基石
AI
大模型
向量数据库
机器学习
疏影横斜水清浅,暗香浮动月黄昏。小伙伴们好,我是微信公众号"小窗幽记机器学习"的小编卖龙袍的汉室宗亲。延续前文:GUI Agent综述:9部曲揭秘下一代人机交互的前世今生-1:总览今天这篇小作文主要介绍铸就GUI Agent的 三大技术基石 。后续还有以下7个章回,感兴趣的小伙伴可以留意下:GUI Agent综述:3-GUI Agent的发展历史GUI Agent综述:4-GUI Agent关键组
25
0
0
0
小窗幽记机器学习
多模态大模型 | Google最新开源多模态:PaliGemma 2 简介&实战
AI
大模型
向量数据库
云通信
简要介绍Google DeepMind最新的多模态成果:PaliGemma 2,并从实战角度实测对比PaliGemma 2、Qwen2-VL、MinCPM-V在各个真实场景下的效果。
31
0
0
0
小窗幽记机器学习
多模态系列 | Google开源多模态:PaliGemma 2技术全面解读
AI
大模型
向量数据库
机器学习
引言 ========江寒水不流,鱼嚼梅花影。小伙们好,我是卖热干面的小女孩,继续 多模态大模型系列 。紧随前文: 多模态系列 | Google最新开源多模态:PaliGemma 2 简介&实战 ,今天这篇小作文全面解读PaliGemma 2的技术细节。PaliGemma 2是基于Gemma 2语言模型的开源视觉语言模型, 通过结合不同规模的模型和分辨率,微调后的模型在多项任务上取得SOTA。它扩
26
0
0
0
小窗幽记机器学习
多模态系列 | 多模态微调实战:以Google多模态PaliGemma 2为例
AI
大模型
向量数据库
机器学习
孤村落日残霞,轻烟老树寒鸦,一点飞鸿影下小伙们好,我是卖热干面的小女孩,继续 多模态大模型系列 。紧随前文:多模态系列 | Google最新开源多模态:PaliGemma 2 简介&实战多模态系列 | Google开源多模态:PaliGemma 2技术全面解读今天这篇小作文以多模态模型PaliGemma 2微调为例,从实战角度介绍如何微调多模态大模型。完整的代码请到微信公众号《小窗幽记机器学习》上
26
0
0
0
小窗幽记机器学习
如何白嫖最强O1:Gemini-2.0-flash-thinking?
AI
大模型
向量数据库
机器学习
鉴于前文评测显示Gemini-2.0-flash-thinking模型推理能力强劲且无需绑定信用卡,以下简要介绍如何通过API调用该模型。若仅需体验,可通过官方入口等多种网络渠道访问:https://aistudio.google.com/prompts/new_chat?。 请注意,访问可能需要一定的网络技巧。白嫖额度: 每分钟 10次 请求,每天免费API调用 1500次 。开始前先注册一个G
244
0
0
0
小窗幽记机器学习
一局定乾坤!主流O1模型,究竟谁才是地表最强王者?实测对比揭开三足鼎立局面!
云原生
大模型
向量数据库
机器学习
近期,国内多家大厂与创业公司陆续发布了类 O1 推理模型,主打逻辑推理能力。其中,不少模型更是声称在性能上已大幅超越 OpenAI 的 O1-preview 等竞品。那么,这些 O1 模型的实际表现究竟如何?为此,我们对以下模型进行了全面测试:ChatGPT-4O、Claude-Haiku、Claude-Sonnet、Gemini-2.0-flash-thinking(12 月 19 日上线)、M
48
0
0
0
小窗幽记机器学习
年度最强!OpenAI o1推理再升级!引入强化微调技术,轻松打造领域专家模型!真few shot!
AI
大模型
机器学习
算法
近日OpenAI团队向我们介绍了他们最新推出的"强化微调"(Reinforcement Fine-Tuning)技术。作为AI界的一大创新,这项技术有望让大型语言模型在特定领域内达到专家级水准。视频见于文末,视频对话文字版稿件(已经翻译为中文),见于另一篇小作文(已同步发送)。传统的监督微调虽然能调整模型的风格和语气等,但无法从根本上提升模型的推理和决策能力。而强化微调则通过强化学习算法,在给定任
53
0
0
0
小窗幽记机器学习
OpenAI 12天直播:Day2(强化微调)-中文版对话稿
AI
大模型
机器学习
算法
OpenAI官方在X上发布帖子,“12天、12场直播,一堆大大小小的新东西,OpenAI的12天活动期从今天开始。”以下第2天视频对话内容的中文版。该视频展示了强化微调的逆天效果,可以只用少数样本就达到领域专家水平。中文版对话:Mark: 大家好,我叫 Mark,我是 OpenAI 的研发负责人。昨天,我们推出了 o1 正式版,并在接下来的几天内在 ChatGPT 中向用户推送。o1 的 API
34
0
0
0
小窗幽记机器学习
端侧多模态 | 屏幕智能GUI Agent开源新秀技术解读&实战
AI
大模型
向量数据库
云通信
引言 ========不知庭霰今朝落,疑是林花昨夜开。小伙伴们好,我是卖热干面的小女孩,继续端侧多模态系列,今天要介绍的模型是一款用于屏幕理解的GUI Agent模型,该模型由新加坡国立大学Show Lab和微软共同提出。更多端侧系列大模型可以订阅: 端侧大模型系列 。简介 ========ShowUI是一个视觉-语言-动作模型,旨在构建更高效的GUI助手。该模型通过创新的视觉Token选择、交替
80
0
0
0
小窗幽记机器学习
端侧多模态 | HuggingFace端侧家族新成员解读&实战
开源
大模型
向量数据库
机器学习
引言简介架构训练性能实战总结近年来,多模态领域发展迅猛,涌现出一大批大型视觉语言模型。从最初一味追求计算规模的扩张,到利用大模型生成合成数据以扩展数据多样性,再到近期愈发注重提升模型效率,技术趋势不断演进。如今,小型开源模型的崛起,展现了其独特的优势:它们可以轻松部署到浏览器或边缘设备,显著降低推理成本,同时支持用户自定义,满足更多实际应用场景的需求。典型代表包括 PaliGemma 3B、moo
54
0
0
0