小伙伴们,大家好啊,我是甲木!
在端午节前,5月30号的时候,甲木去参加了 小红书AI开发者 × 谷歌的线下Mingle交流会 !
还获得了「主持人」体验卡一张
见到了很多优秀的独立开发者和谷歌小红书的各位老师们,现场气氛活跃,整个过程完全就是一场酣畅淋漓的AI思维冲浪,那叫一个过瘾!
今天,甲木就带大家“穿越”回活动现场,一起感受那份属于技术人的热情与智慧!
当小红书遇上谷歌I/O,火花四溅!
今年谷歌的 Google I/O 大会 相信大家都不陌生,发布了一堆好玩意儿,各种黑科技、新模型、未来趋势,简直就是一场科技界的“奥斯卡”盛典。
而咱们 小红书 ,作为 Google I/O 中国区的「首席内容合作平台」 ,这次也是全程高能在线,小红书社区的AI氛围直接拉满!
大会虽然结束了,但大佬们的分享还在脑子里盘旋,那些激动人心的技术突破还在引发着一轮又一轮的思考。
所以呢,为了让这份思考持续发酵,让智慧的火花碰撞出更耀眼的光芒,小红书AI开发者代表团 就和来自 小红书及谷歌的老师们 ,在谷歌中国的大本营——北京研发中心,搞了这么一场小范围、真交流的技术对谈 。
目标很纯粹:聊聊AI、聊聊开发、聊聊咱们作为创作者如何表达,以及最重要的——聊聊未来!
能有机会主持这样一场干货满满的交流会,甲木荣幸之至。
Mingle精彩回顾
Part 1:开场与陆总致辞
活动伊始,作为主持人,甲木我先给大家暖了个场,介绍了这次活动的来龙去脉。
紧接着,我们就迎来了重量级嘉宾——谷歌北京研发中心总经理 陆韵晟(陆总) 的开场致辞。
陆总的发言,完全展现了谷歌在AI领域的深厚底蕴和前瞻布局,更表达了对中国开发者社区的重视和期待。
他强调了开放、合作对于技术创新的重要性,也鼓励我们这些开发者们勇敢拥抱AI带来的变革。
当然,这里最让我兴奋的是Google作为巨头公司在技术创新和社会责任上面的担当.. 视障盲人的导引线等等,各种公益活动,点赞。
Part 2:Google I/O 亮点回顾
开场之后,气氛逐渐热烈起来。在刚刚结束的Google I/O上,谷歌可是扔出了一堆“王炸”!
为了让大家更直观地感受到这些技术的魅力,我们特别邀请了 Google 的刘士君老师 ,为我们深度解读Google I/O的那些“炸场亮点”。
刘老师的分享干货十足,她系统地梳理了谷歌在 大模型 ,特别是 Gemini 系列模型 的最新进展,以及在 多媒体素材生成 ,如视频生成、语音生成、图片生成等方面的突破。
她特别提到了像 推理模型 (比如 2.5 和 2.5 flash)在处理高度复杂场景,如数学解题 、物理理解 、多模态视频图片复杂理解 、 代码生成 乃至 智能体构建 中的强大能力。
那些媒体生成模型,就像神笔马良的笔,你说一句话,它就能给你画出对应的图片,甚至生成一段视频、一段语音,而且越来越逼真,越来越懂你的“小心思”。比如提到的
jennie TTS模型,就能通过大语言模型对提示词的理解,生成更符合你心意的音色和语调。
live API视频流直播服务,更是让实时互动内容创作有了新的可能。Project Astra 的演示,也预示着谷歌在构建环境感知、理解和输出完整体系方面的雄心。
甲木觉得,谷歌在AI基础设施和多模态能力上的持续投入,正在为我们这些应用层开发者和内容创作者铺设越来越宽广的“高速公路”。
我们无需重复造轮子,而是可以站在巨人的肩膀上,利用这些强大的底层能力,去实现更多以前不敢想的创意。
Part 3:AI议题灵魂拷问 (Q&A)
在交流会前,我们就通过小红书平台,向广大开发者征集了许多大家普遍关注的AI相关议题。然后特别荣幸地邀请到了来自 谷歌和小红书的技术老师们 ,现场解答大家的困惑。
有保密要求,有些老师名字直接某某代称~
主要讨论了以下几个“灵魂拷问”:
Q1: Gemini 模型与 OpenAI 的 GPT、Claude 等模型相比,能力如何?AI 音频技术发展到哪一步了?下一阶段的突破点和产品机会在哪里?是否会走向 Sora 式的多模态融合?
- 心光开发者 王禹效老师
提到,像
Gemini 2.5 pro,GPT,Claude4这些模型,各有优势,很难说哪个是绝对的最佳选择。在具体应用中,比如“粘合”(整合不同能力),上下文宽度非常重要。他认为,将不同模型的优势组合起来,比如用O3做任务拆解和规划,使用Gemini解决多模态问题,再用Claude Agent生成代码,会是更优的方案。 - 小红书某老师
从AI音频的角度分享,他认为过去2-3年,基于大模型的AI技术发生了巨大变化,催生了许多音频相关的衍生应用,比如云端语音合成。像
eleven club这样的创业公司估值已达数亿美元,音乐生成领域AI的估值也在5亿美元左右。电影解说中的语音合成,已经从固定音色转变为模仿电影角色。技术门槛降低,但对资金的需求也很大。他认为,目前人力成本依然较高,语音合成(定制化语音)还停留在消费级,艺术性有待提升。 音乐与艺术的结合 ,将是下一阶段的重点突破方向。他还提到,多模态融合是必然趋势,视频生成离不开模型本身。
甲木的几点启发:
1、模型选择:没有银弹,组合为王。
不同的大模型就像不同风格的武林高手,各有擅长的招式。想解决复杂问题,单靠一位高手可能不行,得学会排兵布阵,让不同模型协同作战,取长补短。
2、AI音频:从“能听”到“好听”再到“动听”。
AI音频与艺术的融合,这点太棒了!AI语音合成已经解决了“能说话”的问题,现在正在向“说得好听、有感情”进化。
3、多模态是大势所趋。
文字、图像、音频、视频,这些感官信息的界限正在被AI打破。未来的应用,一定是多种模态深度融合的体验。
Q2: 在产品开发中,AI 究竟是辅助还是核心?我们应当如何重构产品开发的角色分工和核心流程?
- 谷歌的老师
认为,AI在产品研发中的角色正在从
辅助 (Pilot)
走向
主驾 (Driver)
。他观察到,客户的整个产业团队都在发生变化。以前,AI是辅助,比如写代码、做设计、内容创作。现在,AI可以成为主导,你给它任务,它就能帮你把整个东西设计出来,比如 Character.ai 这样的应用。UI设计也从传统的页面交互变成了
对话式交互
,更注重用户体验。他还提到,AI设计过程面临透明度、可控性和隐私保护的挑战。工程师的角色也从写代码,变成了更多地关注如何将不同模型高效结合,以及如何处理
embedding和RAG等之前不常涉及的技术。 - 小红书的老师 从算法和研发的角度分享,他感觉产品和研发的边界越来越模糊。AI逐渐从辅助走向核心。以前是研发提需求、写PRD、自己试验,现在是大家逐渐围绕AI重塑产品核心。研发也在通过其他方式或自研项目实现脑子里的产品。
- 谷歌的另一老师
提到,他们对接的客户中出现了一种新的类型——
智能级客户 (Intelligent-level Customer)。比如做通用智能体的
manus,可以帮你做PPT、做网页,还有做AI编程、智能体的客户。目前AI还是辅助角色,比如写代码时和AI对话,AI帮助生成代码、查bug。但未来可能是** 终极模式 (Ultimate Mode)** ,SA Agents(System Agents) 可以自己思考要做什么,自己调用工具,自主构建开发流程,无需外部人工干预。甚至有客户想挑战让模型连续编程8小时,自主产生新代码和内容。
甲木的几点启发:
1、AI:从副驾驶到主驾驶,甚至成为“自动驾驶系统”
以前,AI像个实习生,帮我们打打杂、跑跑腿。现在,它越来越像个经验丰富的核心骨干,能独立承担重要任务。未来,它甚至可能成为整个项目的“总设计师”和“总工程师”,我们人类则更多地扮演“领航员”和“质检员”的角色。
这一点,其实我们在很多场景已经是这么做的了...
2、人机协同新范式:我们负责“想”,AI负责“干”。
未来可能是,我们提出一个“小想法”或“大目标”,然后和AI一起,把它变成现实。
这个过程中,人的价值更多地体现在创意、策略、以及对AI产出结果的判断和优化上。
3、对开发者的挑战与机遇
传统的“码农”可能会面临转型压力,但懂得如何与AI高效协作、如何设计和引导AI完成复杂任务的“AI赋能工程师”将变得炙手可热。
Q3: 垂直行业的 Agent 产品是否存在真正的可落地机会?如何利用垂类大模型打造行业级 AI 解决方案?
- 谷歌的老师 分享了他对TTA在行业应用中的看法。他认为,通用大模型像一个“呆在家里的人”,需要把它“拉出去”到具体的场景中干活。这个场景就是 行业 (Industry) 。大模型最终会落到每个行业,甚至每个细分领域。因为不同行业的痛点和需求是不同的,需要专门的“驯化 (Finetuning)”和优化。他看到了三种主要的落地机会:
- 内容创作: 这是最明显的,比如视频创作、小说、图片、音乐,尤其在电商领域应用广泛。
- 流程化: 以前大模型思考推理强但执行弱,现在通过挂载不同的Agent,可以实现流程自动化。例如AI Agent的营销机器人,能打电话、聊天、查资料。
- 情感维护/自学辅导: 比如一对一的交流、教培行业的个性化指导。 他总结,关键在于 解决用户的痛点和需求 ,这个逻辑是顺理成章的。
- 小红书的老师 补充道,不需要过多纠结于通用还是垂直。重要的是快速迭代、创造价值。垂类创业者或公司有很多基础能力可以利用。通用能力(如大模型)可以帮助减少研发工作,利用通用能力结合自身业务场景,是一个很好的契机。
甲木的几点启发:
1、Agent落地:从“万金油”到“行业专家”
通用大模型虽然强大,但要真正在行业里发光发热,还得“入乡随俗”,针对特定场景进行深度定制和优化,变成懂行的“专家Agent”。
2、哪里有重复劳动,哪里就有Agent的身影。
内容生产、重复性流程、个性化服务,这些都是Agent大显身手的好地方。
3、创业者:站在巨人的肩膀上,解决真问题。
对于创业公司来说,没必要死磕底层大模型,完全可以利用现有的通用模型和平台能力,结合自己对行业的深刻理解,去解决那些实实在在的痛点。
这叫“借力打力”,四两拨千斤!
Part 4:自由发言:I/O大会,我最爱哪个“崽”?
激烈的Q&A环节过后,就到了现场开发者的开启了自由交流环节:“在这次Google I/O大会上,大家觉得最亮眼、最让你心动的技术是什么呢?”
这个问题一抛出,大家纷纷打开了话匣子。
- 甲木我先抛个砖: 我个人对 Veo 3 的那个音画同步视频生成模型 印象非常深刻。以前我们做视频,AI生成画面后,配音、对口型是个非常繁琐的工作,尤其是打斗场景的音效,简直是噩梦。Veo能做到音画同步,这极大地提升了AI视频的表现力。虽然目前可能还有一些速度上的问题,但这个方向绝对是惊艳的!
- 一位朋友 也对 Veo 赞不绝口。他提到,以前的生成式AI视频只能出画面,要配口型非常困难。Veo是第一个能直接生成带口型、音画同步视频的产品,这让他非常惊讶。他用Gemini做开发时,可以直接填很长的上下文,非常方便。
- 另一位朋友 提到了三个让他惊艳的点:
- 深度研究 (Deep Research) 功能: 虽然当天演示时有点“破功”,但升级后一次性做深度研究,完成后一键申请其他多模态结果,这个效率太高了!
- notebookLM: 这个产品能直接生成内容并打包成播客或APP,非常惊艳。
- 面对面3D沉浸式视频通话: 这个硬件产品让他觉得很有意思,开玩笑说“让周末老板身临其境给你布置作业”。
大家的兴奋点高度一致——多模态、智能化、以及更自然的交互!
Part 5:开发者Minitalk:实战派的真知灼见
自由交流意犹未尽,接下来就是咱们精心准备的 Minitalk 环节 !
我们邀请了6位奋战在AI应用一线的开发者代表,分享他们的产品、技术选型以及在AI浪潮中的独到见解。给我们带来不一样的火花!
让我们来开始介绍:
1. 白描创始人 - 陶新乐老师:独立开发者的AI生存法则
陶老师是独立开发者圈子里的前辈了,他的APP“白描”拥有近2000万用户,非常了不起。
- 核心观点:
- AI在OCR方面的帮助: AI的接入帮助他们提升了开发效率。但目前OCR领域,很多大模型的表现还没有超越传统的自研OCR技术。
- 独立开发者的成本考量: 做APP时,成本是首要考虑因素。比如接入云服务、API的费用,收益能否覆盖。因此,他们会尽量在端侧处理图像视频流量,减少云服务支出。
- 保持独立思考,不被带偏: 这是独立开发者非常重要的一点。
- 技术壁垒与设计壁垒: AI时代,单纯的技术壁垒很容易被AI生成所取代。可能后发者用AI就能快速做出类似产品并推广得更好。
- 盈利模式: 订阅制可能是独立开发者更合理的盈利模式,优于广告或买断。
- 灵感来源: 置身于“开发者状态”,在生活中不断发现需求点。一个技术点的突破,也可能催生伟大的产品 。
- 陌生边缘需求: 关注自己不熟悉的领域,可能会有新发现。
- 做之前判断能不能做: 看市面上是否有相似产品,发展程度如何。如果一个点子完全没有人在做,可能也没必要做。
- 先做出来,再好好推广。
陶老师的分享充满了独立开发者的智慧与务实。
在AI时代,独立开发者面临着新的机遇和挑战。
AI是双刃剑: 它可以降低开发门槛,但也可能让你的“护城河”瞬间消失。
小而美,也要能活下去: 成本控制、合理的盈利模式、持续的创新能力,是独立开发者在激烈竞争中生存和发展的关键。
从“小需求”到“大产品”: 很多成功的产品都源于对一个微小痛点的极致解决。保持敏感,深耕细作,AI或许能帮你把“小而美”做得更“强”。
AI时代,独立开发者想活得好,就得像精打细算的“掌柜”一样,既要会“开源”(找到真需求,做好产品),更要会“节流”(控制成本,务实盈利),真实力永远是硬通货!
2. 林间聊愈室创始人 - 李神龙老师:AI与孤独感经济的探索
李老师关注的是一个非常独特的领域——用AI解决现代人的孤独感。
- 核心观点:
- 孤独感的普遍性: 现代社会,孤独感是一个日益凸显的问题。
- AI在情感陪伴中的潜力: AI可以作为一种工具,提供情感支持和陪伴。
- 价值主张先行: 他们的产品强调品牌和价值主张,而不仅仅是功能。用户聚拢到产品,是因为认同其理念。
- 副语言信息的翻译: 除了文字内容,AI如何理解和翻译语气、语调、停顿等副语言信息,对于情感交流至关重要。(梅拉宾法则:视觉55%,声音38%,语言7%)
- 语言的前置性信息: 语言的背后承载着丰富的文化、背景和个人经历,AI需要更深层次地理解这些。
- 认知革命与语言: 7万年前,智人因基因突变产生语言能力,这使得人类可以描述不存在的事物(宗教、八卦),从而形成大规模协作。语言的运用效率和深度,是人类发展的关键。
李老师的分享打开了一个全新的视角——AI不仅是生产力工具,更可以成为情感的载体。
AI不止有冰冷的算法,更能承载温暖的情感;探索孤独的商业密码,价值主张比纯粹功能更能触达人心深处。
这里学到最多的是,当AI实现了每个人的技术平权,你的产品在技术层面没有太强的护城河,这时候,你就需要依赖你的产品的核心价值主张! 真正吸引到同频的人~
3. 好事发生创始人 - 王梦珂老师:小红书生态中的美好记录者
王老师的产品“好事发生”是一款在小红书上非常受欢迎的记录美好瞬间的APP。
- 核心观点:
- 高感受力人群的需求: 他们的用户是那些对生活有细腻感知、乐于记录和分享的人。
- 安静有仪式感的记录场所: 产品提供了一个美好的笔记本体验。
- 正向反馈的重要性: 投资人的“会心一笑”,用户的喜爱,都是驱动他们前进的动力。
- 从小红书获取80%以上的单纯增长: 平台的助力非常关键。
- 解决不快乐的问题: 通过记录三件好事来唤醒快乐的感受能力。
- 第一天就挣钱的商业闭环: 重视商业模式,不盲目追求免费。
- 爱我们的天使轮用户: 珍惜早期用户,他们是产品活力的源泉。
用心记录生活中的“小确幸”,也能汇聚成商业上的“大能量”;依托优质社区,真诚服务高感知用户,美好本身就是一种商业模式。
「打动人的从来不是“高效”,而是“共感”」 ,王老师的分享充满了理想主义和对用户的真诚。一个能够带来正向价值的产品,即使“小而美”,也能拥有强大的生命力。
4. 犬岛创始人 - 江宇老师:AI时代的社交产品新思考
江老师对AI时代的社交产品有着独到的见解。
- 核心观点:
- AI编程拉低了门槛: AI让低级和高级程序员的界限变得模糊。
- AI重塑内容审核与风控: 这对于社交产品至关重要。
- 社交Agent的概念: 未来社交产品中,AI可能不仅仅是工具,而是人与人之间的“介质”,甚至可以主动发起提问和引导交流。
- 上下文长度和成本是AI社交的局限: 目前AI对话的成本还比较高。
- 希望谷歌降低AI价格,让应用层能更好地做产品。
江老师的分享聚焦于AI对社交产品底层逻辑的改变。
在社交领域,AI的潜力远不止于此。它可以是“破冰者”,是“话题引导员”,甚至是“情感调解师”。
未来的社交,会不会是“人与人+AI”的混合模式?AI帮助我们打破隔阂,建立更深度的连接。
AI正在重塑社交的底层逻辑,未来社交可能不再是人与人的直接对话,而是**“人+AI+人”** 的奇妙共振,技术成本是钥匙,用户体验是王道。
5. Inspired AI 创始人 - 贾子建老师:AI重塑语言学习之路
贾子建老师的 Inspired AI 致力于用AI技术革新语言学习的方式。他的分享充满了对教育本质的思考和对技术应用的巧思。
- 核心观点:
- 语言学习的本质是“无限制输入,自由输出”: 他倡导一种更自然、更符合语言习得规律的学习理念。不是死记硬背,而是通过大量的、可理解的输入,培养语感,最终实现自然的输出。
- AI在个性化学习路径上的潜力: 传统语言学习的痛点在于“一刀切”,难以满足个体差异。AI可以通过对用户水平的实时评估,推荐个性化的学习内容(例如,根据用户的英语水平和兴趣,推荐合适的播客或文章)。
- 多语言能力的价值与AI翻译的边界: 虽然AI翻译越来越强大,但真正掌握一门外语,带来的认知优势和文化理解是机器翻译无法替代的。AI可以辅助我们学习语言,而不是完全取代我们学习的必要性。他提到,他们的产品会做全球化,支持多种语言,但会根据用户的反馈和需求,有策略地进行。
- 注重用户反馈和数据驱动: 他们非常关注海外用户的反馈,并通过数据分析(比如发现小红书上有30%的自家账号)来指导运营和产品迭代。
- “单据播放模式”等针对特定场景的创新: 比如针对小红书用户,他们开发了“单据播放模式”,方便用户在刷小红书的同时学习语言,这种对用户场景的细致洞察值得学习。
- 内容传播与笔记生成的有机结合: 鼓励用户在学习过程中记录笔记,并通过这些笔记的传播,吸引更多用户。
AI不仅仅是提供答案的工具,更可以成为激发学习兴趣、培养自主学习能力的伙伴。它能让学习过程更个性化、更高效、也更有趣。
未来的语言学习,可能不再是孤独的苦读,而是与AI教练一起,在真实的语境中、在感兴趣的内容里,轻松愉快地提升。
AI赋能语言学习,不是简单地“喂知识”,而是要打造个性化的“陪练场”;让学习回归兴趣与场景,技术才能真正点燃求知欲的火花。
6. 心光创始人 - 王禹效老师:AI是辅助还是重塑?认知与效率的进化
王禹效老师的心光,关注的是AI如何辅助甚至重塑人类的认知和工作方式。他的分享引发了大家对于“AI时代,人的价值何在”的深层思考。
- 核心观点:
- AI辅助人类的认知升级: 王老师认为,AI不仅仅是工具,它正在改变我们思考和解决问题的方式。他提到
2024年AI辅助人类变质,AI太笨,人类主体,而到了2026年,自动化编程,人类提问题,AI自己变成5分钟、10分钟或3小时完成。这预示着人类的角色将从执行者转变为思考者和提问者。 - 面对AI,放下“存量思维”: 他认为,我们不应该用过去的经验和标准来框定AI的能力和未来的可能性。要敢于承认自己的“无知”,拥抱新的知识和工作方式。
- AI时代的“设计”与“代码”: 他认为,未来设计和代码的界限会越来越模糊。真正的核心在于理解问题、提出解决方案,并将这个方案清晰地传达给AI。AI会成为我们意志的延伸,帮助我们高效地实现想法。
王老师的分享充满了哲思,也给身处AI浪潮中的我们敲响了警钟。
重新定义“能力”: AI时代,死记硬背的知识、重复性的技能,价值会逐渐降低。而提出好问题的能力、定义目标的能力、跨界整合的能力、与AI高效协作的能力,将成为新的核心竞争力。
终身学习,拥抱不确定性: 技术的发展日新月异,唯一不变的就是变化本身。保持开放的心态,持续学习,才能在AI时代立于不败之地。
人的价值:从“执行”到“创造”与“决策”。 AI可以帮助我们更高效地执行任务,但最终的创造性火花、伦理判断和战略决策,仍然掌握在人类手中。
面对AI浪潮,最可怕的不是被取代,而是固守“存量思维”;拥抱不确定性,提升“提问力”和“整合力”,方能与AI共舞,成为时代的弄潮儿。
听完六位先行者的分享,甲木我真是受益匪浅。
每一位创业者带来的精彩内容,都值得我们去思考,打磨自己的产品,给自己未来在AI时代找到一条路。感谢!
连接、共创、向未来!
这场 小红书AI开发者代表团与谷歌的Mingle ,
确实是收获满满,每一位嘉宾分享的干货都打开了新思路,
而小红书和谷歌搭建了这样一个平台,让不同背景、不同领域的开发者们能够齐聚一堂,分享见解,碰撞思想。
这种连接,本身就是一种巨大的价值。
感谢小红书,感谢Google~
虽然AI巨头们在引领方向,但每一位独立的开发者、每一位用心的创作者,他们的思考、他们的实践、他们的产品,都在为这个时代贡献着独特的色彩。
技术在快速更迭,一些人抓住变化,一些人引领变化。我们期待,更多令人兴奋的 Aha moment 在我们之中发生!
共勉!
觉得今天的内容让你对AI目前的落地应用有帮助吗?
请用你发财的小手,给甲木一个【点赞👍】+【在看👀】+【转发↗️】三连吧!
你的支持是我持续输出干货的最大动力!
也欢迎在评论区留下你对Google I/O的看法,或者你认为AI未来最值得期待的应用方向!我们一起交流,共同进步!
与我联系
下次见!保持好奇,保持创造!🌟
