不只是技术！小红书×谷歌Mingle：一场关于AI、创造与未来的深度对话（附六大独立产品） - 文章 - 开发者社区

小伙伴们，大家好啊，我是甲木！

在端午节前，5月30号的时候，甲木去参加了 小红书AI开发者 × 谷歌的线下Mingle交流会 ！

picture.image

还获得了「主持人」体验卡一张

见到了很多优秀的独立开发者和谷歌小红书的各位老师们，现场气氛活跃，整个过程完全就是一场酣畅淋漓的AI思维冲浪，那叫一个过瘾！

今天，甲木就带大家“穿越”回活动现场，一起感受那份属于技术人的热情与智慧！

当小红书遇上谷歌I/O，火花四溅！

今年谷歌的 Google I/O 大会 相信大家都不陌生，发布了一堆好玩意儿，各种黑科技、新模型、未来趋势，简直就是一场科技界的“奥斯卡”盛典。

picture.image

而咱们 小红书 ，作为 Google I/O 中国区的「首席内容合作平台」 ，这次也是全程高能在线，小红书社区的AI氛围直接拉满！

picture.image

大会虽然结束了，但大佬们的分享还在脑子里盘旋，那些激动人心的技术突破还在引发着一轮又一轮的思考。

所以呢，为了让这份思考持续发酵，让智慧的火花碰撞出更耀眼的光芒，小红书AI开发者代表团 就和来自 小红书及谷歌的老师们 ，在谷歌中国的大本营——北京研发中心，搞了这么一场小范围、真交流的技术对谈 。

picture.image

目标很纯粹：聊聊AI、聊聊开发、聊聊咱们作为创作者如何表达，以及最重要的——聊聊未来！

能有机会主持这样一场干货满满的交流会，甲木荣幸之至。

Mingle精彩回顾

Part 1：开场与陆总致辞

活动伊始，作为主持人，甲木我先给大家暖了个场，介绍了这次活动的来龙去脉。

紧接着，我们就迎来了重量级嘉宾——谷歌北京研发中心总经理陆韵晟（陆总） 的开场致辞。

picture.image

陆总的发言，完全展现了谷歌在AI领域的深厚底蕴和前瞻布局，更表达了对中国开发者社区的重视和期待。

他强调了开放、合作对于技术创新的重要性，也鼓励我们这些开发者们勇敢拥抱AI带来的变革。

picture.image

当然，这里最让我兴奋的是Google作为巨头公司在技术创新和社会责任上面的担当.. 视障盲人的导引线等等，各种公益活动，点赞。

Part 2：Google I/O 亮点回顾

开场之后，气氛逐渐热烈起来。在刚刚结束的Google I/O上，谷歌可是扔出了一堆“王炸”！

为了让大家更直观地感受到这些技术的魅力，我们特别邀请了 Google 的刘士君老师 ，为我们深度解读Google I/O的那些“炸场亮点”。

刘老师的分享干货十足，她系统地梳理了谷歌在 大模型 ，特别是 Gemini 系列模型 的最新进展，以及在 多媒体素材生成 ，如视频生成、语音生成、图片生成等方面的突破。

picture.image

她特别提到了像 推理模型 （比如 2.5 和 2.5 flash）在处理高度复杂场景，如数学解题 、物理理解 、多模态视频图片复杂理解、代码生成 乃至 智能体构建 中的强大能力。

那些媒体生成模型，就像神笔马良的笔，你说一句话，它就能给你画出对应的图片，甚至生成一段视频、一段语音，而且越来越逼真，越来越懂你的“小心思”。比如提到的 jennie TTS 模型，就能通过大语言模型对提示词的理解，生成更符合你心意的音色和语调。

live API 视频流直播服务，更是让实时互动内容创作有了新的可能。

Project Astra 的演示，也预示着谷歌在构建环境感知、理解和输出完整体系方面的雄心。

甲木觉得，谷歌在AI基础设施和多模态能力上的持续投入，正在为我们这些应用层开发者和内容创作者铺设越来越宽广的“高速公路”。

我们无需重复造轮子，而是可以站在巨人的肩膀上，利用这些强大的底层能力，去实现更多以前不敢想的创意。

Part 3：AI议题灵魂拷问 (Q&A)

在交流会前，我们就通过小红书平台，向广大开发者征集了许多大家普遍关注的AI相关议题。然后特别荣幸地邀请到了来自 谷歌和小红书的技术老师们 ，现场解答大家的困惑。

有保密要求，有些老师名字直接某某代称~

主要讨论了以下几个“灵魂拷问”：

Q1: Gemini 模型与 OpenAI 的 GPT、Claude 等模型相比，能力如何？AI 音频技术发展到哪一步了？下一阶段的突破点和产品机会在哪里？是否会走向 Sora 式的多模态融合？

心光开发者王禹效老师 提到，像 Gemini 2.5 pro , GPT , Claude4 这些模型，各有优势，很难说哪个是绝对的最佳选择。在具体应用中，比如“粘合”（整合不同能力），上下文宽度非常重要。他认为，将不同模型的优势组合起来，比如用 O3 做任务拆解和规划，使用 Gemini 解决多模态问题，再用 Claude Agent 生成代码，会是更优的方案。
小红书某老师 从AI音频的角度分享，他认为过去2-3年，基于大模型的AI技术发生了巨大变化，催生了许多音频相关的衍生应用，比如云端语音合成。像 eleven club 这样的创业公司估值已达数亿美元，音乐生成领域AI的估值也在5亿美元左右。电影解说中的语音合成，已经从固定音色转变为模仿电影角色。技术门槛降低，但对资金的需求也很大。他认为，目前人力成本依然较高，语音合成（定制化语音）还停留在消费级，艺术性有待提升。 音乐与艺术的结合 ，将是下一阶段的重点突破方向。他还提到，多模态融合是必然趋势，视频生成离不开模型本身。

甲木的几点启发：

1、模型选择：没有银弹，组合为王。

不同的大模型就像不同风格的武林高手，各有擅长的招式。想解决复杂问题，单靠一位高手可能不行，得学会排兵布阵，让不同模型协同作战，取长补短。

2、AI音频：从“能听”到“好听”再到“动听”。

AI音频与艺术的融合，这点太棒了！AI语音合成已经解决了“能说话”的问题，现在正在向“说得好听、有感情”进化。

3、多模态是大势所趋。

文字、图像、音频、视频，这些感官信息的界限正在被AI打破。未来的应用，一定是多种模态深度融合的体验。

Q2: 在产品开发中，AI 究竟是辅助还是核心？我们应当如何重构产品开发的角色分工和核心流程？

谷歌的老师 认为，AI在产品研发中的角色正在从 辅助 (Pilot) 走向 主驾 (Driver) 。他观察到，客户的整个产业团队都在发生变化。以前，AI是辅助，比如写代码、做设计、内容创作。现在，AI可以成为主导，你给它任务，它就能帮你把整个东西设计出来，比如 Character.ai 这样的应用。UI设计也从传统的页面交互变成了 对话式交互 ，更注重用户体验。他还提到，AI设计过程面临透明度、可控性和隐私保护的挑战。工程师的角色也从写代码，变成了更多地关注如何将不同模型高效结合，以及如何处理 embedding 和 RAG 等之前不常涉及的技术。
小红书的老师 从算法和研发的角度分享，他感觉产品和研发的边界越来越模糊。AI逐渐从辅助走向核心。以前是研发提需求、写PRD、自己试验，现在是大家逐渐围绕AI重塑产品核心。研发也在通过其他方式或自研项目实现脑子里的产品。

picture.image

谷歌的另一老师 提到，他们对接的客户中出现了一种新的类型—— 智能级客户 (Intelligent-level Customer)。比如做通用智能体的 manus，可以帮你做PPT、做网页，还有做AI编程、智能体的客户。目前AI还是辅助角色，比如写代码时和AI对话，AI帮助生成代码、查bug。但未来可能是** 终极模式 (Ultimate Mode)** ， SA Agents (System Agents) 可以自己思考要做什么，自己调用工具，自主构建开发流程，无需外部人工干预。甚至有客户想挑战让模型连续编程8小时，自主产生新代码和内容。

甲木的几点启发：

1、AI：从副驾驶到主驾驶，甚至成为“自动驾驶系统”

以前，AI像个实习生，帮我们打打杂、跑跑腿。现在，它越来越像个经验丰富的核心骨干，能独立承担重要任务。未来，它甚至可能成为整个项目的“总设计师”和“总工程师”，我们人类则更多地扮演“领航员”和“质检员”的角色。

这一点，其实我们在很多场景已经是这么做的了...

picture.image

2、人机协同新范式：我们负责“想”，AI负责“干”。

未来可能是，我们提出一个“小想法”或“大目标”，然后和AI一起，把它变成现实。

这个过程中，人的价值更多地体现在创意、策略、以及对AI产出结果的判断和优化上。

3、对开发者的挑战与机遇

传统的“码农”可能会面临转型压力，但懂得如何与AI高效协作、如何设计和引导AI完成复杂任务的“AI赋能工程师”将变得炙手可热。

picture.image

Q3: 垂直行业的 Agent 产品是否存在真正的可落地机会？如何利用垂类大模型打造行业级 AI 解决方案？

谷歌的老师 分享了他对TTA在行业应用中的看法。他认为，通用大模型像一个“呆在家里的人”，需要把它“拉出去”到具体的场景中干活。这个场景就是 行业 (Industry) 。大模型最终会落到每个行业，甚至每个细分领域。因为不同行业的痛点和需求是不同的，需要专门的“驯化 (Finetuning)”和优化。他看到了三种主要的落地机会：

内容创作: 这是最明显的，比如视频创作、小说、图片、音乐，尤其在电商领域应用广泛。
流程化: 以前大模型思考推理强但执行弱，现在通过挂载不同的Agent，可以实现流程自动化。例如AI Agent的营销机器人，能打电话、聊天、查资料。
情感维护/自学辅导: 比如一对一的交流、教培行业的个性化指导。他总结，关键在于 解决用户的痛点和需求 ，这个逻辑是顺理成章的。

小红书的老师 补充道，不需要过多纠结于通用还是垂直。重要的是快速迭代、创造价值。垂类创业者或公司有很多基础能力可以利用。通用能力（如大模型）可以帮助减少研发工作，利用通用能力结合自身业务场景，是一个很好的契机。

甲木的几点启发：

1、Agent落地：从“万金油”到“行业专家”

通用大模型虽然强大，但要真正在行业里发光发热，还得“入乡随俗”，针对特定场景进行深度定制和优化，变成懂行的“专家Agent”。

2、哪里有重复劳动，哪里就有Agent的身影。

内容生产、重复性流程、个性化服务，这些都是Agent大显身手的好地方。

3、创业者：站在巨人的肩膀上，解决真问题。

对于创业公司来说，没必要死磕底层大模型，完全可以利用现有的通用模型和平台能力，结合自己对行业的深刻理解，去解决那些实实在在的痛点。

这叫“借力打力”，四两拨千斤！

Part 4：自由发言：I/O大会，我最爱哪个“崽”？

激烈的Q&A环节过后，就到了现场开发者的开启了自由交流环节：“在这次Google I/O大会上，大家觉得最亮眼、最让你心动的技术是什么呢？”

这个问题一抛出，大家纷纷打开了话匣子。

甲木我先抛个砖： 我个人对 Veo 3 的那个音画同步视频生成模型 印象非常深刻。以前我们做视频，AI生成画面后，配音、对口型是个非常繁琐的工作，尤其是打斗场景的音效，简直是噩梦。Veo能做到音画同步，这极大地提升了AI视频的表现力。虽然目前可能还有一些速度上的问题，但这个方向绝对是惊艳的！
一位朋友 也对 Veo 赞不绝口。他提到，以前的生成式AI视频只能出画面，要配口型非常困难。Veo是第一个能直接生成带口型、音画同步视频的产品，这让他非常惊讶。他用Gemini做开发时，可以直接填很长的上下文，非常方便。
另一位朋友 提到了三个让他惊艳的点：

深度研究 (Deep Research) 功能： 虽然当天演示时有点“破功”，但升级后一次性做深度研究，完成后一键申请其他多模态结果，这个效率太高了！
notebookLM： 这个产品能直接生成内容并打包成播客或APP，非常惊艳。
面对面3D沉浸式视频通话： 这个硬件产品让他觉得很有意思，开玩笑说“让周末老板身临其境给你布置作业”。

picture.image

大家的兴奋点高度一致——多模态、智能化、以及更自然的交互！

Part 5：开发者Minitalk：实战派的真知灼见

自由交流意犹未尽，接下来就是咱们精心准备的 Minitalk 环节 ！

我们邀请了6位奋战在AI应用一线的开发者代表，分享他们的产品、技术选型以及在AI浪潮中的独到见解。给我们带来不一样的火花！

让我们来开始介绍：

1. 白描创始人 - 陶新乐老师：独立开发者的AI生存法则

picture.image

陶老师是独立开发者圈子里的前辈了，他的APP“白描”拥有近2000万用户，非常了不起。

核心观点：

AI在OCR方面的帮助： AI的接入帮助他们提升了开发效率。但目前OCR领域，很多大模型的表现还没有超越传统的自研OCR技术。
独立开发者的成本考量： 做APP时，成本是首要考虑因素。比如接入云服务、API的费用，收益能否覆盖。因此，他们会尽量在端侧处理图像视频流量，减少云服务支出。
保持独立思考，不被带偏： 这是独立开发者非常重要的一点。
技术壁垒与设计壁垒： AI时代，单纯的技术壁垒很容易被AI生成所取代。可能后发者用AI就能快速做出类似产品并推广得更好。
盈利模式： 订阅制可能是独立开发者更合理的盈利模式，优于广告或买断。
灵感来源： 置身于“开发者状态”，在生活中不断发现需求点。一个技术点的突破，也可能催生伟大的产品 。
陌生边缘需求： 关注自己不熟悉的领域，可能会有新发现。
做之前判断能不能做： 看市面上是否有相似产品，发展程度如何。如果一个点子完全没有人在做，可能也没必要做。
先做出来，再好好推广。

陶老师的分享充满了独立开发者的智慧与务实。

在AI时代，独立开发者面临着新的机遇和挑战。

AI是双刃剑： 它可以降低开发门槛，但也可能让你的“护城河”瞬间消失。

小而美，也要能活下去： 成本控制、合理的盈利模式、持续的创新能力，是独立开发者在激烈竞争中生存和发展的关键。

从“小需求”到“大产品”： 很多成功的产品都源于对一个微小痛点的极致解决。保持敏感，深耕细作，AI或许能帮你把“小而美”做得更“强”。

AI时代，独立开发者想活得好，就得像精打细算的“掌柜”一样，既要会“开源”（找到真需求，做好产品），更要会“节流”（控制成本，务实盈利），真实力永远是硬通货！

2. 林间聊愈室创始人 - 李神龙老师：AI与孤独感经济的探索

picture.image

李老师关注的是一个非常独特的领域——用AI解决现代人的孤独感。

核心观点：

孤独感的普遍性： 现代社会，孤独感是一个日益凸显的问题。
AI在情感陪伴中的潜力： AI可以作为一种工具，提供情感支持和陪伴。
价值主张先行： 他们的产品强调品牌和价值主张，而不仅仅是功能。用户聚拢到产品，是因为认同其理念。
副语言信息的翻译： 除了文字内容，AI如何理解和翻译语气、语调、停顿等副语言信息，对于情感交流至关重要。（梅拉宾法则：视觉55%，声音38%，语言7%）
语言的前置性信息： 语言的背后承载着丰富的文化、背景和个人经历，AI需要更深层次地理解这些。
认知革命与语言： 7万年前，智人因基因突变产生语言能力，这使得人类可以描述不存在的事物（宗教、八卦），从而形成大规模协作。语言的运用效率和深度，是人类发展的关键。

李老师的分享打开了一个全新的视角——AI不仅是生产力工具，更可以成为情感的载体。

AI不止有冰冷的算法，更能承载温暖的情感；探索孤独的商业密码，价值主张比纯粹功能更能触达人心深处。

这里学到最多的是，当AI实现了每个人的技术平权，你的产品在技术层面没有太强的护城河，这时候，你就需要依赖你的产品的核心价值主张！ 真正吸引到同频的人~

3. 好事发生创始人 - 王梦珂老师：小红书生态中的美好记录者

picture.image

王老师的产品“好事发生”是一款在小红书上非常受欢迎的记录美好瞬间的APP。

核心观点：

高感受力人群的需求： 他们的用户是那些对生活有细腻感知、乐于记录和分享的人。
安静有仪式感的记录场所： 产品提供了一个美好的笔记本体验。
正向反馈的重要性： 投资人的“会心一笑”，用户的喜爱，都是驱动他们前进的动力。
从小红书获取80%以上的单纯增长： 平台的助力非常关键。
解决不快乐的问题： 通过记录三件好事来唤醒快乐的感受能力。
第一天就挣钱的商业闭环： 重视商业模式，不盲目追求免费。
爱我们的天使轮用户： 珍惜早期用户，他们是产品活力的源泉。

用心记录生活中的“小确幸”，也能汇聚成商业上的“大能量”；依托优质社区，真诚服务高感知用户，美好本身就是一种商业模式。

「打动人的从来不是“高效”，而是“共感”」 ，王老师的分享充满了理想主义和对用户的真诚。一个能够带来正向价值的产品，即使“小而美”，也能拥有强大的生命力。

4. 犬岛创始人 - 江宇老师：AI时代的社交产品新思考

picture.image

江老师对AI时代的社交产品有着独到的见解。

核心观点：

AI编程拉低了门槛： AI让低级和高级程序员的界限变得模糊。
AI重塑内容审核与风控： 这对于社交产品至关重要。
社交Agent的概念： 未来社交产品中，AI可能不仅仅是工具，而是人与人之间的“介质”，甚至可以主动发起提问和引导交流。
上下文长度和成本是AI社交的局限： 目前AI对话的成本还比较高。
希望谷歌降低AI价格，让应用层能更好地做产品。

江老师的分享聚焦于AI对社交产品底层逻辑的改变。

在社交领域，AI的潜力远不止于此。它可以是“破冰者”，是“话题引导员”，甚至是“情感调解师”。

未来的社交，会不会是“人与人+AI”的混合模式？AI帮助我们打破隔阂，建立更深度的连接。

AI正在重塑社交的底层逻辑，未来社交可能不再是人与人的直接对话，而是**“人+AI+人”** 的奇妙共振，技术成本是钥匙，用户体验是王道。

5. Inspired AI 创始人 - 贾子建老师：AI重塑语言学习之路

picture.image

贾子建老师的 Inspired AI 致力于用AI技术革新语言学习的方式。他的分享充满了对教育本质的思考和对技术应用的巧思。

核心观点：

语言学习的本质是“无限制输入，自由输出”： 他倡导一种更自然、更符合语言习得规律的学习理念。不是死记硬背，而是通过大量的、可理解的输入，培养语感，最终实现自然的输出。
AI在个性化学习路径上的潜力： 传统语言学习的痛点在于“一刀切”，难以满足个体差异。AI可以通过对用户水平的实时评估，推荐个性化的学习内容（例如，根据用户的英语水平和兴趣，推荐合适的播客或文章）。
多语言能力的价值与AI翻译的边界： 虽然AI翻译越来越强大，但真正掌握一门外语，带来的认知优势和文化理解是机器翻译无法替代的。AI可以辅助我们学习语言，而不是完全取代我们学习的必要性。他提到，他们的产品会做全球化，支持多种语言，但会根据用户的反馈和需求，有策略地进行。
注重用户反馈和数据驱动： 他们非常关注海外用户的反馈，并通过数据分析（比如发现小红书上有30%的自家账号）来指导运营和产品迭代。
“单据播放模式”等针对特定场景的创新： 比如针对小红书用户，他们开发了“单据播放模式”，方便用户在刷小红书的同时学习语言，这种对用户场景的细致洞察值得学习。
内容传播与笔记生成的有机结合： 鼓励用户在学习过程中记录笔记，并通过这些笔记的传播，吸引更多用户。

AI不仅仅是提供答案的工具，更可以成为激发学习兴趣、培养自主学习能力的伙伴。它能让学习过程更个性化、更高效、也更有趣。

未来的语言学习，可能不再是孤独的苦读，而是与AI教练一起，在真实的语境中、在感兴趣的内容里，轻松愉快地提升。

AI赋能语言学习，不是简单地“喂知识”，而是要打造个性化的“陪练场”；让学习回归兴趣与场景，技术才能真正点燃求知欲的火花。

6. 心光创始人 - 王禹效老师：AI是辅助还是重塑？认知与效率的进化

picture.image

王禹效老师的心光，关注的是AI如何辅助甚至重塑人类的认知和工作方式。他的分享引发了大家对于“AI时代，人的价值何在”的深层思考。

核心观点：

AI辅助人类的认知升级： 王老师认为，AI不仅仅是工具，它正在改变我们思考和解决问题的方式。他提到 2024年AI辅助人类变质，AI太笨，人类主体，而到了 2026年，自动化编程，人类提问题，AI自己变成5分钟、10分钟或3小时完成。这预示着人类的角色将从执行者转变为思考者和提问者。
面对AI，放下“存量思维”： 他认为，我们不应该用过去的经验和标准来框定AI的能力和未来的可能性。要敢于承认自己的“无知”，拥抱新的知识和工作方式。
AI时代的“设计”与“代码”： 他认为，未来设计和代码的界限会越来越模糊。真正的核心在于理解问题、提出解决方案，并将这个方案清晰地传达给AI。AI会成为我们意志的延伸，帮助我们高效地实现想法。

王老师的分享充满了哲思，也给身处AI浪潮中的我们敲响了警钟。

重新定义“能力”： AI时代，死记硬背的知识、重复性的技能，价值会逐渐降低。而提出好问题的能力、定义目标的能力、跨界整合的能力、与AI高效协作的能力，将成为新的核心竞争力。

终身学习，拥抱不确定性： 技术的发展日新月异，唯一不变的就是变化本身。保持开放的心态，持续学习，才能在AI时代立于不败之地。

人的价值：从“执行”到“创造”与“决策”。 AI可以帮助我们更高效地执行任务，但最终的创造性火花、伦理判断和战略决策，仍然掌握在人类手中。

面对AI浪潮，最可怕的不是被取代，而是固守“存量思维”；拥抱不确定性，提升“提问力”和“整合力”，方能与AI共舞，成为时代的弄潮儿。

听完六位先行者的分享，甲木我真是受益匪浅。

每一位创业者带来的精彩内容，都值得我们去思考，打磨自己的产品，给自己未来在AI时代找到一条路。感谢！

连接、共创、向未来！

这场 小红书AI开发者代表团与谷歌的Mingle ，

确实是收获满满，每一位嘉宾分享的干货都打开了新思路，

而小红书和谷歌搭建了这样一个平台，让不同背景、不同领域的开发者们能够齐聚一堂，分享见解，碰撞思想。

这种连接，本身就是一种巨大的价值。

picture.image

感谢小红书，感谢Google~

虽然AI巨头们在引领方向，但每一位独立的开发者、每一位用心的创作者，他们的思考、他们的实践、他们的产品，都在为这个时代贡献着独特的色彩。

picture.image

技术在快速更迭，一些人抓住变化，一些人引领变化。我们期待，更多令人兴奋的 Aha moment 在我们之中发生！

picture.image

共勉！

觉得今天的内容让你对AI目前的落地应用有帮助吗？

请用你发财的小手，给甲木一个【点赞👍】+【在看👀】+【转发↗️】三连吧！

你的支持是我持续输出干货的最大动力！

也欢迎在评论区留下你对Google I/O的看法，或者你认为AI未来最值得期待的应用方向！我们一起交流，共同进步！

picture.image

与我联系

下次见！保持好奇，保持创造！🌟