解锁 Gemini 2.0 的奥秘:功能与使用指南

大模型向量数据库机器学习

网址: https://aistudio.google.com/app/prompts/new\_chat

使用 Gemini 2.0 模型

我打开默认就是 Gemini 2.0 模型,如果不是手动调整即可

picture.image

功能

AI 对话(Create Prompt)

例如:我让 Gemini 帮我生成 公众号头图 的提示词;Gemini 给出了一些通用型、具体型的提示词,Gemini 引导我发更详细具体的信息给它。

picture.image

我将提示词改得更详细具体一点。

提示词:帮我生成 公众号头图 的提示词,公众号是关于科技的内容,我希望头图是要有科技感、未来感

体验:多个选择,并提供一些建议,它给出来的是能直接发给 AI 绘画工具,进行绘画的

picture.image

下面那张图片是我通过 即梦AI 生成的

提示词:未来数据中心的3D渲染,具有全息显示和发光的服务器机架,冷色调,用于科技公众号头图

picture.image

语音、视频、共享屏幕对话(Stream Realtime)

picture.image

语音(Talk to Gemini)

Talk to Gemini:跟打电话差不多,就是你说完了之后,他回答,他回答的过程中,你也可以说话

1)点击 Talk to Gemini

picture.image

2)对话

体验:它能够识别我一段话的结束,并据此作出回应。当我使用中文时,它以日语回复;而对英语则显得更为友好,能正常回复,而且语音下方还会出现对应的英文文本。

picture.image

picture.image

点击这个红色按钮可以停止

picture.image

视频(Show Gemini)

Show Gemini:就跟打视频通话一样,只不过他是一段段识别你的画面和语音,但是不需要你手动停止,他会判断出你一句话的结束

1)点击 Show Gemini

picture.image

2)允许打开摄像头

picture.image

3)对话

体验:挺有意思的,我通过小爱同学将中文转英语,然后放出声音,问他(英文):“说说我的样貌特征.”,他回答道:“好吧,我看到你留着深色短发,戴着眼镜,穿着白色连帽运动衫。”;从这个角度来说,他可以识别出电脑画面,

picture.image

picture.image

共享屏幕(Share your screen)

Share your screen:就相当于共享屏幕,然后跟他聊天

1)点击 Share your screen

picture.image

2)选择要共享窗口或者恭喜整个屏幕

picture.image

3)对话

体验:我觉得回答还行,但是有待改善。

比如说我问他(英文):”帮我总结一下这篇文章,然后帮我看一下这篇文章的一个点赞,还有收藏的数量“

他的回答:“好吧,这篇文章似乎是关于 suno的,一个用于音乐创作的 AI 工具。它涵盖了如何使用该工具生成音乐、调整风格和编辑歌曲。至于指标,这篇文章有 4 个赞和 0 个收藏。”

总结说得没错,但是这篇文章是 5个赞 4个收藏。可能是因为图标分析不出来,只能说有待改善把

picture.image

picture.image

应用程序(Starter Apps)

三个应用程序:空间理解,视频分析以及Gemini和谷歌地图的集成

picture.image

空间理解(Spatial Understanding)

Spatial Understanding:就是可以识别出图片的内容,然后标记出对应的位置,可以是 2D,3D,坐标点的形式标记出来

1)点击 Spatial Understanding

picture.image

2)上传图片或者使用他的示例图片

2D bounding boxes:就是以 (x1, y1),(x2, y2)坐标 框选出一个四边形的物品位置并标记物品名称

3D bounding boxes:就是以 (x1, y1, z1),(x2, y2, z2)坐标 框选出一个柱体(正方体、长方体)的物品位置并标记物品名称

Points:就是以(x, y)坐标点标记物品,并显示物品名称

picture.image

3)使用

体验:之前没用过这种空间理解类的东西,所以我也评判不了,但从官方给出的示例图片中,用起来感觉,他能标记清楚这些物品是什么,以及他的位置。

如果我只是想让他标记出图片所有的物品

picture.image

如果我想要让他识别出图片中猫的位置

picture.image

识别图片中的 cat,并将其标记为 猫

picture.image

中间的输入栏识别不了右边的图片

picture.image

视频分析(Video Analyzer)

体验:我感觉这东西可以用来字幕,暂时没发现其他的。生成的字幕他会以 json 的格式在中间的对话框中给你,但是加上字幕后的视频保存不了

素材视频:

20241214_151127.mp4

1) 点击 Video Analyzer

picture.image

2)上传视频

picture.image

picture.image

字幕(A/V cations)

基于我这个视频生成字幕(英文),并且会加在视频当中

picture.image

段(Paragraph)

类似于上面的 A/V cations,只不过这里是一大段的,并且是更倾向于总结

picture.image

关键时刻(Key moments)

它基于关键时刻时刻生成字幕

picture.image

picture.image

表格(Table)

以表格的形式展示,字幕感觉比 Key moments 简短一点

picture.image

自定义(Custom)

可以自定义提示词生成,这个挺好的,默认是英文,我可以使用自定义提示词,让他使用中文生成字幕

1)点击 Custom

picture.image

2)使用

picture.image

谷歌地图(Map Explorer)

体验:就是搜索引擎 + 地图,然后可以随机给出 大城市、岛屿等等地方,并给出英文描述

picture.image

1)使用

点击右下角哪些图标会随机显示对应的地方,并附上英文描述

picture.image

中间的文本框可以用来搜索地区和景点这些

picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
大规模高性能计算集群优化实践
随着机器学习的发展,数据量和训练模型都有越来越大的趋势,这对基础设施有了更高的要求,包括硬件、网络架构等。本次分享主要介绍火山引擎支撑大规模高性能计算集群的架构和优化实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论