本文来自微信公众号:APPSO (ID:appsolution),作者:AI 有用功,原文标题:《击败 ChatGPT 登顶 App Store!Google 这套 AI 全家桶,个个都是王炸 | 附使用指南》
还以为ChatGPT会一直稳坐第一?这周却来了个反转。
Google Gemini凭借最近爆火的Nano Banana图像编辑,一举登顶App Store免费榜,把ChatGPT挤到第二。
这意味着,Google终于迎来了属于自己的「爆款AI时刻」。
而且,Gemini只是冰山一角。Google手里还有一整套AI工具,从写作、画图,到学习笔记、视频生成,应有尽有。今天就带你开箱Google的「AI全家桶」。
1、Gemini,定位和ChatGPT一样的通用助手
包含了nano banana(近期热门生图模型)、Canvas画布、Veo3视频生成、Storybook故事板、以及Deep Research等功能,目前提供Gemini 2.5 Pro和Flash两个模型。
体验地址:gemini.google.com
2、NotebookLM,能深入研究的知识库
最多可上传300个文件,能将文档总结为音频、视频、思维导图等六种类型,是学习和研究的最佳利器。
体验地址:notebooklm.google
3、Flow,高质量的视频生成
支持竖屏9:16、1080p高清,价格更低,免费用户每月送100积分。
体验地址:flow.google
4、AI Mode,搜索也有了推理和思考能力
在Google搜索输入框就能直接开启,获取比AI Summary/Overview(总结)更严谨和翔实的结果;目前支持英文等五种语言(但目前不包含中文)。
体验地址:google.com/ai
5、Gemini CLI,一个万能的本地助手
不只是开发工具,还能下视频、转GIF、压缩文件。
6、AI Studio和Labs Google
其他有意思的小工具,生成一段音乐,简单学习一门新的语言,体验最新、最全的Google大语言模型……
体验地址:ai.dev和labs.google
Gemini:不只会聊天,更是全能工作台
近期爆火的nano banana,最主要的官方渠道除了网页版,就是Gemini App。
但如果你只拿Gemini来P图,那就太浪费了。它和ChatGPT一样,补齐了跨对话的「记忆」功能,并能与Google生态无缝衔接。
Gemini的「记忆」功能
对我而言,这个关键更新,加上教育邮箱赠送的Pro会员,足以让我将大部分日常对话转移过来。
Google最近更新了Gemini免费和付费用户具体的使用限制。免费用户使用Gemini 2.5 Pro和Deep Research的次数有限,但是nano banana的单价非常便宜,所以免费用户也有慷慨的100张生成机会。
图片来源:https://support.google.com/gemini/answer/16275805
Gemini 2.5 Pro最大的优点是,每个回答都会有像DeepSeek一样清晰的推理过程,但是速度要快上不少。这在ChatGPT更新到GPT-5之后,采用全新的路由控制,自动选择模型,优势更为明显。
因为ChatGPT有时候判断不了,我到底希望他使用什么模型来回复;而我的表达,也不是每一次都能清晰地,让模型知道我的意图。
不过,更会聊天的代价是更不会干活,和LMArena显示的排行榜一样,文本能力第一,但是网页的开发能力不及GPT和Claude。好在这些天,Google也是狂给Gemini打补丁,在软件交互上,用户体验越来越好。
例如,在网页开发方面,Gemini Canvas现已支持直接点选应用中的某个元素,用自然语言即可进行修改。
Canvas画布和ChatGPT的画布预览是一样的功能,都是非常直观地,把我们的创意,变成应用程序、游戏、信息图表等内容。
Gemini画布新增功能,选择并询问。现在只需点击元素并描述所需更改,即可直观地编辑您的网页应用的任何部分。图片来源:https://x.com/GeminiApp/status/1965475292526551105
其次,Gemini终于支持上传音频文件。这意味着,会议录音、采访视频等包含丰富上下文的材料,可以直接交给Gemini处理,省去了手动整理和编写复杂提示词的麻烦。
最新消息,根据flowith创始人Derek Nee和Gemini 3工程师团队的交流,他发X透露,Gemini 3.0 Flash的能力将会超过2.5 Pro。
和ChatGPT使用的条件类似,Gemini对Google账号的归属地可能有额外的限制。
体验地址:gemini.google.com
NotebookLM:你的最佳个人知识库
收藏了一堆英文长文、书摘,结果总是「下次再看」?NotebookLM就是专门拯救这些吃灰资料的。
你只要把几篇文章、报告甚至书摘丢进去,它就能:
自动帮你提炼要点,生成一份条理清晰的学习笔记;
如果你喜欢可视化,还能直接画成思维导图,让你一眼看懂文章框架;
想进一步学习?它还能基于这些资料出小测验,逼你复习巩固。
举个例子,我之前用它来整理过论文,NotebookLM最多支持上传300个文件,支持的文件类型也很丰富,PDF、txt、Markdown、和音视频文件,它都能识别。
我将297篇同一研究领域的论文上传,NotebookLM能完全基于这些文件,生成多种形式的内容总结。
向左滑动查看更多内容,文字报告、播客预览、视频介绍、思维导图、闪卡和小测验六种形式
播客和文字报告,是NotebookLM里面最早提供的选项,现在它们也得到了优化。
文字报告可以选择,直接生成为博客、说明文档、指南等类型,甚至NotebookLM会根据知识库里面的资料,提供动态建议;例如,上传论文可能会建议创建白皮书,而新闻类文章可能会生成解释性内容;自定义的提示现在也被允许。
上下滑动查看更多内容,NotebookLM生成的博客文章
而音频播客现在更是支持80多种语言,播客类型也从概述到深入,进一步扩展到辩论和批判性思考等多种类型。
新增的视频、Quiz测验和Flashcard闪卡,是我非常喜欢的功能,无论是帮助我消化这些知识,还是做进一步的内容传播,NotebookLM都非常有用。
但论文的研究终究是比较小众的场景,我们只是借着论文来介绍NotebookLM的功能。对于学生和研究者来说,这绝对是Google AI里最值得安利的工具之一。
在更普遍的应用场景中,它能胜任任何类型的知识库构建。像是NotebookLM官方给出的使用案例,上传了多家公司一季度的财报,我们可以透过思维导图,一次性清晰的了解财报的具体内容。
还有NotebookLM与OpenStax(免费教科书提供平台)合作,将它们受欢迎的内容,转化成交互式笔记本,包括生物学、化学、心理学、以及管理学等主题笔记本。
在这个心理学知识库中,每一章节都配有小测验和记忆卡片,帮助我们巩固所学知识点。
https://notebooklm.google.com/notebook/90a2ee5f-cccb-4c28-a356-bb1682cc8aeb
小测验和闪卡的主题、难度都是可自定义的。而且,无论是闪卡还是测验,只需点击解释,就能深入探索当前的话题;NotebookLM会生成详细的概述,帮助我们理解闪卡定义,或解释为什么答错某道题,并附有引用指向原始资料。
体验地址:notbooklm.google
Flow电影级AI视频生成
AI视频热度虽高,但能用它做什么?始终是许多人心中的疑问。我们介绍过多个AI视频生成模型,不少读者也曾留言:这种AI视频,究竟是给谁看的?
在Gemini里面,直接使用Veo 3视频生成,Veo 3目前仅支持首帧,首尾帧需要Veo 2。
Google的更新或许给出了部分答案:支持竖屏(9:16)和1080p高清。这无疑是为抖音、YouTube Shorts、Reels等短视频社交媒体平台量身定做。
Veo 3近期更新,Veo 3 Fast从0.4美元每秒降价到0.15美元每秒,以及支持9:16、1080p等。图片来源:https://x.com/GoogleAIStudio/status/1965436154762920074
如今AI视频已成为一种新的内容消费品,与其被动观看,不如亲自上手一试。
提示词:Ultra-realistic cinematic video of Shanghai,famous landmark Tower.Shot in vertical 9:16 format,travel vlog style,smooth camera motion,dynamic lighting,vivid colors,highly detailed,immersive atmosphere,no text,no watermark.
除了Sora、可灵、海螺这些比较热门的视频生成模型,Google的Veo 3一直在大模型竞技场,文生视频类别下,名列前茅。
前些时间爆火的第一视角穿越、ASMR切水果,金属、兔子蹦床的夜视监控等视频,都是使用Veo 3生成的。
提示词:50mm camera,close-up angle of a lemon made out of yellow-tinted glass being sliced horizontally on a wooden cutting board.The inside of the fruit is glass as well with a little bit of melting glitter.The entire scene is soft lit from the above.
不过,提示词的优劣,是决定视频质量的关键瓶颈。例如上面这个视频,我们就是直接借鉴了Google的官方案例。
他们解释,好的提示词,包括三个部分,首先是「50mm相机、特写镜头」指定了相机;接着中间一大段用来提示对象和具体的视频内容;最后一句话是进一步明确灯光和纹理。
Flow对网络要求比较严格,一般在Gemini网页或者App内使用同样足够。
体验地址:flow.google
AI Mode支持除英文外更多语言
搜索是最大的流量入口,因此AI浏览器成了大模型厂商的必争之地,尽管这条路并不好走。
Arc项目宣布停止后,重启的Dia浏览器也在前几天,被Atlassian以6.1亿美元收购。路不好走的原因倒不是因为没有利益,而是太多巨头想要吞下这块香饽饽了。
微软在上个月宣布自己的Edge升级为AI浏览器,Copilot无缝接入到浏览器的每个角落,预订餐厅和机票、跨越标签页的整理总结等等。OpenAI在之前推出ChatGPT agent时,也被爆料要做自己的AI浏览器。
Google当然也不会停下脚步,和我们平时用Google搜索时看到的AI Overview不一样,AI Mode更像是一份深度研究报告,它会利用Gemini 2.5的高级推理和多模态能力,来处理我们的查询输入。
例如当我问他iPhone Air的esim卡到底是怎么回事时,它会自动根据网页内容进行整理,给出更准确的答案。
点击上方All,则可以切换回普通的Google搜索
不过AI Mode有一个缺点,是目前它还不支持中文。但前几天,Google已经宣布支持日语、韩语、以及葡萄牙语等五种语言。他们提到构建一个全球化的AI搜索不仅仅是翻译,所支持的语言,应该具有本地相关性和实用性。
体验地址:google.com/ai
Gemini CLI下载视频,转文件格式,统统交给它
Claude Code断供完全没关系,Gemini CLI是真的好用。
之前我们说用这种终端工具来修改文件名,其实是最「弱」的用法了。我最近X视频、YouTube等视频下载;视频转GIF以及各种格式转换;图片压缩、视频压缩,全部交给Gemini CLI。
Gemini CLI的安装流程相当清晰,即便遇到环境配置问题,如今的AI也能提供可靠的解决方案。
前期的麻烦点主要集中在安装Node.js上,对Windows用户来说,终端使用没有macOS和Linux友好,所以是需要一点耐心的。
Node.js安装完成之后,按照GitHub上指引,运行npm/npx命令就可以安装Gemini CLI了。
在终端里面输入gemini,会提示我们进行验证,一般登录Google验证就可以,不需要去额外创建Gemini API之类的操作。免费用户每分钟有60次请求,每天1000次请求,应付日常的简单工作流是足够的。
终端里面有一些非常基础的命令,因为我们打开终端的时候,默认的文件夹是可能是整个电脑的文件,如果直接输入gemini,它检索文件会比较麻烦。
正确的操作是,一些基础命令输入ls:会列出当前目录下的所有文件和文件夹;cd xxx:进入某个文件夹;mkdir xxx:创建一个文件夹。
向左滑动查看更多内容,例如第一步我们打开终端,输入ls,可以看到当前目录下所有的文件和文件夹;接着我们选择一个文件用来处理,此次需要Gemini的项目文件夹。输入cd Downloads,可以看到%前面有当前目录Downloads的名字。接下来,我们创建一个文件夹,mkdir testing,然后再进入这个目录,cd testing。当然也可以直接选择一个文件夹,鼠标右键,在终端中打开。输入gemini,它就正式接管了我们的终端,我们接下来就能用自然语言,处理许多复杂的任务了。
向左滑动查看更多内容,拿下载一个X的视频举例,首先它会搜索,找到一个yt-dlp的工具,可以用来下载视频;接着,它会自动检查我的电脑,是否有安装这个工具。检测到有安装之后,视频就开始下载了。
这是调用了yt-dlp工具,而在终端环境里面,还有非常多高效的工具,例如FFmpeg,它是一款处理多媒体内容的强大工具。
向左滑动查看更多内容,输入指令后,Gemini CLI会直接说它需要yt-dlp和ffmpeg这两个工具;然后会自动调整分辨率和帧率,以符合我提出的最终文件大小,最后它会删除过程中的临时文件。
我们继续用X视频举例子,这次直接要求他把这个链接的视频下载为一个GIF文件,并且确保GIF文件的大小在5-10 MB之间。
除了从网络上下载文件,Gemini-CLI也可以直接处理本地文件,例如我有一张图片的大小,不符合平台上传规范,我告诉它文件名,然后要求它压缩,过程中完全不需要去找任何的在线工具。
向左滑动查看更多内容,可以用模糊语言指定图片位置,顺利定位到图片,它会使用ffmpeg工具来进行压缩。不过最后它把我的原文件删掉了,当我告诉他要求找回时,它会修改自己的gemini.md配置文件——这相当于它的「记忆」,它会记住这次教训,确保未来不再犯同样错误。
命令行工具的种类丰富,几乎大部分的文件都能处理,甚至有时候遇到一些压缩包不能解压,直接让Gemini CLI来处理,而不需要额外去下载对应的解压工具。
再结合MCP(大模型上下文协议,连接不同数据的万能接口),Gemini CLI能做的,远远不止是编程开发。
体验地址:
https://github.com/google-gemini/gemini-cli
AI Studio和Labs Google:前沿AI试验场
Google Labs汇集了许多尚未正式发布的AI黑科技产品,像AI Mode、NotebookLM目前都还是实验室产品,不过他们名声比较大。
我们也选择了几个有意思的小项目,虽然背后的模型都是同一个Gemin 2.5 Pro/Flash,但是可以看看模型之上,不同的软件形态。
首先就是Whisk,这个主打不需要提示词,上传照片尽情玩耍的图片生成工具,现在还新增了animate动画的功能,直接将生成的图片转成一段视频。
地址:https://labs.google/fx/tools/whisk
还有学习一门语言的Little Language Lessons,它特别的地方,是让我们快速在Gemini构建的一系列小实验里面,学习一门新的语言,直接在现实场景中应用,还能学习各种俚语表达。
我拿粤语试了一下,至少不是多邻国里面,来来回回的肠粉和豉汁排骨了。
Google实验室还有非常多的项目,体验地址:labs.google
讲了通用大模型Gemini 2.5 Pro、图像编辑nano banana、视频生成Veo 3,怎么可以没有Imagen 4。
Imagen 4官方渠道目前是只能透过Gemini API和AI Studio两种方式体验,即便Google Labs里面有专门生图的工具,ImageFX,但是使用的模型依旧是Imagen 3。
AI Studio能做的,就是体验到Google最新最全的各种模型。而且,在AI Studio里面的对话,提供了「分支」功能,我们可以保留现有对话的前提下,开启另一个新的话题。
地址:ai.studio/ai.dev
前段时间,马斯克还在X上和奥特曼互撕,直接开骂,Apple和奥特曼有私下交易,不然他的Grok怎么登顶不了排行榜第一,凭什么一直都是ChatGPT。
这一番开箱下来,似乎能看到一点Gemini「凭什么」的端倪。
Google AI几乎是用一套完整的工作流,无缝融入我们的学习、工作和创作之中。从整理资料到激发创意,再到解放双手,这套全家桶的核心,是希望实实在在地提升每个人的生产力。
你最常用或最想尝试的是哪一个?有什么问题可以在下面留言。
欢迎加入APPSO AI社群,一起畅聊AI产品,获取#AI有用功,解锁更多AI新知
我们正在招募伙伴
简历投递邮箱hr@ifanr.com
✉️邮件标题「姓名+岗位名称」(请随简历附上项目/作品或相关链接)
相关推荐
Office全家桶+GPT-4,微软向谷歌丢出“王炸”
每年10亿美元,苹果全力打造AI全家桶
独家|河马爱学并入豆包,字节打造AI产品全家桶
每人每月30美元,微软给AI全家桶开出“巨硬”标价
谷歌I/O全汇总:AI全家桶升级,公布安卓Q、手机和大屏音箱
「腾讯作业君」App上线,端出在线教育「全家桶」
小米抢跑、华为迟到,智能全家桶没一个能打
鸿蒙全家桶,到底好用吗?
当ChatGPT联网且有了App Store,会怎样?
DeepSeek超越ChatGPT,登顶苹果美国区免费APP下载排行榜
网址: 击败ChatGPT 登顶App Store,Google 这套AI 全家桶,个个都是王炸 http://m.xishuta.com/newsview141874.html