前段时间我在整理AI工具聚合站上的模型热度榜,发现Gemini 3.5 Flash已经连续好几周压着GPT-4o mini打了。作为一个对“免费”俩字天然警惕的程序员,我第一反应是:谷歌又在拿阉割版出来圈用户了。但架不住好奇,花了两周把它塞进了日常开发流里,结果发现自己打开ChatGPT的次数断崖式下降。

这篇文章不聊Benchmark、不堆跑分,就从一个普通开发者的视角,聊聊我在哪5个场景里彻底倒向了Gemini 3.5 Flash。


场景一:读长文档和源码仓库——百万token上下文是真的香

作为开发者,我日常最头疼的事之一就是啃大型技术文档。上个月调研一个分布式数据库的技术方案,官方文档加社区Wiki加相关论文,少说200多页。以前用GPT-4o干这个活,得把文档切成一段一段喂进去,每轮对话还得重新交代上下文,来回折腾几轮半天就没了。

Gemini 3.5 Flash原生支持100万token上下文窗口,我直接把所有资料扔进Google AI Studio,然后连续问了几个问题:

  • “它的存算分离架构和TiDB有什么区别?”

  • “共识协议是基于Raft改的,具体改了哪里?”

  • “列式存储引擎在宽表场景下有没有已知的性能退化?”

  • “给我整理一份生产环境部署Checklist”

  • “文档里有没有提到但没解决的已知缺陷?”

不到两分钟全部回答完毕,每个结论都附了出处。最后一个问题最有价值——它从“已知限制”章节和几个Issue讨论里帮我揪出了两个在选型时差点忽略的坑。

这个场景的体验提升是质的飞跃。 以前是“把文档切碎了喂给AI”,现在是“把AI扔进文档堆里让它自己找答案”。对于经常需要啃开源项目文档、RFC规范、或者大型代码仓库的开发者来说,这一点就足够让你把它设为默认模型。

什么时候用它:

  • 啃大型开源项目的文档和源码

  • 对比多个技术方案的架构差异

  • 审阅长合同或技术标书

  • 快速上手一个陌生的技术栈

什么时候切别的模型:

  • 需要从文档中生成复杂架构图,GPT-4o的多模态更强

  • 需要极高精度的法律文本解读,Claude的严谨性更好


场景二:写脚本和原型验证——快就是最大的价值

写代码这件事,我越来越发现大部分时间不是花在“想清楚怎么做”上,而是花在“把它敲出来”上。

上周我需要验证一个消息分发层的设计思路:多个客户端通过WebSocket接入,根据消息体里的路由键分发给不同的处理模块,模块要支持热加载。脑子里的架构图很清楚,但要把脚手架搭起来至少半小时。

我把需求描述了一段话扔给Gemini 3.5 Flash,大概12秒,一份完整的Python实现就出来了:

python

import asyncio
import websockets
import json
from importlib import reload
from typing import Dict, Callable

# 处理模块注册表
handlers: Dict[str, Callable] = {}

def register_handler(route_key: str):
    """装饰器:注册消息处理模块"""
    def decorator(func):
        handlers[route_key] = func
        return func
    return decorator

async def message_dispatcher(websocket, message):
    """根据路由键分发消息到对应处理模块"""
    data = json.loads(message)
    route_key = data.get("route_key")
    handler = handlers.get(route_key)
    if handler:
        # 支持热加载:每次调用前reload模块
        module = handler.__module__
        if module in sys.modules:
            reload(sys.modules[module])
        result = handler(data)
        await websocket.send(json.dumps(result))
    else:
        await websocket.send(json.dumps({"error": "unknown route"}))

WebSocket服务端骨架、消息分发器、热加载逻辑、心跳保活,全都有。代码直接能跑,注释也清楚。我花了一杯咖啡的时间改了两处逻辑,原型验证就做完了。

对比GPT-4o,它给的方案工程化程度更高,封装了完整的配置管理和错误恢复,但代码量多了将近一倍,生成时间也慢了三倍。对于“快速验证思路”这个目标来说,过度工程化反而是负担。

什么时候用它:

  • 快速验证技术方案和架构思路

  • 写运维脚本和自动化工具

  • 生成单元测试和Mock数据

  • 代码重构时的快速试错

什么时候切别的模型:

  • 生产环境核心链路代码,GPT-4o更老练

  • 高并发场景下的锁和竞态处理,Claude推理更缜密


场景三:学新技术栈——免费让你敢问“蠢问题”

学新东西的时候,最大的障碍不是找不到资料,而是不好意思问“蠢问题”。

我最近在啃Rust的所有权和生命周期,这玩意儿的学习曲线有多陡懂的都懂。我用Gemini 3.5 Flash开了一个长对话线程,前前后后问了大概四十个问题,从“&和&mut到底有什么区别”到“为什么我这段代码编译不过”再到“用Python给我类比一下这个借用检查器”。

因为完全免费,所以问得毫无心理负担。同一个概念没听懂,换个角度再问一遍,问到自己真懂为止。而且它记住了前面对话的上下文,知道我用Python比较多,后面解释新概念时会主动用Python做类比。

这种连续性带来的学习效率,是单次问答型的AI交互完全没法比的。

什么时候用它:

  • 入门新语言或新框架

  • 理解复杂的计算机基础概念

  • 准备技术面试的系统设计题

  • 阅读源码时随时提问

什么时候切别的模型:

  • 需要最新版本信息,记得开联网搜索

  • 涉及学术前沿的深入理解,Claude的推导更严谨


场景四:技术翻译和本地化——速度快到可以当同传用

技术圈的好内容,英文的远比中文的多。Kubernetes的最新博客、AWS的re:Invent技术分享、CNCF项目的RFC文档,等中文翻译出来往往晚好几个月。

我以前用DeepL做初翻再人工校对,但技术术语经常翻车。“backpressure”翻译成“背压”而不是社区通用的“反压”,“sidecar pattern”直译成“边车模式”看着总觉得不对味。

拿一篇Kubernetes官方博客的Operator开发指南测试,约3000字:

  • Gemini 3.5 Flash全文译完不到8秒

  • “Pod”“ConfigMap”“etcd”等专有名词正确保留

  • “reconciliation loop”译为“调谐循环”,和中文社区习惯一致

  • Markdown的代码块、列表格式完整保留

整体的中文语感很自然,没有浓重的翻译腔。唯一的小瑕疵是把“eventual consistency”译成了“最终一致性”——但这其实是对的,只是我自己看多了英文原文总觉得应该保留英文。

什么时候用它:

  • 技术博客和文档的快速翻译

  • 外文技术视频的字幕处理

  • API文档多语言本地化

  • 跨国团队的技术沟通辅助

什么时候切别的模型:

  • 对外发布的市场文案,需要人工润色

  • 文学性或强情感色彩的内容


场景五:数据清洗和日志分析——脏活累活交给它

开发者日常工作中,有相当一部分是“不复杂但很烦”的数据处理。从一堆非结构化文本里提取结构化字段、清洗脏数据、格式化输出。

最近一个真实需求:手头有一份2000条用户反馈的Excel,格式完全放飞自我——有人在“反馈内容”列里写了一大段叙事文,有人只写了两个字。需要从中提取:反馈类别、严重程度、涉及的功能模块、是否需要回复。

按以前的流程,我会写个正则脚本处理掉最规整的60%,剩下40%手动分类。整个过程大概四小时。

这次我直接把数据喂给Gemini 3.5 Flash,让它逐条分析并输出结构化JSON。大约15分钟全部处理完。我抽查了100条,准确率90%以上,剩下的边界case也基本是那种“换了人来判断也会犹豫”的情况。

用Python快速封装了一个批量处理脚本:

python

import json
import time

def batch_analyze_feedback(feedback_list, model_client):
    """批量分析用户反馈,返回结构化结果"""
    results = []
    for idx, feedback in enumerate(feedback_list):
        prompt = f"""分析以下用户反馈,提取结构化信息,返回JSON格式:
{{
    "category": "bug|feature_request|usability|other",
    "severity": "critical|high|medium|low",
    "module": "被反馈的功能模块名称",
    "needs_reply": true/false,
    "summary": "15字以内摘要"
}}

反馈内容:{feedback}"""
        
        response = model_client.generate(prompt)
        results.append(json.loads(response))
        
        # 避免API限流
        if idx % 50 == 0:
            time.sleep(1)
    
    return results

什么时候用它:

  • 非结构化数据转结构化

  • 日志分析和异常模式提取

  • 批量数据清洗和标准化

  • 数据Mock和测试数据生成

什么时候切别的模型:

  • 金融、医疗等对准确性要求极高的数据,必须加人工审核

  • 需要严格Schema校验的场景,在模型输出后加一层验证逻辑


写在最后

两周深度用下来,Gemini 3.5 Flash给我的最大感受不是它有多强,而是它让我重新定义了“够用”。

开发者容易有个执念——总想要最强的工具。但仔细想想,你日常工作中真的时刻需要最强模型吗?80%的场景里,你要的不过是个响应快、能看懂你意思、不跟你计较token消耗的搭档。

Gemini 3.5 Flash恰好就是这么一个角色。它不强到让你惊叹,但好用到让你忘了换。

我的使用策略很简单:把它设为默认,只在它确实不够用的时候才切到GPT-4o或Claude。两周下来发现,需要切换的时刻比想象中少得多。

你怎么用Gemini 3.5 Flash?评论区聊聊你的使用场景,一起挖掘更多玩法。

Logo

汇聚全球AI编程工具,助力开发者即刻编程。

更多推荐