AI 笔记

大模型

大模型幻觉(Hallucination in LLMs)

大模型一本正经地胡扯(胡扯指数,Bullshit Index)。幻觉是否是智力特征,不能从根本消除?

幻觉来源:

幻觉检测:

幻觉缓解 Hallucination Mitigation:

幻觉引发的可靠性问题已经成为制约大模型在企业级应用落地的瓶颈。一种新的缓解策略是通过工程化方式,工程化在不同的领域有着不同的表现形式,可以归纳为2点:分解与核验。

行业最佳实践往往存在于专家的大脑中,任务执行依赖人的随机应变。但这种方式难以规模化,并且容易因个体差异导致执行出现偏差。将业务逻辑程序化,避免自然语言的歧义与模糊性,并将复杂业务逻辑分拆到可核验的颗粒度,以支撑后继的高效核验,同时提供与编程语言类似的大规模可扩展能力。

AI

社会影响

如果人们不再想为互联网生产内容,那 AI 又将从哪里获取它所需要的信息?如果人类不再亲自阅读互联网内容,因此也不再看广告。

好的 AI 用例--安全漏洞赏金项目。项目会收到海量的报告——某个研究员声称在我们的应用里发现了漏洞。我们必须处理这些报告。我们大概会收到……可能一个季度 300 份报告之类的数量。但真正“靠谱、有效、值得修”的——大概只有 3 份。 真正有价值的比例大概只有 1%。而这个 1% 非常重要,因为它们可能真的指出了一个严重问题,我们必须修。但为了抓住这 1%,你必须花巨大精力去验证剩下 99% 的垃圾——这对团队来说是巨大的麻烦、巨大的时间黑洞、巨大的烦躁来源。 AI 能在报告进来时就先处理一遍,给我们一个初步判断——“这到底是扯淡,还是不扯淡?”然后还会帮我们写回复邮件。 而写回复其实才是痛点的一半:当 99% 的提交都是彻头彻尾的狗屎,写这些狗屎的人还常常—— 根本不懂自己在说什么,却又特别理直气壮,还特别不耐烦,甚至还一副“你必须立刻给我 5000 美金赏金”的态度。 这时候让人类程序员保持冷静、不直接对他们开喷,是很难的。AI 就完全没这个负担。它特别乐意用一种非常冷静的语气写一大段回复:“为什么你这个东西不成立。”它帮我们省了大量时间。 以前要看 100 份报告,现在可能只要看 5 份——这就是真实的生产力提升。就算你最后要看 10 份、20 份,只要你能把原本 100 份的工作压缩到 20 份,这就是 AI 承诺的生产力收益。如果我们能把这种压缩能力用到业务的其他方面——那简直太好了。

待改进的 AI 用例--客服支持(support)。support 很微妙:如果你只能 90% 正确,那其实很糟糕。因为这意味着你会有 10% 的概率把事情说错——而且是对着客户说错。如果给客户一个完全错误的答案,让客户体验很差,客户可能就直接流失了。 那这个客户的终生价值是多少? 你以为 AI 带来的那点“节省成本”,可能瞬间就被一次流失抵消得干干净净。目前效果不太行。但一切都在飞速变化。

作为一个文明整体,我们最终仍然会在更多类别、更多细分领域里,更快地获得更好的软件。问题的一部分在于:无论是 Web 开发圈,还是独立开发者(indie hacker)圈,很多讨论都过于短视地集中在那些我们一直反复折腾的“通用大类”上。当你解决的是自己的问题时,你立刻就能判断你做出来的软件到底好不好。

更新于[2026-01-23]

文章参考