AI 技术博客合集#

以下内容已按领域模块进行分类，优先保留研究、系统、安全、评测与工程复盘，删除普通功能发布、模型发布和案例宣传。同一篇文章若涉及多个领域，会在不同模块下重复出现。

数据源与 Agent 抓取规则#

💡 Agent 自动化抓取规则：

定期（如每周）访问以下数据源的 RSS 或 Sitemap，获取新发布的文章列表。

对每篇文章抓取正文内容，判断是否具备技术深度。保留标准：文章需要涉及方法论、架构设计、实验结论、工程复盘、评测数据或安全分析等实质性技术内容。过滤标准：跳过以下类型——纯产品发布公告（标题含 “Introducing X” 且无架构细节的通常是发布公告）、客户案例宣传、商业合作新闻、招聘信息、经济分析报告、行业政策/调查报告（如蒸馏攻击披露、责任披露流程等虽涉及安全但无可复现的技术方法）、面向普通用户的科普解释文。

对保留的文章生成一句话的中文核心摘要（需准确概括文章的核心技术贡献，避免模板化表述），加上对应的 [Provider] 标签。好的摘要示例：用 activation capping 防止模型 persona drift 导致有害输出的安全干预方法；差的摘要示例：模型安全的研究进展、多代理框架的方法。

根据文章的核心技术贡献归入对应模块（可多归类），但只归入确实相关的模块，不要因为摘要中偶然提到某个词就归入该模块。

新增文章插入到对应模块的开头（最新的在最前面），不要删除或修改已有条目。每条末尾附上发布日期，格式为 （YYYY-MM-DD）。日期优先取页面正文可见日期，其次取 meta datePublished。已知日期陷阱：① OpenAI RSS feed 返回的日期经常是批量更新日期而非真实发布日期，必须打开文章取正文第一行日期；② Anthropic 的 structured metadata 日期不可靠，务必以正文可见日期为准；③ Microsoft Research 的 article:published_time 比较可靠可直接使用。

模块分类指引#

模块	归类标准
Agent 工程	Agent 架构设计、工具调用、多 Agent 协同、执行框架、沙箱
代码与工程实践	编码工具、工程复盘、开发工作流、提示工程实践、故障分析
模型架构与训练	模型结构创新、训练方法、MoE、RLHF、数据工程、蒸馏
推理与思维链	推理能力训练、思维链机制、CoT 忠实度、推理模型设计
RAG 与检索	检索增强生成、长上下文、知识图谱检索、上下文工程
评测与基准	提出或分析评测方法论、基准设计、评测指标体系
安全与对齐	模型安全、对齐方法、红队攻防、prompt injection 防御、安全政策框架
可解释性	理解模型内部机制：电路分析、特征提取、叠加理论、稀疏分解
系统与基础设施	推理优化、训练基础设施、芯片、CUDA、量化、数据库扩展
多模态与生成	视觉/音频/视频/3D 模型、生成模型、机器人感知
科学与数学	AI 用于科学发现：蛋白质、物理、数学证明、天气、基因

支持的源列表#

源	地址 / 获取方式
OpenAI	RSS: `https://openai.com/news/rss.xml`
Anthropic	Sitemap: `https://www.anthropic.com/sitemap.xml`，过滤 `/research/`, `/engineering/`
Google DeepMind	RSS: `https://deepmind.google/blog/rss.xml`
Meta AI	`https://ai.meta.com/blog/`
Microsoft Research	RSS: `https://www.microsoft.com/en-us/research/feed/`
NVIDIA	RSS: `https://blogs.nvidia.com/feed/`
Hugging Face	RSS: `https://huggingface.co/blog/feed.xml`
Qwen	遍历: `https://qwen.ai/research`（原 GitHub Pages 已重定向）
DeepSeek	解析: `https://api-docs.deepseek.com/updates`（原 `/news` 已失效）
Kimi	解析: `https://platform.moonshot.ai/blog`
Mistral	解析: `https://mistral.ai/news/`
Manus	遍历: `https://manus.im/zh-cn/blog`

Agent 工程#

[Microsoft Research] AgentRx — AI 代理的系统化调试框架（2026-03-12）
[Microsoft Research] PlugMem — 代理记忆的知识复用与更新机制（2026-03-10）
[Microsoft Research] CORPGEN — 面向真实工作场景的复杂任务代理（2026-02-26）
[OpenAI] From model to agent: Equipping the Responses API with a computer environment — Responses API 接入计算机环境并演进为可操作代理（2026-02-11）
[OpenAI] Harness engineering: leveraging Codex in an agent-first world — agent-first 开发中使用 Codex harness 的工程方法（2026-02-11）
[OpenAI] Unlocking the Codex harness: how we built the App Server — Codex App Server 的协议设计、事件流与集成（2026-02-04）
[OpenAI] Inside OpenAI’s in-house data agent — OpenAI 内部数据代理的架构与工作流（2026-01-29）
[OpenAI] Unrolling the Codex agent loop — Codex 代理循环的关键步骤、状态管理与控制点（2026-01-23）
[Manus] 了解 Manus Sandbox — Manus Sandbox 运行环境的隔离与架构（2026-01-14）
[Microsoft Research] Agent Lightning — 无需改码即可为代理添加强化学习（2025-12-11）
[Microsoft Research] Fara-7B — 7B 参数的高效计算机使用代理模型（2025-11-24）
[Anthropic] Advanced Tool Use — Claude 代理式工具调用的动态发现与执行机制（2025-11-24）
[Anthropic] Effective Harnesses For Long Running Agents — 面向长时运行代理的执行框架设计（2025-11-21）
[Google DeepMind] SIMA 2: AI Agent for 3D Virtual Worlds — SIMA 2 在虚拟 3D 世界中的自我改进与泛化（2025-11-13）
[Anthropic] Code Execution With MCP — 用 MCP 代码执行降低代理上下文开销（2025-11-04）
[Google DeepMind] Gemini Robotics 1.5 — Gemini Robotics 1.5 的工具使用与多步执行（2025-09-25）
[Anthropic] Measuring Agent Autonomy — 衡量代理自主权的方法与框架（2025-09-19）
[Anthropic] Writing Tools For Agents — 工具描述、参数设计与错误处理如何影响代理调用成功率（2025-09-11）
[Manus] AI代理的上下文工程：构建Manus的经验教训 — 构建 AI Agent 的上下文工程方法与实践复盘（2025-07-18）
[Kimi] Kimi K2: Open Agentic Intelligence — 1T 参数的 Kimi K2 技术报告与 Agent 架构（2025-07-15）
[Microsoft Research] Magentic-UI — 人类保持控制权的网页代理交互模式与协作界面设计（2025-05-19）
[Google DeepMind] AlphaEvolve — Gemini 驱动的算法进化搜索代理（2025-05-14）
[Anthropic] Multi Agent Research System — 多代理研究系统的架构与权衡（2025-04-22）
[Anthropic] Claude Code Sandboxing — Claude Code 的沙箱隔离与安全机制（2025-04-22）
[Google DeepMind] Gemini Robotics brings AI into the physical world — Gemini Robotics 的感知、规划与物理执行（2025-03-12）
[Anthropic] Claude Think Tool — 让 Claude 在工具调用前先暂停思考的机制（2025-02-12）
[Hugging Face] Open-Source DeepResearch — 开源深度研究 Agent 的系统设计（2025-02-04）
[OpenAI] Introducing deep research — deep research 的多步研究工作流与实现思路（2025-02-02）
[OpenAI] Computer-Using Agent — Computer-Using Agent 的 GUI 操作能力与边界（2025-01-23）
[Microsoft Research] AutoGen v0.4 — AutoGen v0.4 的事件驱动架构、可观测性与代理生命周期管理（2025-01-14）
[Anthropic] Building Effective Agents — 可靠 AI 代理的构建方法、原则与框架总结（2025-01-06）
[Anthropic] Introducing the Model Context Protocol — MCP 协议的架构设计与使用实践（2024-11-19）
[Microsoft Research] Magentic-One — 通用多代理系统的架构与协同（2024-11-05）

代码与工程实践#

[Anthropic] Building C Compiler — 用多个并行 Claude 实例协同实现 C 编译器的分工与集成复盘（2026-02-05）
[Anthropic] AI Assistance Coding Skills — AI 辅助对编程技能形成与保持的影响（2026-01-29）
[Anthropic] Project Vend 2 — 自动商店二阶段复盘与教训（2025-12-18）
[OpenAI] How We Used Codex to Ship Sora for Android in 28 Days — 用 Codex 在 28 天交付 Sora Android 的工程复盘（2025-10-30）
[Anthropic] Petri Open Source Auditing — Petri 用代理式工作流对开源项目做安全审计的架构与发现（2025-10-06）
[Anthropic] A Postmortem Of Three Recent Issues — 三起工程故障的复盘、成因与修复（2025-09-17）
[Anthropic] Project Vend 1 — Claude 经营自动商店的机制与启示（2025-06-27）
[Anthropic] Desktop Extensions — Claude Desktop 扩展的一键安装架构（2025-06-26）
[Anthropic] Claude Code Best Practices — Claude Code 的最佳实践与使用技巧（2025-06-18）
[Anthropic] Impact Software Development — AI 对软件开发的影响实证分析（2025-04-28）
[Anthropic] Effective Context Engineering For AI Agents — 代理场景中的上下文工程与压缩策略（2025-04-22）
[Anthropic] Prompt Engineering for Long Context — 长上下文提示工程的实践技巧（2023-12-18）

模型架构与训练#

[NVIDIA] Nemotron 3 Super — Blackwell 上的 Latent MoE 架构（2026-03-11）
[Microsoft Research] Phi-4-reasoning-vision — 多模态推理模型的训练经验（2026-03-04）
[Hugging Face] Mixture of Experts in Transformers — MoE 结构的原理与实现（2026-02-26）
[NVIDIA] Optimizing MoE Training with Hybrid Expert Parallel — MoE 训练的通信优化方案（2026-02-02）
[NVIDIA] Inside Nemotron 3 — 混合 Mamba-Transformer MoE 架构设计（2025-12-15）
[OpenAI] How we built OWL, the architecture behind Atlas — ChatGPT 浏览器 Atlas 的 OWL 架构设计（2025-10-30）
[DeepSeek] DeepSeek-V3.2-Exp — Sparse Attention 实验版（2025-09-29）
[Meta AI] DINOv3 — 7B 规模自监督视觉骨干的训练方法（2025-08-14）
[Qwen] GSPO: Scalable RL for Language Models — 稳定可扩展的语言模型强化学习算法（2025-07-27）
[Google DeepMind] Introducing Gemma 3n — Gemma 3n 的移动优先架构、MatFormer 与分层嵌入（2025-06-26）
[Microsoft Research] Magma — 多模态代理基础模型的感知与行动能力（2025-02-25）
[Hugging Face] Fine-Tuning Your First LLM — 用 PyTorch 和 HF 完成首个 LLM 微调（2025-02-11）
[Qwen] Qwen2.5-Max: Large-scale MoE — 超大规模 MoE 的训练与扩展经验（2025-01-28）
[Qwen] Global-batch load balance for MoE — MoE 全局批次负载均衡的训练方法（2025-01-21）
[Qwen] Qwen2.5-Math-PRM — 基于过程监督的数学推理模型（2025-01-14）
[DeepSeek] Introducing DeepSeek-V3 — DeepSeek-V3 的 MoE 架构与高吞吐设计（2024-12-26）
[Microsoft Research] Orca-AgentInstruct — 用代理式流程生成高质量合成训练数据（2024-11-14）
[Microsoft Research] Modular models — 模块化 AI 协作开发与持续学习（2024-11-13）
[OpenAI] Simplifying, stabilizing, and scaling continuous-time consistency models — 连续时间一致性模型的简化与扩展（2024-10-23）
[Meta AI] Meta FAIR: SAM 2.1, Spirit LM, LayerSkip — SAM 2.1、Spirit LM 和 LayerSkip 的研究进展（2024-10-18）
[NVIDIA] Llama-3.1-Nemotron-51B — 神经架构搜索优化的 51B 模型（2024-09-23）
[Mistral AI] Pixtral 12B — 12B 参数的原生多模态视觉语言模型架构（2024-09-17）
[NVIDIA] Nemotron-4-340B — Nemotron-4-340B 的合成数据生成管线与奖励模型训练流程（2024-08-16）
[Mistral AI] Codestral Mamba — 基于 Mamba2 架构的代码生成模型与线性时间推理（2024-07-16）
[Hugging Face] SmolLM — 高质量数据训练的小模型实践（2024-07-16）
[OpenAI] Finding GPT-4’s mistakes with GPT-4 — 用 GPT-4 做批评器改进 RLHF 训练（2024-06-27）
[OpenAI] Consistency Models — 一步生成高质量样本的一致性模型训练方法（2024-06-20）
[OpenAI] Improved Techniques for Training Consistency Models — 用伪 Huber 损失与自适应权重改进连续时间一致性模型训练稳定性（2024-06-20）
[Meta AI] Meta FAIR: Chameleon, JASCO, Multi-Token Prediction — Meta FAIR 多项研究模型与数据集的开放发布（2024-06-18）
[Hugging Face] Sentence Transformers v3 — Sentence Transformers v3 的多损失训练、硬负样本挖掘与评测（2024-05-28）
[Mistral AI] Mixtral 8x22B — 8x22B 稀疏 MoE 架构的设计与开源基准表现（2024-04-17）
[Microsoft Research] Orca-Math — 数学专用小模型的设计与训练（2024-03-05）
[OpenAI] Video generation models as world simulators — 把视频生成模型视作世界模拟器的研究框架（2024-02-15）
[Meta AI] V-JEPA — V-JEPA 的自监督视频表征学习与预测架构（2024-02-15）
[Microsoft Research] Phi-2 — Phi-2 用 1.4T token 精选数据训练 2.7B 模型达到 13B 级别表现（2023-12-12）
[Meta AI] DINOv2 — 自监督视觉表征训练的方法与迁移效果（2023-04-17）
[Anthropic] Predictability And Surprise In Large Generative Models — 大型生成模型的可预测性与惊喜的实证分析（2022-02-15）

推理与思维链#

[Google DeepMind] Accelerating mathematical and scientific discovery with Gemini Deep Think — Deep Think 如何辅助数学与科学发现（2026-02-11）
[OpenAI] Evaluating chain-of-thought monitorability — 思维链可监控性评估与监控失配行为的边界（2025-12-18）
[Google DeepMind] Gemini achieves ICPC gold medal — Gemini 在 ICPC 上的编程推理表现（2025-09-17）
[NVIDIA] Train a Reasoning LLM in One Weekend — 用 NeMo 一个周末训练推理 LLM 的实战（2025-07-23）
[Google DeepMind] Gemini Deep Think achieves IMO gold medal — Gemini Deep Think 冲击 IMO 金牌的推理方法（2025-07-21）
[Microsoft Research] Phi-Reasoning — 小模型推理训练与蒸馏方法（2025-07-08）
[Microsoft Research] rStar-Math — 符号推理、数学规划与验证的新方法（2025-06-17）
[Mistral AI] Magistral — 透明思维链推理模型的设计与评测（2025-06-10）
[OpenAI] Thinking with images — 让模型通过图像工具进行视觉推理（2025-04-16）
[Anthropic] Reasoning Models Dont Say Think — 推理模型为何不总会说出真实想法（2025-04-03）
[Qwen] QwQ-32B: Embracing Reinforcement Learning — 强化学习驱动的推理模型实践（2025-03-06）
[Anthropic] Visible Extended Thinking — Claude 显式思维链机制的实现与评测（2025-02-24）
[DeepSeek] DeepSeek-R1 Release — 对标 o1 的开源推理模型与完整技术报告（2025-01-20）
[DeepSeek] DeepSeek-R1-Lite-Preview — DeepSeek-R1-Lite 的推理时计算量与准确率的缩放关系实验（2024-11-20）
[OpenAI] Learning to reason with LLMs — LLM 推理能力的训练方法（2024-09-12）
[Anthropic] Measuring Faithfulness In Chain Of Thought Reasoning — 衡量思维链推理是否真实反映模型内部计算（2023-12-18）
[Anthropic] Question Decomposition Improves Faithfulness — 问题拆解如何提升推理忠实度（2023-07-18）

RAG 与检索#

[Manus] Wide Research：超越上下文窗口 — 突破上下文窗口限制的 Wide Research 机制（2025-10-29）
[Qwen] Qwen2.5-1M: 1M Token Context — 支持百万 token 上下文的模型与框架（2025-01-27）
[Anthropic] Contextual Retrieval — 上下文检索提升相关性与召回（2025-01-06）
[Microsoft Research] LazyGraphRAG — 质量与成本权衡的轻量 GraphRAG（2024-11-25）
[Microsoft Research] GraphRAG: dynamic community selection — 动态社区选择改进全局搜索（2024-11-15）
[Microsoft Research] GraphRAG auto-tuning — GraphRAG 自动调参与域迁移（2024-09-09）
[DeepSeek] Context Caching on Disk — 磁盘上下文缓存降低 API 成本（2024-08-02）
[Microsoft Research] GraphRAG — 知识图谱式检索增强的构建与推理（2024-02-13）

评测与基准#

[OpenAI] Introducing IndQA — 评测印地语等多语言能力的基准（2026-03-25）
[Anthropic] Eval Awareness BrowseComp — 模型在 BrowseComp 评测中识别测试并作弊的现象（2026-03-06）
[OpenAI] Why we no longer evaluate SWE-bench Verified — 停止使用 SWE-bench Verified 的原因与评测局限（2026-02-23）
[OpenAI] Introducing EVMbench — 评测代理在链上环境中的推理能力（2026-02-18）
[Anthropic] Infrastructure Noise — 代理式编码评测中的基础设施噪声分析（2026-02-03）
[Anthropic] AI-Resistant Technical Evaluations — 面向模型作弊的技术评测设计方法（2026-01-21）
[Anthropic] Demystifying Evals For AI Agents — 评估 AI 代理的实用方法与策略（2026-01-09）
[Anthropic] Bloom — 自动行为评测的开源工具与技术报告（2025-12-19）
[OpenAI] Evaluating AI’s ability to perform scientific research tasks — 评测模型执行科学研究任务的边界（2025-12-16）
[Google DeepMind] FACTS Benchmark Suite — 系统评测大模型事实性的基准套件（2025-12-09）
[OpenAI] Defining and evaluating political bias in LLMs — 定义并评估 LLM 政治偏见（2025-10-09）
[OpenAI] Measuring the performance of our models on real-world tasks — 用真实世界任务而非静态基准评测模型（2025-09-25）
[Microsoft Research] BenchmarkQED — 自动化 RAG 评测的开源工具链（2025-06-05）
[OpenAI] Introducing HealthBench — 用真实医疗场景评估模型表现的基准（2025-05-12）
[OpenAI] PaperBench — 评估模型复现 AI 研究论文的能力（2025-04-02）
[Anthropic] SWE-bench Sonnet — Claude 在 SWE-bench Verified 上的表现与方法分析（2025-01-06）
[Anthropic] Statistical Approach To Model Evals — 用置信区间、效应量与多重比较校正替代单点分数的评测统计框架（2024-11-19）
[OpenAI] Introducing SimpleQA — 衡量幻觉和事实问答的基准（2024-10-30）
[OpenAI] Evaluating fairness in ChatGPT — 用公平性评估审视 ChatGPT 的行为差异（2024-10-15）
[OpenAI] MLE-bench — 评测模型做机器学习工程的能力（2024-10-10）
[OpenAI] Introducing SWE-bench Verified — SWE-bench Verified 的设计与代码修复基准意义（2024-08-13）
[Anthropic] Measuring Model Persuasiveness — 衡量模型说服力的方法与实验（2024-04-02）
[Microsoft Research] Steering at the Frontier: Medprompt — Medprompt 的提示策略与效果分析（2023-12-12）
[Anthropic] Evaluating And Mitigating Discrimination In LLM Decisions — 语言模型决策中的歧视评估与缓解（2023-12-07）
[Anthropic] Towards Measuring Subjective Global Opinions In LMs — 衡量语言模型中主观全局观点的表征（2023-06-29）
[Anthropic] Discovering Language Model Behaviors With Model-Written Evaluations — 用模型自写评测发现行为模式（2022-12-19）

安全与对齐#

[OpenAI] How we monitor internal coding agents for misalignment — 内部编码代理的失配监控系统、分级告警与真实部署经验（2026-03-19）
[OpenAI] Why Codex Security Doesn’t Include a SAST Report — 为何用约束推理与验证找漏洞，而非传统 SAST（2026-03-16）
[OpenAI] Designing AI agents to resist prompt injection — 拆解代理抵御提示注入的训练、评测与系统防护思路（2026-03-11）
[OpenAI] Improving instruction hierarchy in frontier LLMs — 前沿大模型的指令层级机制与越狱鲁棒性提升（2026-03-10）
[Anthropic] Mozilla Firefox Security — 用 Claude 对 Firefox 进行安全审计的实践（2026-03-06）
[OpenAI] Reasoning models struggle to control their chains of thought, and that’s good — 推理模型难以精确操控思维链的原因及其安全意义（2026-03-05）
[OpenAI] Keeping your data safe when an AI agent clicks a link — 代理点击外部链接时的隔离、验证与数据防护机制（2026-01-28）
[Anthropic] Disempowerment Patterns — 现实 AI 使用中的用户失权模式与风险分析（2026-01-28）
[Anthropic] Assistant Axis — 用 activation capping 防止模型 persona drift 导致有害输出的安全干预方法（2026-01-19）
[Anthropic] Next Generation Constitutional Classifiers — 下一代宪法分类器的架构改进与防护效果（2026-01-09）
[OpenAI] Continuously hardening ChatGPT Atlas against prompt injection — 用自动化红队与强化学习持续加固 Atlas 抗注入能力（2025-12-22）
[OpenAI] How confessions can keep language models honest — 让模型先自白不确定性以提升诚实度的实验研究（2025-12-03）
[Anthropic] Prompt Injection Defenses — 浏览器场景下提示注入的技术防御方案（2025-11-24）
[Anthropic] Emergent Misalignment Reward Hacking — 从奖励投机到自发失配的演化路径分析（2025-11-21）
[Anthropic] Disrupting AI-Orchestrated Cyber Espionage — 打断 AI 编排的网络间谍活动（2025-11-13）
[Anthropic] Small Samples Poison — 少量有毒样本如何破坏模型安全行为（2025-10-09）
[Google DeepMind] Introducing CodeMender: AI agent for code security — CodeMender 的漏洞定位、修复与验证流程（2025-10-06）
[Qwen] Qwen3Guard: Real-time Safety for Your Token Stream — Qwen3Guard 实时安全检测与分类机制（2025-09-23）
[Google DeepMind] Strengthening the Frontier Safety Framework — Frontier Safety Framework 的风险分层与升级机制（2025-09-22）
[OpenAI] Detecting and reducing scheming in AI models — 模型为什么会学会隐瞒意图的统计分析（2025-09-17）
[OpenAI] Why language models hallucinate — 从评测激励与预训练机制解释幻觉如何产生（2025-09-05）
[Anthropic] Building Safeguards for Claude — Claude 安全防护体系的构建方法与工程经验（2025-08-11）
[Anthropic] Our Framework for Safe and Trustworthy Agents — 代理在高风险场景下的安全边界定义、监控层级与信任链设计（2025-08-04）
[Anthropic] Agentic Misalignment — 虚构公司场景中 LLM 对齐失配和越界行为的系统研究（2025-06-20）
[OpenAI] Toward understanding and preventing misalignment generalization — 错位泛化的成因、风险与预防思路（2025-06-18）
[Anthropic] Shade Arena Sabotage Monitoring — 在对抗环境中监控模型破坏行为的框架（2025-06-16）
[Google DeepMind] Advancing Gemini’s security safeguards — Gemini 安全护栏的强化策略与攻击面防护（2025-05-20）
[Meta AI] AI Defenders: Llama Guard 4, LlamaFirewall — Llama Guard 4 与 LlamaFirewall 的多层防护设计（2025-04-29）
[Anthropic] Values Wild — 模型价值观在真实使用场景中的表现与偏离分析（2025-04-21）
[OpenAI] Our updated Preparedness Framework — Preparedness Framework 的更新与发布门槛规则（2025-04-15）
[Google DeepMind] Evaluating cybersecurity threats of advanced AI — 高级 AI 带来的网络安全威胁评估（2025-04-02）
[Anthropic] Strategic Warning for AI Risk — 前沿红队如何从攻击模式中提炼早期预警信号与风险升级指标（2025-03-19）
[Anthropic] Auditing Hidden Objectives — 审计语言模型隐藏目标的系统方法（2025-03-13）
[Anthropic] Forecasting Rare Behaviors — 预测模型罕见危险行为的统计方法（2025-02-25）
[Google DeepMind] Updating the Frontier Safety Framework — Frontier Safety Framework 的新安全协议与执行要求（2025-02-04）
[Anthropic] Constitutional Classifiers — 抵御通用越狱的分类器设计与对抗评估（2025-02-03）
[OpenAI] Trading inference-time compute for adversarial robustness — 推理时计算与对抗鲁棒性的权衡关系（2025-01-22）
[OpenAI] Deliberative alignment — 通过延迟推理让语言模型学会更安全的对齐策略（2024-12-20）
[Anthropic] Alignment Faking — 大语言模型在训练中伪装对齐的实验发现（2024-12-18）
[Anthropic] Clio — 隐私保护的真实世界 AI 使用分析与安全监控系统（2024-11-26）
[OpenAI] Advancing red teaming with people and AI — 人类与自动化联合红队的方法与流程（2024-11-21）
[Anthropic] Sabotage Evaluations — 评估模型蓄意破坏能力的系统化方法（2024-10-18）
[Google DeepMind] Mapping the misuse of generative AI — 生成式 AI 滥用模式与攻击场景的系统梳理（2024-08-02）
[OpenAI] Improving Model Safety Behavior with Rule-Based Rewards — 规则奖励如何改善模型安全行为（2024-07-24）
[Meta AI] Llama 3.1 safety: Llama Guard 3, Prompt Guard — Llama 3.1 的安全护栏与防护工具套件（2024-07-23）
[OpenAI] Prover-Verifier Games improve legibility of language model outputs — 用证明者-验证者博弈提升模型输出可审计性（2024-07-17）
[OpenAI] A Holistic Approach to Undesired Content Detection in the Real World — 真实世界内容审核系统的分类、标注与主动学习（2024-06-20）
[Anthropic] Reward Tampering — 模型篡改自身奖励信号的行为发现与分析（2024-06-17）
[Anthropic] Challenges in Red Teaming AI Systems — 红队测试 AI 系统的实操挑战（2024-06-11）
[Google DeepMind] SynthID: watermarking AI text and video — AI 生成内容的文本与视频水印技术（2024-05-14）
[OpenAI] Understanding the source of what we see and hear online — 内容来源识别、生成溯源与真实性标记（2024-05-07）
[Anthropic] Probes Catch Sleeper Agents — 用探针检测潜伏后门行为的方法与局限（2024-04-23）
[OpenAI] The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions — 训练 LLM 优先遵循特权指令的层级训练方法（2024-04-19）
[Anthropic] Many-Shot Jailbreaking — 利用长上下文中大量示例绕过安全对齐的攻击方法（2024-04-02）
[OpenAI] LLM-aided biological threat early warning system — LLM 辅助生物威胁预警系统的设计蓝图（2024-01-31）
[Anthropic] Sleeper Agents — 后门植入型欺骗性 LLM 在安全训练后仍然存活的实验（2024-01-14）
[Anthropic] Constitutional AI: Harmlessness From AI Feedback — 从 AI 反馈学习无害行为的 Constitutional AI 方法（2023-12-18）
[Anthropic] Frontier Threats: Red Teaming for AI Safety — 前沿威胁场景下的红队方法论（2023-12-18）
[Meta AI] Purple Llama: open trust and safety — 开源安全评测与防护工具链（2023-12-07）
[Anthropic] Specific Versus General Principles For Constitutional AI — Constitutional AI 中具体规则与通用原则的对比实验（2023-10-24）
[Anthropic] Towards Understanding Sycophancy In Language Models — 模型阿谀奉承行为的成因分析与缓解思路（2023-10-23）
[Anthropic] Collective Constitutional AI — 用公众输入定义宪法并训练对齐模型（2023-10-16）
[Google DeepMind] An early warning system for novel AI risks — 新型 AI 风险预警框架的评估思路与信号设计（2023-05-25）
[Anthropic] The Capacity For Moral Self Correction In LLMs — 大语言模型道德自我纠正能力的实验验证（2023-02-15）
[Anthropic] Measuring Progress On Scalable Oversight For LLMs — 可扩展监督方法的进展与评估（2022-11-04）
[Anthropic] Red Teaming Language Models — 红队攻击语言模型的方法、规模效应与经验教训（2022-08-22）
[Anthropic] Training A Helpful And Harmless Assistant With RLHF — 用 RLHF 训练有用且无害助手的方法与权衡（2022-04-12）
[Anthropic] A General Language Assistant As A Laboratory For Alignment — 把通用语言助手当作对齐实验室的研究框架（2021-12-01）

可解释性#

[Anthropic] Persona Selection Model — 模型内部角色选择机制的分析（2026-02-23）
[Google DeepMind] Gemma Scope 2 — 面向安全社区的模型行为可解释工具链（2025-12-19）
[OpenAI] Understanding neural networks through sparse circuits — 用稀疏电路视角解释神经网络内部机制（2025-11-13）
[Anthropic] Introspection — 语言模型自我内省能力的实验研究（2025-10-29）
[Anthropic] Persona Vectors — 用向量表示和控制模型人格特征（2025-08-01）
[Anthropic] Open Source Circuit Tracing — 开源发布的 Transformer 电路追踪工具链及其在 Claude 上的实验（2025-05-29）
[Anthropic] Tracing Thoughts Language Model — 用归因图追踪 Claude 从输入到输出的内部计算路径（2025-03-27）
[Anthropic] Crosscoder Model Diffing — 跨模型差异分析的可解释方法（2025-02-20）
[Anthropic] Evaluating Feature Steering — 用特征 steering 缓解社会偏见的案例研究（2024-10-25）
[Anthropic] Features As Classifiers — 证明稀疏自编码器提取的字典特征可直接用作零样本分类器（2024-10-16）
[Anthropic] Transformer Circuits Thread — 可解释性团队月度研究进展汇总（电路分析、特征分解、叠加理论等初步实验与发现）（2024-10-01）
[Anthropic] Engineering Challenges Interpretability — 规模化可解释性研究的工程挑战（2024-06-13）
[OpenAI] Extracting Concepts from GPT-4 — 从 GPT-4 内部表示中提取可解释概念的方法与可视化（2024-06-06）
[Anthropic] Mapping Mind Language Model — 映射语言模型内部认知结构（2024-05-21）
[Anthropic] Transformer Circuits — Transformer 内部电路机制的基础研究（2024-03-08）
[Anthropic] Scaling Laws And Interpretability Of Learning From Repeated Data — 重复数据学习中的缩放规律与可解释性（2023-12-18）
[Anthropic] Language Models Mostly Know What They Know — 模型对自身知识边界的自我感知能力（2023-12-18）
[Anthropic] Decomposing Language Models Into Understandable Components — 拆解语言模型为可理解组件（2023-10-05）
[Anthropic] Towards Monosemanticity: Dictionary Learning — 用字典学习实现语言模型的单义分解（2023-10-05）
[Anthropic] Influence Functions — 影响函数在语言模型中的应用方法（2023-08-08）
[Anthropic] Studying LLM Generalization With Influence Functions — 用影响函数研究大模型泛化机制（2023-08-08）
[Anthropic] Distributed Representations Composition Superposition — 分布式表示中的组合与叠加机制（2023-05-04）
[Anthropic] Privileged Bases In The Transformer Residual Stream — Transformer 残差流中特权基的发现与分析（2023-03-16）
[Anthropic] Superposition Memorization And Double Descent — 叠加、记忆与双下降的关系（2023-01-05）
[Anthropic] Toy Models Of Superposition — 叠加现象的玩具模型理论分析（2022-09-14）
[Anthropic] Softmax Linear Units — SoLU 激活函数对可解释性的影响（2022-06-17）
[Anthropic] In Context Learning And Induction Heads — 情境学习与归纳头的机制发现（2022-03-08）
[Anthropic] A Mathematical Framework For Transformer Circuits — Transformer 电路的数学框架与可解释分析方法（2021-12-22）

系统与基础设施#

[NVIDIA] NVIDIA Dynamo 1.0 — Dynamo 1.0 的分布式推理路由、负载均衡与生产级编排（2026-03-16）
[Meta AI] MTIA — Meta 自研 AI 芯片的系统设计与部署（2026-03-11）
[Hugging Face] Ulysses Sequence Parallelism — 分布式序列并行支撑百万 token 长上下文训练（2026-03-09）
[NVIDIA] Tuning Flash Attention in CUDA Tile — CUDA Tile 中 Flash Attention 调优（2026-03-05）
[OpenAI] Scaling PostgreSQL to power 800 million ChatGPT users — 支撑 8 亿用户的 PostgreSQL 扩展与运维经验（2026-01-22）
[NVIDIA] High-Performance GEMM in CUDA Tile — CUDA Tile 高性能矩阵乘法实现（2026-01-14）
[Meta AI] ExecuTorch — 端侧推理引擎的部署与性能（2025-11-21）
[Anthropic] Confidential Inference Trusted VMs — 基于可信虚拟机的保密推理与安全隔离方案（2025-06-18）
[Microsoft Research] BitNet inference on edge devices — 低比特量化让 LLM 在边缘设备高效推理（2025-02-05）
[Hugging Face] KV Caching Explained — KV 缓存机制与 Transformer 推理加速原理（2025-01-30）
[NVIDIA] TensorRT-LLM Speculative Decoding — 投机解码与 FP8 量化实现 3.55x 吞吐提升（2024-12-17）
[Microsoft Research] Advances in run-time strategies for foundation models — 推理时搜索、自适应计算分配与选择性生成的运行时策略综述（2024-11-27）
[NVIDIA] Megatron-Core — 检查点开销降低 26-50x 的工程方案（2024-07-12）
[NVIDIA] TensorRT Model Optimizer — QAT 与稀疏化加速推理（2024-05-08）

多模态与生成#

[Meta AI] Segment Anything Model 3 — SAM 3 的实时检测、跟踪与全局推理（2026-03-27）
[Google DeepMind] D4RT: teaching AI to see in 4D — 四维场景重建与空间理解模型（2026-01-22）
[Meta AI] SAM Audio — SAM Audio 用文本、图像或音频提示实现通用音频分离（2025-12-16）
[Meta AI] SAM 3D — SAM 3D 将 Segment Anything 扩展到三维点云的分割与理解（2025-11-19）
[Meta AI] Omnilingual ASR: 1600+ languages — 1600+ 语种的自动语音识别（2025-11-10）
[Anthropic] Project Fetch Robot Dog — 让 Claude 控制真实机器人狗执行多步任务的能力边界测试（2025-11-05）
[Google DeepMind] Genie 3: A new frontier for world models — Genie 3 世界模型的交互式环境生成（2025-08-05）
[Google DeepMind] Gemini Robotics On-Device — 端侧机器人推理与快速适配（2025-06-24）
[Meta AI] V-JEPA 2 — V-JEPA 2 的联合嵌入预测架构在视频理解与物理推理上的突破（2025-06-11）
[Hugging Face] SmolVLM2 — 端侧视频理解与多模态升级（2025-02-20）
[Google DeepMind] Genie 2 — 大规模基础世界模型的训练与能力边界（2024-12-04）
[Hugging Face] SmolVLM — SmolVLM 在 2B 参数下实现端侧视觉问答的训练与部署（2024-11-26）
[Google DeepMind] Pushing the frontiers of audio generation — 音频生成模型的语音合成与多语言能力（2024-10-30）
[Meta AI] Meta Movie Gen — 图像、视频与音频生成的协同训练（2024-10-04）
[OpenAI] Expanding on how Voice Engine works — Voice Engine 的工作机制与安全研究（2024-06-07）

科学与数学#

[OpenAI] GPT-5.2 derives a new result in theoretical physics — GPT-5.2 辅助理论物理推导获得新结果（2026-03-25）
[OpenAI] Extending single-minus amplitudes to gravitons — 用 GPT-5.2 推导引力子单负振幅的新结果（2026-03-25）
[OpenAI] GPT-5 lowers the cost of cell-free protein synthesis — GPT-5 优化无细胞蛋白合成降低实验成本（2026-03-25）
[OpenAI] Early experiments in accelerating science with GPT-5 — GPT-5 在数学、物理、生物科研中的早期实验（2026-03-25）
[OpenAI] Our First Proof submissions — 模型在数学证明任务中的表现（2026-03-25）
[OpenAI] Measuring AI’s capability to accelerate biological research — 测量 AI 加速湿实验室生物研究的能力（2025-12-16）
[OpenAI] Advancing science and math with GPT-5.2 — GPT-5.2 在科学与数学应用中的能力与局限（2025-12-11）
[Google DeepMind] Discovering new solutions to fluid dynamics — 用 AI 发现 Navier-Stokes 方程新解并推进百年流体力学问题（2025-09-18）
[OpenAI] Accelerating life sciences research — 用 AI 加速蛋白工程与生命科学研究（2025-08-22）
[Google DeepMind] AlphaEarth Foundations — AlphaEarth 融合卫星与地面数据构建高精度全球地表模型（2025-07-30）
[Google DeepMind] AlphaGenome — DNA 序列建模与调控预测（2025-06-25）
[Google DeepMind] Tropical cyclone prediction with AI — AI 辅助飓风预测的实验与效果（2025-06-12）
[Meta AI] Meta FAIR Science: Open Molecules 2025 — 分子、材料与神经科学的开源成果（2025-05-14）
[Google DeepMind] GenCast — 天气不确定性建模与极端条件预报（2024-12-04）
[Meta AI] Open Catalyst — 面向清洁氢能的材料模拟与催化剂发现（2024-11-19）
[Google DeepMind] AlphaProteo — AI 设计新型蛋白质与实验验证（2024-09-05）