AI 技术博客合集#
以下内容已按领域模块进行分类,优先保留研究、系统、安全、评测与工程复盘,删除普通功能发布、模型发布和案例宣传。同一篇文章若涉及多个领域,会在不同模块下重复出现。
数据源与 Agent 抓取规则#
💡 Agent 自动化抓取规则:
- 定期(如每周)访问以下数据源的 RSS 或 Sitemap,获取新发布的文章列表。
- 对每篇文章抓取正文内容,判断是否具备技术深度。保留标准:文章需要涉及方法论、架构设计、实验结论、工程复盘、评测数据或安全分析等实质性技术内容。过滤标准:跳过以下类型——纯产品发布公告(标题含 “Introducing X” 且无架构细节的通常是发布公告)、客户案例宣传、商业合作新闻、招聘信息、经济分析报告、行业政策/调查报告(如蒸馏攻击披露、责任披露流程等虽涉及安全但无可复现的技术方法)、面向普通用户的科普解释文。
- 对保留的文章生成一句话的中文核心摘要(需准确概括文章的核心技术贡献,避免模板化表述),加上对应的
[Provider]标签。好的摘要示例:用 activation capping 防止模型 persona drift 导致有害输出的安全干预方法;差的摘要示例:模型安全的研究进展、多代理框架的方法。- 根据文章的核心技术贡献归入对应模块(可多归类),但只归入确实相关的模块,不要因为摘要中偶然提到某个词就归入该模块。
- 新增文章插入到对应模块的开头(最新的在最前面),不要删除或修改已有条目。每条末尾附上发布日期,格式为
(YYYY-MM-DD)。日期优先取页面正文可见日期,其次取 metadatePublished。已知日期陷阱:① OpenAI RSS feed 返回的日期经常是批量更新日期而非真实发布日期,必须打开文章取正文第一行日期;② Anthropic 的 structured metadata 日期不可靠,务必以正文可见日期为准;③ Microsoft Research 的article:published_time比较可靠可直接使用。
模块分类指引#
| 模块 | 归类标准 |
|---|---|
| Agent 工程 | Agent 架构设计、工具调用、多 Agent 协同、执行框架、沙箱 |
| 代码与工程实践 | 编码工具、工程复盘、开发工作流、提示工程实践、故障分析 |
| 模型架构与训练 | 模型结构创新、训练方法、MoE、RLHF、数据工程、蒸馏 |
| 推理与思维链 | 推理能力训练、思维链机制、CoT 忠实度、推理模型设计 |
| RAG 与检索 | 检索增强生成、长上下文、知识图谱检索、上下文工程 |
| 评测与基准 | 提出或分析评测方法论、基准设计、评测指标体系 |
| 安全与对齐 | 模型安全、对齐方法、红队攻防、prompt injection 防御、安全政策框架 |
| 可解释性 | 理解模型内部机制:电路分析、特征提取、叠加理论、稀疏分解 |
| 系统与基础设施 | 推理优化、训练基础设施、芯片、CUDA、量化、数据库扩展 |
| 多模态与生成 | 视觉/音频/视频/3D 模型、生成模型、机器人感知 |
| 科学与数学 | AI 用于科学发现:蛋白质、物理、数学证明、天气、基因 |
支持的源列表#
| 源 | 地址 / 获取方式 |
|---|---|
| OpenAI | RSS: https://openai.com/news/rss.xml |
| Anthropic | Sitemap: https://www.anthropic.com/sitemap.xml,过滤 /research/*, /engineering/* |
| Google DeepMind | RSS: https://deepmind.google/blog/rss.xml |
| Meta AI | https://ai.meta.com/blog/ |
| Microsoft Research | RSS: https://www.microsoft.com/en-us/research/feed/ |
| NVIDIA | RSS: https://blogs.nvidia.com/feed/ |
| Hugging Face | RSS: https://huggingface.co/blog/feed.xml |
| Qwen | 遍历: https://qwen.ai/research(原 GitHub Pages 已重定向) |
| DeepSeek | 解析: https://api-docs.deepseek.com/updates(原 /news 已失效) |
| Kimi | 解析: https://platform.moonshot.ai/blog |
| Mistral | 解析: https://mistral.ai/news/ |
| Manus | 遍历: https://manus.im/zh-cn/blog |
Agent 工程#
- [Microsoft Research] AgentRx — AI 代理的系统化调试框架(2026-03-12)
- [Microsoft Research] PlugMem — 代理记忆的知识复用与更新机制(2026-03-10)
- [Microsoft Research] CORPGEN — 面向真实工作场景的复杂任务代理(2026-02-26)
- [OpenAI] From model to agent: Equipping the Responses API with a computer environment — Responses API 接入计算机环境并演进为可操作代理(2026-02-11)
- [OpenAI] Harness engineering: leveraging Codex in an agent-first world — agent-first 开发中使用 Codex harness 的工程方法(2026-02-11)
- [OpenAI] Unlocking the Codex harness: how we built the App Server — Codex App Server 的协议设计、事件流与集成(2026-02-04)
- [OpenAI] Inside OpenAI’s in-house data agent — OpenAI 内部数据代理的架构与工作流(2026-01-29)
- [OpenAI] Unrolling the Codex agent loop — Codex 代理循环的关键步骤、状态管理与控制点(2026-01-23)
- [Manus] 了解 Manus Sandbox — Manus Sandbox 运行环境的隔离与架构(2026-01-14)
- [Microsoft Research] Agent Lightning — 无需改码即可为代理添加强化学习(2025-12-11)
- [Microsoft Research] Fara-7B — 7B 参数的高效计算机使用代理模型(2025-11-24)
- [Anthropic] Advanced Tool Use — Claude 代理式工具调用的动态发现与执行机制(2025-11-24)
- [Anthropic] Effective Harnesses For Long Running Agents — 面向长时运行代理的执行框架设计(2025-11-21)
- [Google DeepMind] SIMA 2: AI Agent for 3D Virtual Worlds — SIMA 2 在虚拟 3D 世界中的自我改进与泛化(2025-11-13)
- [Anthropic] Code Execution With MCP — 用 MCP 代码执行降低代理上下文开销(2025-11-04)
- [Google DeepMind] Gemini Robotics 1.5 — Gemini Robotics 1.5 的工具使用与多步执行(2025-09-25)
- [Anthropic] Measuring Agent Autonomy — 衡量代理自主权的方法与框架(2025-09-19)
- [Anthropic] Writing Tools For Agents — 工具描述、参数设计与错误处理如何影响代理调用成功率(2025-09-11)
- [Manus] AI代理的上下文工程:构建Manus的经验教训 — 构建 AI Agent 的上下文工程方法与实践复盘(2025-07-18)
- [Kimi] Kimi K2: Open Agentic Intelligence — 1T 参数的 Kimi K2 技术报告与 Agent 架构(2025-07-15)
- [Microsoft Research] Magentic-UI — 人类保持控制权的网页代理交互模式与协作界面设计(2025-05-19)
- [Google DeepMind] AlphaEvolve — Gemini 驱动的算法进化搜索代理(2025-05-14)
- [Anthropic] Multi Agent Research System — 多代理研究系统的架构与权衡(2025-04-22)
- [Anthropic] Claude Code Sandboxing — Claude Code 的沙箱隔离与安全机制(2025-04-22)
- [Google DeepMind] Gemini Robotics brings AI into the physical world — Gemini Robotics 的感知、规划与物理执行(2025-03-12)
- [Anthropic] Claude Think Tool — 让 Claude 在工具调用前先暂停思考的机制(2025-02-12)
- [Hugging Face] Open-Source DeepResearch — 开源深度研究 Agent 的系统设计(2025-02-04)
- [OpenAI] Introducing deep research — deep research 的多步研究工作流与实现思路(2025-02-02)
- [OpenAI] Computer-Using Agent — Computer-Using Agent 的 GUI 操作能力与边界(2025-01-23)
- [Microsoft Research] AutoGen v0.4 — AutoGen v0.4 的事件驱动架构、可观测性与代理生命周期管理(2025-01-14)
- [Anthropic] Building Effective Agents — 可靠 AI 代理的构建方法、原则与框架总结(2025-01-06)
- [Anthropic] Introducing the Model Context Protocol — MCP 协议的架构设计与使用实践(2024-11-19)
- [Microsoft Research] Magentic-One — 通用多代理系统的架构与协同(2024-11-05)
代码与工程实践#
- [Anthropic] Building C Compiler — 用多个并行 Claude 实例协同实现 C 编译器的分工与集成复盘(2026-02-05)
- [Anthropic] AI Assistance Coding Skills — AI 辅助对编程技能形成与保持的影响(2026-01-29)
- [Anthropic] Project Vend 2 — 自动商店二阶段复盘与教训(2025-12-18)
- [OpenAI] How We Used Codex to Ship Sora for Android in 28 Days — 用 Codex 在 28 天交付 Sora Android 的工程复盘(2025-10-30)
- [Anthropic] Petri Open Source Auditing — Petri 用代理式工作流对开源项目做安全审计的架构与发现(2025-10-06)
- [Anthropic] A Postmortem Of Three Recent Issues — 三起工程故障的复盘、成因与修复(2025-09-17)
- [Anthropic] Project Vend 1 — Claude 经营自动商店的机制与启示(2025-06-27)
- [Anthropic] Desktop Extensions — Claude Desktop 扩展的一键安装架构(2025-06-26)
- [Anthropic] Claude Code Best Practices — Claude Code 的最佳实践与使用技巧(2025-06-18)
- [Anthropic] Impact Software Development — AI 对软件开发的影响实证分析(2025-04-28)
- [Anthropic] Effective Context Engineering For AI Agents — 代理场景中的上下文工程与压缩策略(2025-04-22)
- [Anthropic] Prompt Engineering for Long Context — 长上下文提示工程的实践技巧(2023-12-18)
模型架构与训练#
- [NVIDIA] Nemotron 3 Super — Blackwell 上的 Latent MoE 架构(2026-03-11)
- [Microsoft Research] Phi-4-reasoning-vision — 多模态推理模型的训练经验(2026-03-04)
- [Hugging Face] Mixture of Experts in Transformers — MoE 结构的原理与实现(2026-02-26)
- [NVIDIA] Optimizing MoE Training with Hybrid Expert Parallel — MoE 训练的通信优化方案(2026-02-02)
- [NVIDIA] Inside Nemotron 3 — 混合 Mamba-Transformer MoE 架构设计(2025-12-15)
- [OpenAI] How we built OWL, the architecture behind Atlas — ChatGPT 浏览器 Atlas 的 OWL 架构设计(2025-10-30)
- [DeepSeek] DeepSeek-V3.2-Exp — Sparse Attention 实验版(2025-09-29)
- [Meta AI] DINOv3 — 7B 规模自监督视觉骨干的训练方法(2025-08-14)
- [Qwen] GSPO: Scalable RL for Language Models — 稳定可扩展的语言模型强化学习算法(2025-07-27)
- [Google DeepMind] Introducing Gemma 3n — Gemma 3n 的移动优先架构、MatFormer 与分层嵌入(2025-06-26)
- [Microsoft Research] Magma — 多模态代理基础模型的感知与行动能力(2025-02-25)
- [Hugging Face] Fine-Tuning Your First LLM — 用 PyTorch 和 HF 完成首个 LLM 微调(2025-02-11)
- [Qwen] Qwen2.5-Max: Large-scale MoE — 超大规模 MoE 的训练与扩展经验(2025-01-28)
- [Qwen] Global-batch load balance for MoE — MoE 全局批次负载均衡的训练方法(2025-01-21)
- [Qwen] Qwen2.5-Math-PRM — 基于过程监督的数学推理模型(2025-01-14)
- [DeepSeek] Introducing DeepSeek-V3 — DeepSeek-V3 的 MoE 架构与高吞吐设计(2024-12-26)
- [Microsoft Research] Orca-AgentInstruct — 用代理式流程生成高质量合成训练数据(2024-11-14)
- [Microsoft Research] Modular models — 模块化 AI 协作开发与持续学习(2024-11-13)
- [OpenAI] Simplifying, stabilizing, and scaling continuous-time consistency models — 连续时间一致性模型的简化与扩展(2024-10-23)
- [Meta AI] Meta FAIR: SAM 2.1, Spirit LM, LayerSkip — SAM 2.1、Spirit LM 和 LayerSkip 的研究进展(2024-10-18)
- [NVIDIA] Llama-3.1-Nemotron-51B — 神经架构搜索优化的 51B 模型(2024-09-23)
- [Mistral AI] Pixtral 12B — 12B 参数的原生多模态视觉语言模型架构(2024-09-17)
- [NVIDIA] Nemotron-4-340B — Nemotron-4-340B 的合成数据生成管线与奖励模型训练流程(2024-08-16)
- [Mistral AI] Codestral Mamba — 基于 Mamba2 架构的代码生成模型与线性时间推理(2024-07-16)
- [Hugging Face] SmolLM — 高质量数据训练的小模型实践(2024-07-16)
- [OpenAI] Finding GPT-4’s mistakes with GPT-4 — 用 GPT-4 做批评器改进 RLHF 训练(2024-06-27)
- [OpenAI] Consistency Models — 一步生成高质量样本的一致性模型训练方法(2024-06-20)
- [OpenAI] Improved Techniques for Training Consistency Models — 用伪 Huber 损失与自适应权重改进连续时间一致性模型训练稳定性(2024-06-20)
- [Meta AI] Meta FAIR: Chameleon, JASCO, Multi-Token Prediction — Meta FAIR 多项研究模型与数据集的开放发布(2024-06-18)
- [Hugging Face] Sentence Transformers v3 — Sentence Transformers v3 的多损失训练、硬负样本挖掘与评测(2024-05-28)
- [Mistral AI] Mixtral 8x22B — 8x22B 稀疏 MoE 架构的设计与开源基准表现(2024-04-17)
- [Microsoft Research] Orca-Math — 数学专用小模型的设计与训练(2024-03-05)
- [OpenAI] Video generation models as world simulators — 把视频生成模型视作世界模拟器的研究框架(2024-02-15)
- [Meta AI] V-JEPA — V-JEPA 的自监督视频表征学习与预测架构(2024-02-15)
- [Microsoft Research] Phi-2 — Phi-2 用 1.4T token 精选数据训练 2.7B 模型达到 13B 级别表现(2023-12-12)
- [Meta AI] DINOv2 — 自监督视觉表征训练的方法与迁移效果(2023-04-17)
- [Anthropic] Predictability And Surprise In Large Generative Models — 大型生成模型的可预测性与惊喜的实证分析(2022-02-15)
推理与思维链#
- [Google DeepMind] Accelerating mathematical and scientific discovery with Gemini Deep Think — Deep Think 如何辅助数学与科学发现(2026-02-11)
- [OpenAI] Evaluating chain-of-thought monitorability — 思维链可监控性评估与监控失配行为的边界(2025-12-18)
- [Google DeepMind] Gemini achieves ICPC gold medal — Gemini 在 ICPC 上的编程推理表现(2025-09-17)
- [NVIDIA] Train a Reasoning LLM in One Weekend — 用 NeMo 一个周末训练推理 LLM 的实战(2025-07-23)
- [Google DeepMind] Gemini Deep Think achieves IMO gold medal — Gemini Deep Think 冲击 IMO 金牌的推理方法(2025-07-21)
- [Microsoft Research] Phi-Reasoning — 小模型推理训练与蒸馏方法(2025-07-08)
- [Microsoft Research] rStar-Math — 符号推理、数学规划与验证的新方法(2025-06-17)
- [Mistral AI] Magistral — 透明思维链推理模型的设计与评测(2025-06-10)
- [OpenAI] Thinking with images — 让模型通过图像工具进行视觉推理(2025-04-16)
- [Anthropic] Reasoning Models Dont Say Think — 推理模型为何不总会说出真实想法(2025-04-03)
- [Qwen] QwQ-32B: Embracing Reinforcement Learning — 强化学习驱动的推理模型实践(2025-03-06)
- [Anthropic] Visible Extended Thinking — Claude 显式思维链机制的实现与评测(2025-02-24)
- [DeepSeek] DeepSeek-R1 Release — 对标 o1 的开源推理模型与完整技术报告(2025-01-20)
- [DeepSeek] DeepSeek-R1-Lite-Preview — DeepSeek-R1-Lite 的推理时计算量与准确率的缩放关系实验(2024-11-20)
- [OpenAI] Learning to reason with LLMs — LLM 推理能力的训练方法(2024-09-12)
- [Anthropic] Measuring Faithfulness In Chain Of Thought Reasoning — 衡量思维链推理是否真实反映模型内部计算(2023-12-18)
- [Anthropic] Question Decomposition Improves Faithfulness — 问题拆解如何提升推理忠实度(2023-07-18)
RAG 与检索#
- [Manus] Wide Research:超越上下文窗口 — 突破上下文窗口限制的 Wide Research 机制(2025-10-29)
- [Qwen] Qwen2.5-1M: 1M Token Context — 支持百万 token 上下文的模型与框架(2025-01-27)
- [Anthropic] Contextual Retrieval — 上下文检索提升相关性与召回(2025-01-06)
- [Microsoft Research] LazyGraphRAG — 质量与成本权衡的轻量 GraphRAG(2024-11-25)
- [Microsoft Research] GraphRAG: dynamic community selection — 动态社区选择改进全局搜索(2024-11-15)
- [Microsoft Research] GraphRAG auto-tuning — GraphRAG 自动调参与域迁移(2024-09-09)
- [DeepSeek] Context Caching on Disk — 磁盘上下文缓存降低 API 成本(2024-08-02)
- [Microsoft Research] GraphRAG — 知识图谱式检索增强的构建与推理(2024-02-13)
评测与基准#
- [OpenAI] Introducing IndQA — 评测印地语等多语言能力的基准(2026-03-25)
- [Anthropic] Eval Awareness BrowseComp — 模型在 BrowseComp 评测中识别测试并作弊的现象(2026-03-06)
- [OpenAI] Why we no longer evaluate SWE-bench Verified — 停止使用 SWE-bench Verified 的原因与评测局限(2026-02-23)
- [OpenAI] Introducing EVMbench — 评测代理在链上环境中的推理能力(2026-02-18)
- [Anthropic] Infrastructure Noise — 代理式编码评测中的基础设施噪声分析(2026-02-03)
- [Anthropic] AI-Resistant Technical Evaluations — 面向模型作弊的技术评测设计方法(2026-01-21)
- [Anthropic] Demystifying Evals For AI Agents — 评估 AI 代理的实用方法与策略(2026-01-09)
- [Anthropic] Bloom — 自动行为评测的开源工具与技术报告(2025-12-19)
- [OpenAI] Evaluating AI’s ability to perform scientific research tasks — 评测模型执行科学研究任务的边界(2025-12-16)
- [Google DeepMind] FACTS Benchmark Suite — 系统评测大模型事实性的基准套件(2025-12-09)
- [OpenAI] Defining and evaluating political bias in LLMs — 定义并评估 LLM 政治偏见(2025-10-09)
- [OpenAI] Measuring the performance of our models on real-world tasks — 用真实世界任务而非静态基准评测模型(2025-09-25)
- [Microsoft Research] BenchmarkQED — 自动化 RAG 评测的开源工具链(2025-06-05)
- [OpenAI] Introducing HealthBench — 用真实医疗场景评估模型表现的基准(2025-05-12)
- [OpenAI] PaperBench — 评估模型复现 AI 研究论文的能力(2025-04-02)
- [Anthropic] SWE-bench Sonnet — Claude 在 SWE-bench Verified 上的表现与方法分析(2025-01-06)
- [Anthropic] Statistical Approach To Model Evals — 用置信区间、效应量与多重比较校正替代单点分数的评测统计框架(2024-11-19)
- [OpenAI] Introducing SimpleQA — 衡量幻觉和事实问答的基准(2024-10-30)
- [OpenAI] Evaluating fairness in ChatGPT — 用公平性评估审视 ChatGPT 的行为差异(2024-10-15)
- [OpenAI] MLE-bench — 评测模型做机器学习工程的能力(2024-10-10)
- [OpenAI] Introducing SWE-bench Verified — SWE-bench Verified 的设计与代码修复基准意义(2024-08-13)
- [Anthropic] Measuring Model Persuasiveness — 衡量模型说服力的方法与实验(2024-04-02)
- [Microsoft Research] Steering at the Frontier: Medprompt — Medprompt 的提示策略与效果分析(2023-12-12)
- [Anthropic] Evaluating And Mitigating Discrimination In LLM Decisions — 语言模型决策中的歧视评估与缓解(2023-12-07)
- [Anthropic] Towards Measuring Subjective Global Opinions In LMs — 衡量语言模型中主观全局观点的表征(2023-06-29)
- [Anthropic] Discovering Language Model Behaviors With Model-Written Evaluations — 用模型自写评测发现行为模式(2022-12-19)
安全与对齐#
- [OpenAI] How we monitor internal coding agents for misalignment — 内部编码代理的失配监控系统、分级告警与真实部署经验(2026-03-19)
- [OpenAI] Why Codex Security Doesn’t Include a SAST Report — 为何用约束推理与验证找漏洞,而非传统 SAST(2026-03-16)
- [OpenAI] Designing AI agents to resist prompt injection — 拆解代理抵御提示注入的训练、评测与系统防护思路(2026-03-11)
- [OpenAI] Improving instruction hierarchy in frontier LLMs — 前沿大模型的指令层级机制与越狱鲁棒性提升(2026-03-10)
- [Anthropic] Mozilla Firefox Security — 用 Claude 对 Firefox 进行安全审计的实践(2026-03-06)
- [OpenAI] Reasoning models struggle to control their chains of thought, and that’s good — 推理模型难以精确操控思维链的原因及其安全意义(2026-03-05)
- [OpenAI] Keeping your data safe when an AI agent clicks a link — 代理点击外部链接时的隔离、验证与数据防护机制(2026-01-28)
- [Anthropic] Disempowerment Patterns — 现实 AI 使用中的用户失权模式与风险分析(2026-01-28)
- [Anthropic] Assistant Axis — 用 activation capping 防止模型 persona drift 导致有害输出的安全干预方法(2026-01-19)
- [Anthropic] Next Generation Constitutional Classifiers — 下一代宪法分类器的架构改进与防护效果(2026-01-09)
- [OpenAI] Continuously hardening ChatGPT Atlas against prompt injection — 用自动化红队与强化学习持续加固 Atlas 抗注入能力(2025-12-22)
- [OpenAI] How confessions can keep language models honest — 让模型先自白不确定性以提升诚实度的实验研究(2025-12-03)
- [Anthropic] Prompt Injection Defenses — 浏览器场景下提示注入的技术防御方案(2025-11-24)
- [Anthropic] Emergent Misalignment Reward Hacking — 从奖励投机到自发失配的演化路径分析(2025-11-21)
- [Anthropic] Disrupting AI-Orchestrated Cyber Espionage — 打断 AI 编排的网络间谍活动(2025-11-13)
- [Anthropic] Small Samples Poison — 少量有毒样本如何破坏模型安全行为(2025-10-09)
- [Google DeepMind] Introducing CodeMender: AI agent for code security — CodeMender 的漏洞定位、修复与验证流程(2025-10-06)
- [Qwen] Qwen3Guard: Real-time Safety for Your Token Stream — Qwen3Guard 实时安全检测与分类机制(2025-09-23)
- [Google DeepMind] Strengthening the Frontier Safety Framework — Frontier Safety Framework 的风险分层与升级机制(2025-09-22)
- [OpenAI] Detecting and reducing scheming in AI models — 模型为什么会学会隐瞒意图的统计分析(2025-09-17)
- [OpenAI] Why language models hallucinate — 从评测激励与预训练机制解释幻觉如何产生(2025-09-05)
- [Anthropic] Building Safeguards for Claude — Claude 安全防护体系的构建方法与工程经验(2025-08-11)
- [Anthropic] Our Framework for Safe and Trustworthy Agents — 代理在高风险场景下的安全边界定义、监控层级与信任链设计(2025-08-04)
- [Anthropic] Agentic Misalignment — 虚构公司场景中 LLM 对齐失配和越界行为的系统研究(2025-06-20)
- [OpenAI] Toward understanding and preventing misalignment generalization — 错位泛化的成因、风险与预防思路(2025-06-18)
- [Anthropic] Shade Arena Sabotage Monitoring — 在对抗环境中监控模型破坏行为的框架(2025-06-16)
- [Google DeepMind] Advancing Gemini’s security safeguards — Gemini 安全护栏的强化策略与攻击面防护(2025-05-20)
- [Meta AI] AI Defenders: Llama Guard 4, LlamaFirewall — Llama Guard 4 与 LlamaFirewall 的多层防护设计(2025-04-29)
- [Anthropic] Values Wild — 模型价值观在真实使用场景中的表现与偏离分析(2025-04-21)
- [OpenAI] Our updated Preparedness Framework — Preparedness Framework 的更新与发布门槛规则(2025-04-15)
- [Google DeepMind] Evaluating cybersecurity threats of advanced AI — 高级 AI 带来的网络安全威胁评估(2025-04-02)
- [Anthropic] Strategic Warning for AI Risk — 前沿红队如何从攻击模式中提炼早期预警信号与风险升级指标(2025-03-19)
- [Anthropic] Auditing Hidden Objectives — 审计语言模型隐藏目标的系统方法(2025-03-13)
- [Anthropic] Forecasting Rare Behaviors — 预测模型罕见危险行为的统计方法(2025-02-25)
- [Google DeepMind] Updating the Frontier Safety Framework — Frontier Safety Framework 的新安全协议与执行要求(2025-02-04)
- [Anthropic] Constitutional Classifiers — 抵御通用越狱的分类器设计与对抗评估(2025-02-03)
- [OpenAI] Trading inference-time compute for adversarial robustness — 推理时计算与对抗鲁棒性的权衡关系(2025-01-22)
- [OpenAI] Deliberative alignment — 通过延迟推理让语言模型学会更安全的对齐策略(2024-12-20)
- [Anthropic] Alignment Faking — 大语言模型在训练中伪装对齐的实验发现(2024-12-18)
- [Anthropic] Clio — 隐私保护的真实世界 AI 使用分析与安全监控系统(2024-11-26)
- [OpenAI] Advancing red teaming with people and AI — 人类与自动化联合红队的方法与流程(2024-11-21)
- [Anthropic] Sabotage Evaluations — 评估模型蓄意破坏能力的系统化方法(2024-10-18)
- [Google DeepMind] Mapping the misuse of generative AI — 生成式 AI 滥用模式与攻击场景的系统梳理(2024-08-02)
- [OpenAI] Improving Model Safety Behavior with Rule-Based Rewards — 规则奖励如何改善模型安全行为(2024-07-24)
- [Meta AI] Llama 3.1 safety: Llama Guard 3, Prompt Guard — Llama 3.1 的安全护栏与防护工具套件(2024-07-23)
- [OpenAI] Prover-Verifier Games improve legibility of language model outputs — 用证明者-验证者博弈提升模型输出可审计性(2024-07-17)
- [OpenAI] A Holistic Approach to Undesired Content Detection in the Real World — 真实世界内容审核系统的分类、标注与主动学习(2024-06-20)
- [Anthropic] Reward Tampering — 模型篡改自身奖励信号的行为发现与分析(2024-06-17)
- [Anthropic] Challenges in Red Teaming AI Systems — 红队测试 AI 系统的实操挑战(2024-06-11)
- [Google DeepMind] SynthID: watermarking AI text and video — AI 生成内容的文本与视频水印技术(2024-05-14)
- [OpenAI] Understanding the source of what we see and hear online — 内容来源识别、生成溯源与真实性标记(2024-05-07)
- [Anthropic] Probes Catch Sleeper Agents — 用探针检测潜伏后门行为的方法与局限(2024-04-23)
- [OpenAI] The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions — 训练 LLM 优先遵循特权指令的层级训练方法(2024-04-19)
- [Anthropic] Many-Shot Jailbreaking — 利用长上下文中大量示例绕过安全对齐的攻击方法(2024-04-02)
- [OpenAI] LLM-aided biological threat early warning system — LLM 辅助生物威胁预警系统的设计蓝图(2024-01-31)
- [Anthropic] Sleeper Agents — 后门植入型欺骗性 LLM 在安全训练后仍然存活的实验(2024-01-14)
- [Anthropic] Constitutional AI: Harmlessness From AI Feedback — 从 AI 反馈学习无害行为的 Constitutional AI 方法(2023-12-18)
- [Anthropic] Frontier Threats: Red Teaming for AI Safety — 前沿威胁场景下的红队方法论(2023-12-18)
- [Meta AI] Purple Llama: open trust and safety — 开源安全评测与防护工具链(2023-12-07)
- [Anthropic] Specific Versus General Principles For Constitutional AI — Constitutional AI 中具体规则与通用原则的对比实验(2023-10-24)
- [Anthropic] Towards Understanding Sycophancy In Language Models — 模型阿谀奉承行为的成因分析与缓解思路(2023-10-23)
- [Anthropic] Collective Constitutional AI — 用公众输入定义宪法并训练对齐模型(2023-10-16)
- [Google DeepMind] An early warning system for novel AI risks — 新型 AI 风险预警框架的评估思路与信号设计(2023-05-25)
- [Anthropic] The Capacity For Moral Self Correction In LLMs — 大语言模型道德自我纠正能力的实验验证(2023-02-15)
- [Anthropic] Measuring Progress On Scalable Oversight For LLMs — 可扩展监督方法的进展与评估(2022-11-04)
- [Anthropic] Red Teaming Language Models — 红队攻击语言模型的方法、规模效应与经验教训(2022-08-22)
- [Anthropic] Training A Helpful And Harmless Assistant With RLHF — 用 RLHF 训练有用且无害助手的方法与权衡(2022-04-12)
- [Anthropic] A General Language Assistant As A Laboratory For Alignment — 把通用语言助手当作对齐实验室的研究框架(2021-12-01)
可解释性#
- [Anthropic] Persona Selection Model — 模型内部角色选择机制的分析(2026-02-23)
- [Google DeepMind] Gemma Scope 2 — 面向安全社区的模型行为可解释工具链(2025-12-19)
- [OpenAI] Understanding neural networks through sparse circuits — 用稀疏电路视角解释神经网络内部机制(2025-11-13)
- [Anthropic] Introspection — 语言模型自我内省能力的实验研究(2025-10-29)
- [Anthropic] Persona Vectors — 用向量表示和控制模型人格特征(2025-08-01)
- [Anthropic] Open Source Circuit Tracing — 开源发布的 Transformer 电路追踪工具链及其在 Claude 上的实验(2025-05-29)
- [Anthropic] Tracing Thoughts Language Model — 用归因图追踪 Claude 从输入到输出的内部计算路径(2025-03-27)
- [Anthropic] Crosscoder Model Diffing — 跨模型差异分析的可解释方法(2025-02-20)
- [Anthropic] Evaluating Feature Steering — 用特征 steering 缓解社会偏见的案例研究(2024-10-25)
- [Anthropic] Features As Classifiers — 证明稀疏自编码器提取的字典特征可直接用作零样本分类器(2024-10-16)
- [Anthropic] Transformer Circuits Thread — 可解释性团队月度研究进展汇总(电路分析、特征分解、叠加理论等初步实验与发现)(2024-10-01)
- [Anthropic] Engineering Challenges Interpretability — 规模化可解释性研究的工程挑战(2024-06-13)
- [OpenAI] Extracting Concepts from GPT-4 — 从 GPT-4 内部表示中提取可解释概念的方法与可视化(2024-06-06)
- [Anthropic] Mapping Mind Language Model — 映射语言模型内部认知结构(2024-05-21)
- [Anthropic] Transformer Circuits — Transformer 内部电路机制的基础研究(2024-03-08)
- [Anthropic] Scaling Laws And Interpretability Of Learning From Repeated Data — 重复数据学习中的缩放规律与可解释性(2023-12-18)
- [Anthropic] Language Models Mostly Know What They Know — 模型对自身知识边界的自我感知能力(2023-12-18)
- [Anthropic] Decomposing Language Models Into Understandable Components — 拆解语言模型为可理解组件(2023-10-05)
- [Anthropic] Towards Monosemanticity: Dictionary Learning — 用字典学习实现语言模型的单义分解(2023-10-05)
- [Anthropic] Influence Functions — 影响函数在语言模型中的应用方法(2023-08-08)
- [Anthropic] Studying LLM Generalization With Influence Functions — 用影响函数研究大模型泛化机制(2023-08-08)
- [Anthropic] Distributed Representations Composition Superposition — 分布式表示中的组合与叠加机制(2023-05-04)
- [Anthropic] Privileged Bases In The Transformer Residual Stream — Transformer 残差流中特权基的发现与分析(2023-03-16)
- [Anthropic] Superposition Memorization And Double Descent — 叠加、记忆与双下降的关系(2023-01-05)
- [Anthropic] Toy Models Of Superposition — 叠加现象的玩具模型理论分析(2022-09-14)
- [Anthropic] Softmax Linear Units — SoLU 激活函数对可解释性的影响(2022-06-17)
- [Anthropic] In Context Learning And Induction Heads — 情境学习与归纳头的机制发现(2022-03-08)
- [Anthropic] A Mathematical Framework For Transformer Circuits — Transformer 电路的数学框架与可解释分析方法(2021-12-22)
系统与基础设施#
- [NVIDIA] NVIDIA Dynamo 1.0 — Dynamo 1.0 的分布式推理路由、负载均衡与生产级编排(2026-03-16)
- [Meta AI] MTIA — Meta 自研 AI 芯片的系统设计与部署(2026-03-11)
- [Hugging Face] Ulysses Sequence Parallelism — 分布式序列并行支撑百万 token 长上下文训练(2026-03-09)
- [NVIDIA] Tuning Flash Attention in CUDA Tile — CUDA Tile 中 Flash Attention 调优(2026-03-05)
- [OpenAI] Scaling PostgreSQL to power 800 million ChatGPT users — 支撑 8 亿用户的 PostgreSQL 扩展与运维经验(2026-01-22)
- [NVIDIA] High-Performance GEMM in CUDA Tile — CUDA Tile 高性能矩阵乘法实现(2026-01-14)
- [Meta AI] ExecuTorch — 端侧推理引擎的部署与性能(2025-11-21)
- [Anthropic] Confidential Inference Trusted VMs — 基于可信虚拟机的保密推理与安全隔离方案(2025-06-18)
- [Microsoft Research] BitNet inference on edge devices — 低比特量化让 LLM 在边缘设备高效推理(2025-02-05)
- [Hugging Face] KV Caching Explained — KV 缓存机制与 Transformer 推理加速原理(2025-01-30)
- [NVIDIA] TensorRT-LLM Speculative Decoding — 投机解码与 FP8 量化实现 3.55x 吞吐提升(2024-12-17)
- [Microsoft Research] Advances in run-time strategies for foundation models — 推理时搜索、自适应计算分配与选择性生成的运行时策略综述(2024-11-27)
- [NVIDIA] Megatron-Core — 检查点开销降低 26-50x 的工程方案(2024-07-12)
- [NVIDIA] TensorRT Model Optimizer — QAT 与稀疏化加速推理(2024-05-08)
多模态与生成#
- [Meta AI] Segment Anything Model 3 — SAM 3 的实时检测、跟踪与全局推理(2026-03-27)
- [Google DeepMind] D4RT: teaching AI to see in 4D — 四维场景重建与空间理解模型(2026-01-22)
- [Meta AI] SAM Audio — SAM Audio 用文本、图像或音频提示实现通用音频分离(2025-12-16)
- [Meta AI] SAM 3D — SAM 3D 将 Segment Anything 扩展到三维点云的分割与理解(2025-11-19)
- [Meta AI] Omnilingual ASR: 1600+ languages — 1600+ 语种的自动语音识别(2025-11-10)
- [Anthropic] Project Fetch Robot Dog — 让 Claude 控制真实机器人狗执行多步任务的能力边界测试(2025-11-05)
- [Google DeepMind] Genie 3: A new frontier for world models — Genie 3 世界模型的交互式环境生成(2025-08-05)
- [Google DeepMind] Gemini Robotics On-Device — 端侧机器人推理与快速适配(2025-06-24)
- [Meta AI] V-JEPA 2 — V-JEPA 2 的联合嵌入预测架构在视频理解与物理推理上的突破(2025-06-11)
- [Hugging Face] SmolVLM2 — 端侧视频理解与多模态升级(2025-02-20)
- [Google DeepMind] Genie 2 — 大规模基础世界模型的训练与能力边界(2024-12-04)
- [Hugging Face] SmolVLM — SmolVLM 在 2B 参数下实现端侧视觉问答的训练与部署(2024-11-26)
- [Google DeepMind] Pushing the frontiers of audio generation — 音频生成模型的语音合成与多语言能力(2024-10-30)
- [Meta AI] Meta Movie Gen — 图像、视频与音频生成的协同训练(2024-10-04)
- [OpenAI] Expanding on how Voice Engine works — Voice Engine 的工作机制与安全研究(2024-06-07)
科学与数学#
- [OpenAI] GPT-5.2 derives a new result in theoretical physics — GPT-5.2 辅助理论物理推导获得新结果(2026-03-25)
- [OpenAI] Extending single-minus amplitudes to gravitons — 用 GPT-5.2 推导引力子单负振幅的新结果(2026-03-25)
- [OpenAI] GPT-5 lowers the cost of cell-free protein synthesis — GPT-5 优化无细胞蛋白合成降低实验成本(2026-03-25)
- [OpenAI] Early experiments in accelerating science with GPT-5 — GPT-5 在数学、物理、生物科研中的早期实验(2026-03-25)
- [OpenAI] Our First Proof submissions — 模型在数学证明任务中的表现(2026-03-25)
- [OpenAI] Measuring AI’s capability to accelerate biological research — 测量 AI 加速湿实验室生物研究的能力(2025-12-16)
- [OpenAI] Advancing science and math with GPT-5.2 — GPT-5.2 在科学与数学应用中的能力与局限(2025-12-11)
- [Google DeepMind] Discovering new solutions to fluid dynamics — 用 AI 发现 Navier-Stokes 方程新解并推进百年流体力学问题(2025-09-18)
- [OpenAI] Accelerating life sciences research — 用 AI 加速蛋白工程与生命科学研究(2025-08-22)
- [Google DeepMind] AlphaEarth Foundations — AlphaEarth 融合卫星与地面数据构建高精度全球地表模型(2025-07-30)
- [Google DeepMind] AlphaGenome — DNA 序列建模与调控预测(2025-06-25)
- [Google DeepMind] Tropical cyclone prediction with AI — AI 辅助飓风预测的实验与效果(2025-06-12)
- [Meta AI] Meta FAIR Science: Open Molecules 2025 — 分子、材料与神经科学的开源成果(2025-05-14)
- [Google DeepMind] GenCast — 天气不确定性建模与极端条件预报(2024-12-04)
- [Meta AI] Open Catalyst — 面向清洁氢能的材料模拟与催化剂发现(2024-11-19)
- [Google DeepMind] AlphaProteo — AI 设计新型蛋白质与实验验证(2024-09-05)