AlphaProof:DeepMind 用神經符號 AI 解開奧林匹克數學題
DeepMind 的 AlphaProof 結合語言模型與強化學習,在 2024 年國際數學奧林匹克中解出 6 題中的 4 題,達到銀牌水準——這是 AI 第一次在形式化數學推理上接近頂尖人類選手。
Tag
40 篇文章
DeepMind 的 AlphaProof 結合語言模型與強化學習,在 2024 年國際數學奧林匹克中解出 6 題中的 4 題,達到銀牌水準——這是 AI 第一次在形式化數學推理上接近頂尖人類選手。
MCP(Model Context Protocol)是 Anthropic 設計的開放協定,讓 Claude Code 能夠透過標準化介面呼叫外部工具和資料來源。2024 年 11 月發布後迅速成為 AI 代理人工具整合的事實標準,被 Cursor、Windsurf 等 40+ 款編輯器採用。
AI 工具改變的不只是你做事的速度,而是你思考問題的方式——從「怎麼做」轉向「做什麼」和「判斷對不對」,這個轉變對工程師的長期影響值得認真思考。
高通的核心押注不是訓練 AI,而是在推理端——把 AI 跑在手機、PC、汽車、機器人上。6G 和 Physical AI 是同一個邏輯的延伸:讓更多算力離資料更近。
AlphaFold 的蛋白質結構預測成就已獲 2024 年諾貝爾化學獎肯定,其背後的多序列比對 + Transformer 架構如何改寫了結構生物學的規則。
Jeff Dean 分析 AI 計算能力過去十年增長百萬倍的真實來源:不只是摩爾定律,而是硬體專用化、軟體最佳化和模型架構創新三者合力的結果,以及下一個階段的技術方向。
AlphaFold 在 2020 年以接近實驗測定精度解決了蛋白質折疊問題,2024 年為 Demis Hassabis 和 John Jumper 贏得諾貝爾化學獎。其資料庫現已包含 2 億+ 個蛋白質結構,正在加速藥物開發和材料科學研究。
Demis Hassabis 對『硬題』的偏好不是個人風格,而是一種研究策略:選那些一旦解開就能帶出大量下游價值的問題,而不是選容易出論文的問題。這個策略是 DeepMind 持續在科學前沿突破的核心原因。
AI agent 的帳單暴增通常來自三個地方:選了比任務需求更強的模型、沒控制 tool call 的深度、以及 context window 浪費。正確的成本控制策略是依任務複雜度選模型,不是全部用最強的。
本週 GitHub 熱點:桌面 AI 代理人框架、無痕 Chromium 分支、把任何軟體變成 CLI 工具的框架、以及即時流式 3D 場景重建模型——五個都值得加到 starred 清單的專案。
DeepMind 在 Demis Hassabis 帶領下的核心策略是:用遊戲環境訓練出的泛化推理能力,解決科學上最難的現實問題。AlphaFold、AlphaGeometry、AlphaDev、GNoME 是這個策略最具體的成果。
遞迴自我改進(RSI)是 AGI 路徑中最被討論的概念之一,但現實中 AI 的自我改進仍受限於訓練資料邊界、評估者可靠性和對齊問題。2026 年的 AI 已能改進特定任務的提示詞和程式碼,但距離「真正的」遞迴自我改進還有明確的技術壁壘。
Google I/O 2026 的核心訊號不是某個產品功能,而是 Google 已從「AI 輔助工具」全面轉向「自主代理人」策略:Gemini 3.5 Flash、Gemini Omni、Gemini Spark,每個產品背後都是同一個方向——AI 不是你的助理,是你的代理人。
DeepSeek V4 是一個 1.6 兆參數(49B 活躍)的 MoE 開源模型,100 萬 token 上下文,在部分基準測試上超越 GPT-5.2,且是首款針對華為 Ascend 晶片最佳化的 DeepSeek 模型。
智慧型手機硬體創新已趨近飽和——大螢幕、多鏡頭、全天候電池不再是差異化因素。下一個競爭賽場是 AI 軟體體驗與可折疊形態,但這兩個方向都需要產業重新定義「升級的理由」。
手機相機拍出的照片越來越「AI 感」——過度降噪導致皮膚像塑膠、月亮是貼上去的、細節是 AI 捏造的。問題不在硬體性能,而在廠商用 AI 補足硬體先天限制卻沒有清楚告知使用者。
2026 年 Google I/O 發布的 Android 更新是近年最大規模:Create My Widget 讓 AI 生成自訂小工具、Immersive Navigation 重建 3D 地圖介面、Quick Share 支援跨平台 AirDrop,以及多項 AI 詐騙防護功能。
真正能用 AI 持續自我改進的企業,靠的不是導入工具,而是建立資料收集→模型推論→自動執行→評估→再收集的閉環。這需要組織結構和激勵機制的配套改變。
PageIndex 用階層樹索引 + LLM Agent 推理取代向量 DB,在長文件場景(FinanceBench 98.7%)表現亮眼;本站的 Hybrid RAG 則以向量搜尋 + 關鍵字 fallback 在 Cloudflare edge 上跑,取捨完全不同。
問一個財務問題,Dexter 自動拆解成子任務、選工具執行(財報 API + 搜尋)、自我驗證直到結果夠充分,所有推理步驟記錄到 JSONL scratchpad。TypeScript + Bun,支援多個 LLM provider。
Claude Code 的 endpoint 指向 localhost:20128,9Router 自動從訂閱服務 → 便宜 API → 免費服務做三層 fallback,OAuth token 自動刷新,格式轉換透明。
裝一個 Rust binary,git/npm/docker 等命令的輸出自動壓縮後再送進 AI context,30 分鐘 session 從 118,000 token 壓到 23,900。
AI 代理越做越差,根本原因不是模型變笨,而是 Context Window 裡累積的噪音讓訊號被稀釋——這個現象叫 Context Rot,解決方法是把 Context 當 RAM 管理,而不是永遠往裡面加東西。
2026 年 5 月初 GitHub 最熱的三件事:Warp 終端機開源衝上 37K Stars、GitHub Copilot 推出 Agent Skills 開放標準、Codex CLI 正式 GA——AI 開發工具鏈的整合格局正在成形。
CS153 的核心命題:AI 基礎設施正在全棧重寫,而四大瓶頸(Context、Compute、Capital、Culture)決定了誰能跑在最前面。這篇整理課程的核心框架與各場演講的實質洞察。
Stanford CS146S 是第一門系統性教 vibe coding 的課程,從 LLM 原理、Coding Agent、MCP、AI IDE 到 Post-Deployment,10 週橫跨完整開發生命週期,有中文版 repo 和逐週學習記錄影片可跟。
Stanford「Beyond LLM」課程的核心地圖:為什麼 base model 不夠用、三種強化單一 LLM 的工具(Prompt Engineering / Fine-Tuning / RAG),以及如何設計 Agentic Workflow 與 Multi-Agent 系統。
LLM Wiki 不是查詢工具,是讓知識隨時間複利成長的架構——LLM 主動建構並維護一個 markdown 知識庫,而非每次查詢都重新從原始文件撈取。
OpenAI Michael Bolin 深入解析 Codex CLI 的 agent loop:從 prompt 組建、token 推理、工具執行,到 context window 管理與自動壓縮。
OpenAI Codex CLI 是一個在本機終端機運行的 AI Coding Agent,可以讀取你的程式碼庫、修改檔案、執行測試,像 Claude Code 一樣,但走 OpenAI 的生態系。
AI 訓練與推論對記憶體的需求遠超傳統運算,HBM(High Bandwidth Memory)供不應求且持續到 2026 年以後。記憶體半導體市場 2024 年成長 78%,SK Hynix 佔 HBM 市場 62%,這個超級周期預計延續到 2028 年。
10B 左右的小型語言模型(SLM)已經能在本機即時執行,足以做到動態 NPC 對話、程序化敘事生成、自適應遊戲內容。研究顯示 SLM 在短篇創意內容上品質接近大型模型,重點在於訓練資料策劃和推論時的約束設計。
2023-2024 年 GitHub 增長最快的幾個專案幾乎都是 AI 工具:Open Interpreter 靠「讓 LLM 在本機直接跑程式碼」這個概念在數天內衝破萬星,Ollama 以 261% 成長奪 2024 年 ROSS Index 冠軍。這波浪潮說明開發者社群對本地 AI 工具的強烈渴望。
群核科技(酷家乐母公司)在 2026 年 4 月成為「杭州六小龍」中首個 IPO 的公司,上市首日漲幅達 171%。其技術核心是空間智能平台 SpatialVerse,將 15 年積累的 3D 室內空間資料轉化為具身 AI 的訓練場景與 API 能力。
即時語音 AI 英文家教:WebRTC 麥克風互動 + Gemini 即時糾錯 + 課後中文報告。
140 種食物 × 4 種慢性病即時風險評分,Workers AI 個人化建議,零月費。
arXiv 論文 RAG 平台:每日自動爬取 + 混合向量搜尋 + 雙語 Q&A + Grafana 監控。
ChatGPT 的誕生並非一蹴而就,而是經過『開天闢地』的自我學習、『指點迷津』的人類引導,以及『超越自我』的強化學習三個關鍵階段。
創作者小宁子用 7 天讓 AI 全面代替思考與消費 AI 生成內容,MRI 顯示全腦激活像素從 44,000 降至 20,000(降幅 54%),工作記憶出現毀滅性下降,但空間思考與批判性思維不受影響,且可恢復。
把對話當成可寫成文章的材料:用結構化 prompt 與範本,讓 Claude Code 自動把 debugging thread 轉為可發佈的技術文章。