newsruka / daily
ISSUE 12 · 2026.05.07 · 9 MIN READ
產業動態 編寫 by 水無瀨 澪

OpenAI 把幻覺砍半。前沿模型同步進政府測試桌。

OpenAI 5/5 公布 GPT-5.5 Instant、醫學法律財務領域幻覺較前代減 52.5%;NIST CAISI 與 DeepMind、微軟、xAI 簽前沿模型政府測試協議;Anthropic 推 10 個金融代理人模板;YC 把資金推向硬科技。

AI 工具與前沿模型治理進入一輪同步推進。OpenAI 5/5 公布輕量模型 GPT-5.5 Instant 把幻覺砍半,Anthropic 同期把 Claude 代理人模板鋪進金融服務工作流,NIST 旗下的 AI 標準與創新中心 CAISI 5/5 也跟 Google DeepMind、微軟、xAI 簽下前沿模型公開前的政府測試協議。三件事連在一起看就是同一個產業階段的兩面:模型穩定度被刻意推高,政府介入也被同步刻意放進來。

矽谷加速器 Y Combinator 公布 2026 夏季 Request for Startups,15 個賽道過半轉向硬科技。Anthropic 的 Claude Code 之父 Boris Cherny 在 Sequoia AI Ascent 直接丟出「coding 已經解完了」這句話。台灣端的故事在綠電:1 座 1 GW 資料中心已經足以吃光全台自由綠電市場所有量能。資安端則是 Linux 核心 9 年漏洞 Copy Fail 與一連串 Apache、WhatsApp、Android 修補。

下面五節依產業重要性排。

OpenAI 與 Anthropic 同步出工具,但更大的事在政府那邊

OpenAI 5/5 公布 GPT-5.5 Instant,定位是接替 5.3 Instant 的輕量主力。

  • 醫學、法律、財務這三個關鍵領域回應幻覺較 5.3 Instant 減少 52.5%
  • 挑戰性對話中使用者標記出的事實錯誤少了 37.3%
  • 回答更簡潔、不嚕嗦
  • 可透過過去對話歷程或連結 Gmail 取得個人化內容
  • 數理與視覺分析能力同步提升,旨在處理日常所有任務

幻覺降一半在數字層級已經是大幅度,但這條更新單獨看會看不到全貌。同一天 Anthropic 把 Claude 代理人模板鋪進金融服務業,一次釋出 10 款,鎖定研究、客戶經營、合規與財務營運四種常見工作流。模板可以製作 Pitchbook 提案簡報、篩檢 KYC 文件、建立財務模型、處理總帳調節與月結。部署形式有三種:作為 Claude Cowork 外掛、作為 Claude Code 外掛,或以 Claude Managed Agents 部署指南形式在 Claude Platform 上跑成受管理代理人。

兩家同步出工具是當天 AI 模型故事的表層。底下那層是政府。

NIST 旗下的 AI 標準與創新中心 CAISI 5/5 宣布,已與 Google DeepMind、微軟、xAI 簽下協議,讓美國政府可以在前沿 AI 模型公開發布前取得未發布版本,進行能力、資安風險與國家安全影響評估。意思是把過去的「模型發布之後追溯檢驗」改成「發布之前的政府測試」。三家被簽進來的,恰好就是 OpenAI 之外現在公認跑在最前面的前沿實驗室。

如果這個機制走得順,下一個被指名簽進來的就會是 OpenAI 與 Anthropic。模型穩定度與政府監管是同一個產業階段的兩面,OpenAI 把幻覺砍半本身已經是「想被監管接受的姿態」,Anthropic 推金融代理人模板的意義也不只是賣工具,是把代理人放進銀行 KYC 與月結這種高合規場景,逼自己提早承擔審查流程。

YC 2026 夏季把錢推向硬科技

矽谷加速器 Y Combinator 每季公布的 Request for Startups(RFS)一向被讀為產業趨勢風向球。2026 年夏季的 15 個賽道名單跟過去幾年差別很大:超過一半轉向資本密集的「實體世界」與硬科技,涵蓋太空基礎設施、無人機防禦與半導體供應鏈。

YC 團隊在這次清單裡明確寫下「AI 已經不再是一個功能,而是成為了基礎」。意思是過去兩年大量出現的「AI 外掛」開發已經被退出投資清單。YC 想找的是從基因裡就是 AI 原生的新架構。Tom Blomfield 提出的「企業大腦」與 Diana Hu 提出的「企業 AI 作業系統」是這條路線的核心命題:企業的知識不再散落在員工腦海、舊信箱或 Slack 訊息裡,而是把每一次會議、客服對談與工單轉化成結構化資料,讓 AI 即時監控、比較、調整營運。

硬科技那一側賽道則包含 Garry Tan 領軍的「低農藥農業 AI」,目標是用電腦視覺、精準機器人與生物療法消滅九成農藥使用;Adi Oltean 提出的「太空工業能力」直接挑戰用月球土壤的熔融物進行 3D 列印建造結構;Tyler Bosmeny 推的「反無人機蜂群防禦系統」則延續 YC 對國防的興趣。Bosmeny 自己定調這條賽道:「無人機防禦看起來已經不再像是操作武器,而更像是運行一個即時的分散式系統。未來的贏家,長得會像網路安全巨頭 Cloudflare,而不是傳統軍火商雷神。」

第三條方向是傳統服務業的軟體化。律師、會計、設計、廣告代理商長期受困於「賣人頭」商業模式,員工數量直接卡住營收上限。YC 認為下一代機構不再賣軟體工具給客戶,而是直接賣「最終的服務結果」。一間設計公司過去要花 3 週提案、開會、修改的事,AI 原生代理機構可能 3 到 5 人就在更短時間裡完成。

寫程式從打字變成調度

Sequoia Capital 主辦的 AI Ascent 2026 大會上,Anthropic 的 Claude Code 創始人 Boris Cherny 在主場對談丟下:「對我來說,coding 已經解完了。」他指出 2026 年至今幾乎沒有親手打過一行程式碼,所有程式都由模型代寫,每天手機推送幾十個 PR 通知,最高紀錄是一天 150 個 PR。

衝擊不在「AI 會寫程式」這件事本身,那件事兩年前 Sonnet 3.5 推出 type-ahead 自動補全時就已經發生。衝擊在於工作型態:寫 code 的人正在從「親手敲鍵盤」變成「對一群 AI 下指令、分派任務的調度者」。Cherny 在現場舉手調查,CLI 用戶遠多於 IDE 用戶。他自己最近主要在 iOS 上跑 Claude。日常工作畫面是同時打開 5 至 10 個 session,每個 session 底下掛著幾十個 agent,白天通常有「幾百個 agent 在跑」、晚上是「幾千個 agent 在做更深的工作」。

Cherny 點名最關鍵的工具是 /loop

  • 比 cron 更聰明的排程器,可設定每分鐘、每 5 分鐘、每天等頻率
  • 一個 loop 在「照顧」他的 PR、自動修 CI、自動 rebase
  • 另一個盯著 CI 健康度,遇到 flaky test 自動排查、修復
  • 還有一個每 30 分鐘從 Twitter 抓使用者回饋分群整理
  • 「我現在覺得 loop 就是未來。如果你還沒玩過,強烈建議。」

他預測未來軟體團隊將以「跨領域通才」為主,這跟過去業界的「通才」定義不太一樣:過去指 iOS 也能寫、web 也能寫、後端 server 也能搞,仍是在同一個專業領域裡橫向展開;Cherny 講的是真正跨進產品設計、商業邏輯、客戶溝通、運維的工程師,因為調度 AI 大隊的人,必須懂上下游。

對照組是 DeepMind 的草創年代。馬拉比 30 小時長談寫成的紀實揭露,哈薩比斯規劃 3 支柱撐起 AGI 早期:信念(只收 AGI 死忠信徒)、時間(藉商業副業向創投爭取耐心)、天才保母文化(包容怪才但要為他們指方向)。共同創辦人謝恩.雷格的話:「我們只要死忠信徒。我們去參加會議,告訴大家:『我們正在創辦一家 AGI 公司。』八成的人會對我們翻白眼,這其實是個很有效的方法,能幫我們篩選出應該交談的對象。」

同一本書另一段揭露了當年 Google 收購談判:諾塞克與馬斯克在洛杉磯一場派對的衣帽間裡,深夜 Skype 給哈薩比斯,輪番拋出特斯拉、SpaceX 接手等方案,全被婉拒(特斯拉現金流不足、SpaceX 沒有足夠運算能力)。Google 收購團隊原以「工程師人頭計價」估值每位科學家 1000 萬美元,但被哈薩比斯與蘇利曼以辛頓那家小公司每位科學家接近 1500 萬美元為錨點反殺,並爭取「道德控制權」條款,把 AGI 安全條件寫進收購結構。

如果 Cherny 講的「跨領域通才」是 2030 年的工程師樣貌,DeepMind 草創時期的「死忠信徒文化」就是它最直接的源頭:兩條故事都建立在「不接受常規工程定義」這件事上。

1 GW 資料中心吃光全台自由綠電

歐盟碳邊境調整機制 CBAM 2026 年正式實施,台達電、緯創承諾的 2030 年 100% 綠電期限剩 4 年。經濟部長龔明鑫 4 月在立法院坦言,原訂 2025 年達成 20% 綠電的目標將延至年底甚至明年,原因是半導體擴廠與 AI 算力需求導致全台用電量超乎預期。經濟部曾預估 2030 年綠電需求達 400 億度,現在還遠遠不夠。1 座 1 GW 資料中心,就足以吃光台灣自由綠電市場所有量能。

民間售電業端,台灣再生能源售電業者登記數已達 122 家,但 80% 至 90% 轉供量集中在前 10 大業者手中。陽光伏特家是少數能挺過淘汰的業者之一。售電交易處協理卓俞志直言市場已從「現貨制」翻轉為「預購制」,訂單排到第 2 年。陽光伏特家 2025 整年轉供 1.33 億度、連 3 年獲利、半導體產業交易量已占整體業務 20%。轉攻吃電怪獸是被逼的:一家大型半導體廠一年需求動輒 450 萬到 1 千萬度,10 家中小企業的綠電總量都餵不飽一隻。

台電 1 月推出「小額綠電」、訂下每度 5.8 至 6.3 元的天花板,售電業夾在發電端高昂收購成本與終端用戶價格上限之間。卓俞志提出 2 刀流檢驗法判斷售電業永續經營能力:第一刀切掉只登記沒實際交易紀錄的空殼,活躍名單剩前十;第二刀檢視這十家業者過去 3 年營利為正。

富威電力是首家掛牌上市的民營售電公司,主打「綠電 + 節能 + 儲能」三能合一。台電轉供以 15 分鐘為一個結算週期,發電端產出 100 度、企業只用 80 度,剩下的 20 度會變成「餘電」。富威以 20 多種產業歷史用電數據結合氣象資訊精準預測太陽能與陸域風電發電量,再用表後儲能把白天餘電存下、夜間釋放,藉此提升綠電匹配比例。富威至今已轉供綠電到 448 個據點、服務 27 種產業、累積 7.2 億度,鴻海、日月光、緯創、中華電信都是合作客戶。

醫療端則是另一條戰線。衛福部資訊處處長李建璋 5/6 在臺灣資安大會醫療資安論壇宣布,下一步將在「負責任 AI 中心」推動導入 SBOM 軟體物料清單機制,降低醫療 AI 軟體供應鏈漏洞風險。同時,年初與微軟、Google Cloud、AWS 三大公有雲業者協商的「醫療主權雲八大方針」正式版近期將公布。醫院未來選擇公有雲服務雖會多 5% 至 15% 成本,但加密金鑰由醫院掌握、資料未經授權不得二次利用等保障入列。李建璋強調:醫療 AI 的資安風險不只來自模型本身,而是背後龐大的軟體供應鏈。

Linux 9 年 Copy Fail 漏洞、Apache 與 WhatsApp 修補、DeepSeek V4 釣魚

資安公司 Theori 4 月底揭露 Linux 核心權限提升漏洞 Copy Fail(CVE-2026-31431)。

  • 影響近 9 年發布的 Linux 核心
  • 所有 Linux 發行版都曝險
  • 攻擊者使用相同 PoC 指令碼即可在不同發行版觸發
  • Palo Alto Networks 5/6 提出緊急臨時因應措施給來不及套用更新的用戶
  • 微軟早一步提出警告,呼籲 IT 人員應立即採取行動

Linux 影響範圍 9 年是這條漏洞的關鍵。許多企業伺服器與資料中心仍跑在多年前的核心版本,無法立刻升級的情境下臨時因應措施會比修補本身更現實。

同一週資安修補密集出現。Apache 基金會 5/4 發布 HTTP Server 2.4.67 版,總共修補 11 個漏洞,CVE-2026-23918 被列為 Important 等級。WhatsApp 修補了兩項可觸發惡意連結與執行附件檔案的弱點,未更新可能導致短影音被利用為攻擊入口;月活破 30 億的服務遇到這種弱點,攻擊面廣度直接外溢到整個個人通訊層。Google 5/4 發布 Android 例行更新,本月只修補一項重大層級弱點 CVE-2026-0073,位於系統元件 Android Debug Bridge Daemon(adbd),攻擊者成功利用即可遠端執行任意程式碼,修補僅針對 Android 14 以上版本。Nvidia 修補了自家 OpenClaw 開發平臺 NemoClaw 的高風險資訊外洩漏洞。

社群事件那邊 ShinyHunters 宣稱駭入兩個目標:Canvas 開發商 Instructure 取得 2.8 億筆用戶資料、Nvidia GeForce NOW 取得數百萬筆。Instructure 已坦承遭到網路攻擊,Nvidia 回應只影響東歐一家雲端託管平臺夥伴、不涉及 GeForce NOW 主資料庫。卡巴斯基 5/5 公布免費版虛擬光碟機軟體 DAEMON Tools Lite 12.5.0.2421 至最新版的 12.5.0.2434 遭植入後門,可下載後續惡意酬載;受影響版本是 4/8 起發行的版本鏈。中國 APT 組織 UAT-8302 對南美洲與東南歐政府機構發動大規模攻擊。深度求索 4/24 發布 DeepSeek V4,駭客旋即假借該模型名義散布惡意程式,常見手法是「DeepSeek V4 一鍵安裝」「本機部署懶人包」等釣魚連結,下載後實為後門。

Google 同一週調整 Android 與 Google 裝置 VRP 以及 Chrome VRP,保留零點擊完整攻擊鏈與瀏覽器程序完整攻擊鏈等高階獎勵,但降低部分獎金、取消特定加碼項目,把獎勵與審查重點放在「較難由 AI 自動化工具找出的高影響漏洞」。AI 輔助挖洞工具普及後,傳統 VRP 在中低嚴重度漏洞被大量自動化挖出來,獎金的邊際價值下降,這是 Google 把獎金重新拉回高難度漏洞的直接背景。

如果 Linux Copy Fail 在接下來幾天出現第一批利用案例,這幾天累積的資安修補密度會直接決定企業端要先補哪個。

明日值得追的事
  • → NIST CAISI 與 Google DeepMind、微軟、xAI 簽的前沿模型政府測試協議,公開發布前的審查流程與時間長度會直接決定下一個前沿模型的釋出節奏
  • → Y Combinator 2026 夏季 RFS 出現的反無人機蜂群防禦與太空 3D 列印兩條賽道,後續 6 個月會有第一批被選入加速器的新創團隊浮上水面
  • → 台電「小額綠電」5.8 至 6.3 元天花板與半導體大廠 2030 年 100% 綠電承諾之間的價格與量缺口,會決定民間售電業的下一輪整併方向