PART 1 · AI 喜歡的格式

AI 到底愛讀什麼樣的網頁?
從 5,436 萬次真實請求裡學到的格式鐵則

這頁不講玄學。每一條格式建議,後面都接一個 washinmura 站內真實數據,告訴你「為什麼這樣寫」。給創業家看的大白話,不是給工程師的規格書。

✅ Takeaway 1|AI 真的在抓你的網頁,量非常大。 開站到現在約 4 個月,總請求 54,361,090 次 [CF httpRequests1dGroups, 2026-02-12~06-17, 126天],日均約 43.1 萬次/天。光最近 30 天,光是「叫得出名字的 AI 爬蟲」就抓了 15,412,222 次 [CF Adaptive 30天, 2026-05-18~06-17, OS驗]。格式做對,這些抓取才有機會變成「被引用」。
✅ Takeaway 2|「被抓」不等於「被引用」,中間差非常多。 30 天內 AI 抓取 15,412,222 次(被抓),但明確帶 AI 引擎來源(referer)的請求只有 452 次 [CF Adaptive 30天, 🔴下限·referer黑洞]。格式的任務,就是把「被抓」拉成「被引用」——HTML 語意化 + 事實密度 + 時效,是三條最直接的槓桿。
✅ Takeaway 3|HTML 還是主場,但要寫成「AI 讀得懂的 HTML」。 抓量最大的是 ClaudeBot 7,798,195 次 與 GPTBot 3,011,394 次 [CF Adaptive 30天, OS驗],它們讀的就是你的網頁原始碼。把語意標籤、JSON-LD、事實來源做進 HTML,比另外蓋一套東西划算得多。

🎯研究目的

這一頁要回答什麼問題

創業家最常問一句話:「我網頁要怎麼寫,AI 才會看上眼、才會去引用我?」

過去這題只能憑感覺、抄別人。但 washinmura 開站約 4 個月累積了 5,436 萬次真實請求紀錄,我們第一次可以用自己站的真數據,反推出「AI 偏好的格式長相」,而不是照搬國外部落格的猜測。

本頁目標:把「AI 喜歡的格式」拆成三條可驗證的鐵則(引用面 / 事實密度 / 時效),每一條都用站內數據佐證;再給出傳統 SEO × AI 新格式的 8 種混搭法,標出最值得先試的 3 個。

📋計畫

這頁怎麼帶你走一遍

段落你會看到什麼給誰
鐵則一:HTML 是引用面為什麼 HTML 仍是 AI 的主戰場,語意標籤怎麼寫(前後對照 + 真實程式碼片段)決定要不要花力氣改網頁的人
鐵則二:事實密度「數字 + 日期 + 出處」越密,AI 越愛引用。沒事實密度 vs 有事實密度的對照寫內容、寫文案的人
鐵則三:時效(recency)內容夠不夠新,怎麼用 time/lastmod 告訴 AI管更新節奏的人
7 層 AEO 骨架一個頁面從上到下該長什麼樣,一張表看懂想要一份清單照做的人
混搭 8 式把舊的 RSS/sitemap/robots/JSON-LD 升級成 AI 版,標出 ROI top 3已有網站、想低成本升級的人

答案 · 鐵則一:HTML 是 AI 的「引用面」

先搞懂一件事——AI 讀的不是你的後台資料庫,是你那頁 HTML 原始碼

很多人以為要「另外做一套給 AI 的格式」。其實最大宗的 AI 爬蟲,讀的就是你那頁普通網頁的原始碼。看數據:

AI 爬蟲30天抓取次數它讀什麼類型
ClaudeBot7,798,195你的 HTML 原始碼訓練型
GPTBot3,011,394你的 HTML 原始碼訓練型
GoogleOther2,847,349你的 HTML 原始碼訓練型
meta-externalagent1,039,569你的 HTML 原始碼訓練型
ChatGPT-User194,556即時抓你的頁面回答用戶引薦型
OAI-SearchBot161,825建搜尋索引引薦型
PerplexityBot32,077建搜尋索引引薦型

[CF Adaptive 30天, 2026-05-18~06-17, OS驗] · 18 種 UA 合計 15,412,222 次

白話結論:你不用先蓋一座新城。把現有 HTML 寫成「AI 讀得懂的 HTML」,就同時餵飽了上面這 1,500 萬次抓取。
名詞:訓練型 AI=只抓不導流(GPTBot/ClaudeBot),它抓走拿去學;引薦型 AI=會導流(ChatGPT/Perplexity),它讀完可能附你的連結給用戶。

那「AI 讀得懂的 HTML」差在哪?差在語意標籤。

語意標籤=用有意義的標籤(<article>、<h1>、<time>)告訴機器「這塊是什麼」,而不是全部塞 <div>。機器看一堆 <div> 等於看一堵沒門牌的牆。

❌ 沒語意標籤(機器看不懂這是文章)
<div class="box1"> <div class="big">和心村產地直送</div> <div class="small">2026/6/15</div> <div>今天我們上架了...</div> </div>

全是 div,AI 不知道哪個是標題、哪個是日期、哪個是正文。

✅ 有語意標籤(機器一眼看懂結構)
<article> <h1>和心村產地直送</h1> <time datetime="2026-06-15"> 2026年6月15日</time> <p>今天我們上架了...</p> </article>

<article> 說「這是一篇文章」、<h1> 是標題、<time> 是可被機器解析的日期。

🔮 推論:為什麼我們敢說語意標籤重要?因為抓量前四名(ClaudeBot 7,798,195、GPTBot 3,011,394、GoogleOther 2,847,349、meta-externalagent 1,039,569,合計約 1,269.6 萬次/30天 [CF Adaptive 30天, OS驗])全是讀原始 HTML 的爬蟲。推法:抓取主力都讀 HTML → HTML 的可解析度(語意標籤)直接決定它們理解你內容的成敗。這是從「誰在抓」反推「該優化什麼」,非實驗對照組,故標推論。

再加一層:JSON-LD(藏在網頁裡給機器讀的標籤)

JSON-LD=一段藏在 HTML <head> 裡、人看不到、機器專讀的結構化資料。它把「這篇是什麼、誰寫的、何時發」明明白白告訴 AI。

<script type="application/ld+json"> { "@context":"https://schema.org", "@type":"Article", "headline":"和心村產地直送", "datePublished":"2026-06-15", "author":{"@type":"Organization","name":"washinmura"} } </script>
dogfood(自己吃自己的狗糧):你現在這份報告,<head> 裡就嵌了上面這段 JSON-LD(headline / datePublished / author 全標好)。我們不是叫你做我們沒做的事。

答案 · 鐵則二:事實密度(Fact Density)

同一句話,有沒有「數字 + 日期 + 出處」,AI 引用意願差很多

事實密度=你內容裡「數字 + 日期 + 出處」的密集程度。AI 引擎要的是「能拿去當證據、能附引用」的句子。一句空話它不敢引,一句帶數字帶日期帶來源的,它愛引——因為這樣它回答用戶才有底氣。

❌ 沒事實密度(AI 不敢引,因為無從查證)
本站 AI 流量很大, 很多 AI 都會來抓我們的內容, 最近成長很快。

沒數字、沒日期、沒來源。AI 引用了也無法附證據,等於不能引。

✅ 有事實密度(數字+日期+出處,AI 可直接當引用)
本站 30 天內 AI 爬蟲抓取 15,412,222 次(資料來源: Cloudflare Adaptive, 2026-05-18 至 06-17)。

數字(15,412,222)+ 時間窗(30天)+ 出處(Cloudflare)三件齊全。

用本報告的真實數字,示範什麼叫「事實密度高的一句話」:

事實句數字日期/時間窗出處確定度
開站總請求量54,361,0902026-02-12~06-17(126天)CF httpRequests1dGroups確定✅
30天 AI 爬蟲抓取15,412,2222026-05-18~06-17CF Adaptive, OS驗確定✅
ClaudeBot 抓取7,798,195同上 30天CF Adaptive確定✅
明確 AI 引擎 referer452同上 30天CF下限⚠️
VERIFY API 呼叫65,387同上 30天CF exact path, OS驗確定✅
⚠️ 誠實提醒(這也是事實密度的一部分):上表那個「452」是下限,不是真值。因為 ChatGPT 等引擎來訪時常常不送 referer(referer=瀏覽器告訴網站「我從哪來」;ChatGPT 不送=看不到誰從 AI 來),所以「誰從 AI 引用過來」會被嚴重低估,這叫 referer 黑洞。把確定值(✅)和下限值(⚠️)分清楚標出來,本身就是高事實密度的寫法——AI 反而更信任這種誠實的內容。
🔮 推論:為什麼事實密度能提升引用?推法有二。其一,引薦型引擎(ChatGPT-User 194,556 次、OAI-SearchBot 161,825 次、PerplexityBot 32,077 次/30天 [CF Adaptive 30天, OS驗])的產品邏輯是「附來源回答」,帶可查證事實的句子天然更適合被當引用素材。其二,VERIFY API 路徑 30 天被呼叫 65,387 次 [CF exact path, OS驗],顯示「可被驗證的事實」確實有被機器主動查詢的需求。這是從引擎行為與驗證流量反推,非 A/B 對照,故標推論。
dogfood:整份報告每個數字後面都掛 [來源 + 時間窗],且把「確定」用綠 badge、「下限」用琥珀 badge 分開。這就是我們建議你做的事實密度寫法,我們自己先做給你看。

答案 · 鐵則三:時效(Recency)

內容夠不夠新,要用機器讀得懂的方式講出來

時效=你的內容夠不夠新。AI 回答用戶時偏好引用「近期、還在更新」的來源——舊資料風險高。問題是:你怎麼讓 AI「知道」這頁是新的?答案是用 <time> 和 lastmod 把日期講成機器讀得懂的格式。

❌ 日期只給人看(機器要用猜的)
<div>更新於:上週三</div> <span>2026年6月15號</span>

「上週三」機器無法換算;純中文日期格式機器也容易解析失敗。

✅ 日期給機器看(標準格式,一定讀對)
<time datetime="2026-06-15"> 2026年6月15日更新</time>

datetime="2026-06-15" 是國際標準格式,所有 AI 都解析得出來。

時效不只寫在頁面,也能寫進 sitemap 和 JSON-LD,多管齊下告訴 AI「我很新」:

有真實憑據可佐證時效有意義:本站新的內容封存從 2026-06-16 起每日累積 [檔案來源:新archive,未來逐日變大],而開站日 2026-02-11 之前的資料從未封存、不存在 [CF REST zone metadata;zone 建於 2026-02-11]。這正說明:時效是有方向的——新內容持續累積,AI 偏好抓近期可被持續更新的來源。
🔮 推論:為什麼把時效講給機器聽會有幫助?推法:引薦型引擎要對用戶負責,傾向引用「近期且標明更新時間」的頁面以降低過時風險;<time datetime> 與 lastmod 把「新」變成機器可確認的事實(呼應鐵則二事實密度)。本站 30 天仍有 ChatGPT-User 194,556 次即時抓取 [CF Adaptive 30天, OS驗],顯示引擎確有「即時讀最新頁」的行為,標清楚更新時間能配合此行為。非對照實驗,故標推論。

🧱一頁 AEO 頁面該長什麼樣:7 層骨架

把上面三條鐵則組成一份照做清單,從網頁最上層到最底層

不用全部記。下表從上到下就是一個 AI 友善頁面的骨架,你照著一層層填即可。每層都對應一條前面講過的鐵則。

位置放什麼對應鐵則
1<html lang>標語言 lang="zh-TW",讓 AI 知道這是繁中內容語意
2<head> metatitle、description、canonical(這頁正版網址)、og:url(給 AI 看的正式網址)引用面
3<head> JSON-LDArticle / 作者 / datePublished(藏給機器讀的標籤)引用面+時效
4<body> 語意骨架<article><h1><h2><time>,不要全用 div語意
5正文事實句每個主張帶「數字+日期+出處」,確定 vs 下限分清事實密度
6FAQ 區塊FAQ schema,acceptedAnswer 帶 ida 驗證來源當引用事實密度
7站台檔sitemap <lastmod>、robots、.well-known/llms 導覽時效+discovery
dogfood:你正在看的這頁,第 1~5 層全部做齊了——lang="zh-TW"、<head> 嵌 JSON-LD、<article> 包正文、每個數字標來源、確定/下限用 badge 區分。

🔀混搭 8 式:把舊 SEO 升級成 AI 新格式

你早就有的 RSS/sitemap/robots/JSON-LD,加一層就變 AI 友善——接 washinmura 真實背景(ida 實體庫 / aeo / ainews)

不用打掉重練。下面 8 式都是「在你已有的東西上加一層」,並接上 washinmura 自己的資產:ida(實體知識庫,有 730K 級 entity)、aeo(答案引擎優化)、ainews(新聞事實)。每式都附「怎麼量它有沒有用」。

① RSS/Atom → 事實查核 AI feed傳統 RSS 升級

在 RSS 的每個 item 內嵌 ClaimReview/fact,用 ida 的 entity 產出「X 關於 Y 為真/假」的事實 feed,讓 AI 訂閱可查核事實。

怎麼量:AI 引用該 feed 的數量 + UTM 標 ai_feed 看導流。

② sitemap → AI-sitemap★ ROI top3

在 sitemap 的每個 <url> 加 ai:summary(這頁摘要)/ai:lastmod_trust(更新可信度)/ai:entity_ref(對應到 ida 的 entity ID)。等於給爬蟲一份「帶實體標註的地圖」。

<url> <loc>https://washinmura.com/ida/farm-001</loc> <lastmod>2026-06-15</lastmod> <ai:summary>和心村產地直送農場實體</ai:summary> <ai:entity_ref>ida:farm-001</ai:entity_ref> </url>

怎麼量:GPTBot 抓取頻率(基準:GPTBot 30天 3,011,394 次 [CF Adaptive 30天, OS驗])+ 含 entity_ref 的頁是否被引用。

③ robots.txt → AI 信號傳統 robots 升級

在 robots.txt 加 AI-Training-Opt-InContent-Trust-Tier,標明哪些內容可訓練、信賴等級多高,給 AI 一個明確信號。

怎麼量:看 log 裡 bot 是否真的遵循這些信號改變抓取行為。

④ JSON-LD → 擴充版傳統 JSON-LD 升級

JSON-LD 加 ClaimReview/Claim/Dataset/Speakable:ida 的 entity 加 ClaimReview、ainews 的關鍵事實加 Claim 連回 ida 來源、www 首頁加 Speakable(給語音助理唸)。

怎麼量:Google 複合結果測試工具(驗證 schema 是否被吃)+ 語音流量。

⑤ FAQ schema → 答案引擎直餵★ ROI top3

把常見問答寫成 FAQ schema,每個 Question 的 acceptedAnswer 直接引 ida 已驗證的 entity 當 citation,並帶 dateVerified(驗證日期)。等於把答案連同證據一起遞到 AI 嘴邊。

{ "@type":"Question", "name":"和心村的農場有驗證嗎?", "acceptedAnswer":{ "@type":"Answer", "text":"已驗證,來源 ida:farm-001", "citation":"https://washinmura.com/ida/farm-001", "dateVerified":"2026-06-15" } }

怎麼量:AI 回答是否附引用連結 + UTM 標 faq_ai

⑥ Open Graph → AI 摘要優化★ ROI top3

把 og:description 寫成「適合 AI 直接引用的事實句」——帶 entity、帶驗證狀態,而不是行銷口號。AI 做摘要時很可能直接複用 og:description。

❌ 行銷口號
og:description= "最棒的產地直送, 快來逛逛!"
✅ 事實句
og:description= "和心村農場(ida:farm-001), 2026-06-15 已驗證直送來源。"

怎麼量:觀察 AI 摘要是否複用你的 og:description 字句。

⑦ .well-known/ → AI discovery新增發現層

在 .well-known/ 放 api-catalog 與 llms 指引(llms.txt=放網站根目錄給 AI 讀的內容導覽檔),主動引導 AI agent 找到你最該被讀的內容。

怎麼量:agent 是否抓取這些 discovery 檔。

⑧ API → MCP/Agent 端點新增 agent 介面

ida 的 verify 功能已經有 API,把它標準化成 Agent 可呼叫的端點(MCP),讓 AI agent 能主動來查證。

怎麼量:呼叫量。基準參考:VERIFY API 路徑 30 天已被呼叫 65,387 次 [CF exact path, OS驗],證明「可被機器呼叫的驗證端點」確有需求。

★ 最值得先試(ROI 高、又不麻煩)這 3 個:
  • ⑤ FAQ schema 帶 ida citation——把答案+證據直接遞給答案引擎。
  • ② AI-sitemap 帶 entity_ref——在抓量最大的 HTML 入口(GPTBot 30天 3,011,394 次 [CF Adaptive 30天, OS驗])上加實體標註。
  • ⑥ og:description 事實化——改一行字,就可能被 AI 摘要直接複用。
這三個共同點:都在你已有的東西上加一層,不用蓋新系統,且都能接回 ida/aeo 的既有資產。

🔴誠實邊界:這頁的數字哪些是確定、哪些是下限

格式建議能讓你「更容易被引用」,但「被引用幾次」目前測不到真值

指標數值確定度為什麼
開站總請求54,361,090 [CF, 126天]確定✅CF 全量計數,zone 才約 4 個月非截斷
30天各爬蟲抓取15,412,222 [CF Adaptive 30天]確定✅每個 UA 逐一計數,OS 獨立驗
明確 AI 引擎 referer452 [CF 30天]下限⚠️ChatGPT 等不送 referer,真值被低估(referer 黑洞)
真 AI 引薦176(真人乾淨點擊 194)[DB ai_referrer_visits, OS驗]下限⚠️DB 872萬 event 中 99.998% 是 ai-crawl 爬蟲,禁講成引薦
🔴 四條鐵律(本頁所有數字都遵守):
  1. 每個數字都標 [來源] + 時間窗。
  2. 確定(總量、30天 per-UA)vs 下限(引薦、導流=referer 黑洞測不到真值)分清。
  3. 禁把 DB 數字跟 CF 數字相加(兩者差 33–65 倍)。
  4. 禁把 DB 的 872 萬 event 講成「引薦」——99.998% 是爬蟲,真引薦只有 176、真人乾淨點擊只有 194 [DB ai_referrer_visits, OS驗]

所以本頁定位很清楚:格式三鐵則 + 混搭 8 式,是把「被抓 1,500 萬次」變成「更容易被引用」的工程。至於「被引用了幾次」,目前只能給下限(452/176),這是 referer 黑洞的物理限制,不是我們不誠實。