Part1 · AI 喜歡的格式 — washinmura AI 內容格式報告 V3

✅ Takeaway 1｜AI 真的在抓你的網頁，量非常大。 開站到現在約 4 個月，總請求 54,361,090 次 [CF httpRequests1dGroups, 2026-02-12~06-17, 126天]，日均約 43.1 萬次／天。光最近 30 天，光是「叫得出名字的 AI 爬蟲」就抓了 15,412,222 次 [CF Adaptive 30天, 2026-05-18~06-17, OS驗]。格式做對，這些抓取才有機會變成「被引用」。

✅ Takeaway 2｜「被抓」不等於「被引用」，中間差非常多。 30 天內 AI 抓取 15,412,222 次（被抓），但明確帶 AI 引擎來源（referer）的請求只有 452 次 [CF Adaptive 30天, 🔴下限·referer黑洞]。格式的任務，就是把「被抓」拉成「被引用」——HTML 語意化 + 事實密度 + 時效，是三條最直接的槓桿。

✅ Takeaway 3｜HTML 還是主場，但要寫成「AI 讀得懂的 HTML」。 抓量最大的是 ClaudeBot 7,798,195 次 與 GPTBot 3,011,394 次 [CF Adaptive 30天, OS驗]，它們讀的就是你的網頁原始碼。把語意標籤、JSON-LD、事實來源做進 HTML，比另外蓋一套東西划算得多。

🎯研究目的

這一頁要回答什麼問題

創業家最常問一句話：「我網頁要怎麼寫，AI 才會看上眼、才會去引用我？」

過去這題只能憑感覺、抄別人。但 washinmura 開站約 4 個月累積了 5,436 萬次真實請求紀錄，我們第一次可以用自己站的真數據，反推出「AI 偏好的格式長相」，而不是照搬國外部落格的猜測。

本頁目標：把「AI 喜歡的格式」拆成三條可驗證的鐵則（引用面 / 事實密度 / 時效），每一條都用站內數據佐證；再給出傳統 SEO × AI 新格式的 8 種混搭法，標出最值得先試的 3 個。

📋計畫

這頁怎麼帶你走一遍

段落	你會看到什麼	給誰
鐵則一：HTML 是引用面	為什麼 HTML 仍是 AI 的主戰場，語意標籤怎麼寫（前後對照 + 真實程式碼片段）	決定要不要花力氣改網頁的人
鐵則二：事實密度	「數字 + 日期 + 出處」越密，AI 越愛引用。沒事實密度 vs 有事實密度的對照	寫內容、寫文案的人
鐵則三：時效（recency）	內容夠不夠新，怎麼用 time／lastmod 告訴 AI	管更新節奏的人
7 層 AEO 骨架	一個頁面從上到下該長什麼樣，一張表看懂	想要一份清單照做的人
混搭 8 式	把舊的 RSS／sitemap／robots／JSON-LD 升級成 AI 版，標出 ROI top 3	已有網站、想低成本升級的人

✅答案 · 鐵則一：HTML 是 AI 的「引用面」

先搞懂一件事——AI 讀的不是你的後台資料庫，是你那頁 HTML 原始碼

很多人以為要「另外做一套給 AI 的格式」。其實最大宗的 AI 爬蟲，讀的就是你那頁普通網頁的原始碼。看數據：

AI 爬蟲	30天抓取次數	它讀什麼	類型
ClaudeBot	7,798,195	你的 HTML 原始碼	訓練型
GPTBot	3,011,394	你的 HTML 原始碼	訓練型
GoogleOther	2,847,349	你的 HTML 原始碼	訓練型
meta-externalagent	1,039,569	你的 HTML 原始碼	訓練型
ChatGPT-User	194,556	即時抓你的頁面回答用戶	引薦型
OAI-SearchBot	161,825	建搜尋索引	引薦型
PerplexityBot	32,077	建搜尋索引	引薦型

[CF Adaptive 30天, 2026-05-18~06-17, OS驗] · 18 種 UA 合計 15,412,222 次

白話結論：你不用先蓋一座新城。把現有 HTML 寫成「AI 讀得懂的 HTML」，就同時餵飽了上面這 1,500 萬次抓取。
名詞：訓練型 AI＝只抓不導流（GPTBot/ClaudeBot），它抓走拿去學；引薦型 AI＝會導流（ChatGPT/Perplexity），它讀完可能附你的連結給用戶。

那「AI 讀得懂的 HTML」差在哪？差在語意標籤。

語意標籤＝用有意義的標籤（<article>、<h1>、<time>）告訴機器「這塊是什麼」，而不是全部塞 <div>。機器看一堆 <div> 等於看一堵沒門牌的牆。

❌ 沒語意標籤（機器看不懂這是文章）

<div class="box1"> <div class="big">和心村產地直送</div> <div class="small">2026/6/15</div> <div>今天我們上架了...</div> </div>

全是 div，AI 不知道哪個是標題、哪個是日期、哪個是正文。

✅ 有語意標籤（機器一眼看懂結構）

<article> <h1>和心村產地直送</h1> <time datetime="2026-06-15"> 2026年6月15日</time> <p>今天我們上架了...</p> </article>

<article> 說「這是一篇文章」、<h1> 是標題、<time> 是可被機器解析的日期。

🔮 推論：為什麼我們敢說語意標籤重要？因為抓量前四名（ClaudeBot 7,798,195、GPTBot 3,011,394、GoogleOther 2,847,349、meta-externalagent 1,039,569，合計約 1,269.6 萬次／30天 [CF Adaptive 30天, OS驗]）全是讀原始 HTML 的爬蟲。推法：抓取主力都讀 HTML → HTML 的可解析度（語意標籤）直接決定它們理解你內容的成敗。這是從「誰在抓」反推「該優化什麼」，非實驗對照組，故標推論。

再加一層：JSON-LD（藏在網頁裡給機器讀的標籤）

JSON-LD＝一段藏在 HTML <head> 裡、人看不到、機器專讀的結構化資料。它把「這篇是什麼、誰寫的、何時發」明明白白告訴 AI。

dogfood（自己吃自己的狗糧）：你現在這份報告，<head> 裡就嵌了上面這段 JSON-LD（headline / datePublished / author 全標好）。我們不是叫你做我們沒做的事。

✅答案 · 鐵則二：事實密度（Fact Density）

同一句話，有沒有「數字 + 日期 + 出處」，AI 引用意願差很多

事實密度＝你內容裡「數字 + 日期 + 出處」的密集程度。AI 引擎要的是「能拿去當證據、能附引用」的句子。一句空話它不敢引，一句帶數字帶日期帶來源的，它愛引——因為這樣它回答用戶才有底氣。

❌ 沒事實密度（AI 不敢引，因為無從查證）

本站 AI 流量很大，很多 AI 都會來抓我們的內容，最近成長很快。

沒數字、沒日期、沒來源。AI 引用了也無法附證據，等於不能引。

✅ 有事實密度（數字＋日期＋出處，AI 可直接當引用）

本站 30 天內 AI 爬蟲抓取 15,412,222 次（資料來源： Cloudflare Adaptive， 2026-05-18 至 06-17）。

數字（15,412,222）＋時間窗（30天）＋出處（Cloudflare）三件齊全。

用本報告的真實數字，示範什麼叫「事實密度高的一句話」：

事實句	數字	日期/時間窗	出處	確定度
開站總請求量	54,361,090	2026-02-12~06-17（126天）	CF httpRequests1dGroups	確定✅
30天 AI 爬蟲抓取	15,412,222	2026-05-18~06-17	CF Adaptive, OS驗	確定✅
ClaudeBot 抓取	7,798,195	同上 30天	CF Adaptive	確定✅
明確 AI 引擎 referer	452	同上 30天	CF	下限⚠️
VERIFY API 呼叫	65,387	同上 30天	CF exact path, OS驗	確定✅

⚠️ 誠實提醒（這也是事實密度的一部分）：上表那個「452」是下限，不是真值。因為 ChatGPT 等引擎來訪時常常不送 referer（referer＝瀏覽器告訴網站「我從哪來」；ChatGPT 不送＝看不到誰從 AI 來），所以「誰從 AI 引用過來」會被嚴重低估，這叫 referer 黑洞。把確定值（✅）和下限值（⚠️）分清楚標出來，本身就是高事實密度的寫法——AI 反而更信任這種誠實的內容。

🔮 推論：為什麼事實密度能提升引用？推法有二。其一，引薦型引擎（ChatGPT-User 194,556 次、OAI-SearchBot 161,825 次、PerplexityBot 32,077 次／30天 [CF Adaptive 30天, OS驗]）的產品邏輯是「附來源回答」，帶可查證事實的句子天然更適合被當引用素材。其二，VERIFY API 路徑 30 天被呼叫 65,387 次 [CF exact path, OS驗]，顯示「可被驗證的事實」確實有被機器主動查詢的需求。這是從引擎行為與驗證流量反推，非 A/B 對照，故標推論。

dogfood：整份報告每個數字後面都掛 [來源 + 時間窗]，且把「確定」用綠 badge、「下限」用琥珀 badge 分開。這就是我們建議你做的事實密度寫法，我們自己先做給你看。

✅答案 · 鐵則三：時效（Recency）

內容夠不夠新，要用機器讀得懂的方式講出來

時效＝你的內容夠不夠新。AI 回答用戶時偏好引用「近期、還在更新」的來源——舊資料風險高。問題是：你怎麼讓 AI「知道」這頁是新的？答案是用 <time> 和 lastmod 把日期講成機器讀得懂的格式。

❌ 日期只給人看（機器要用猜的）

「上週三」機器無法換算；純中文日期格式機器也容易解析失敗。

✅ 日期給機器看（標準格式，一定讀對）

datetime="2026-06-15" 是國際標準格式，所有 AI 都解析得出來。

時效不只寫在頁面，也能寫進 sitemap 和 JSON-LD，多管齊下告訴 AI「我很新」：

頁面層：每篇文章用 <time datetime> 標發布／更新日。
JSON-LD 層：加 datePublished 與 dateModified（本報告 <head> 已示範 datePublished:"2026-06-17"）。
站台層：sitemap 的 <lastmod> 一定要跟著真實更新時間走，不要造假。

有真實憑據可佐證時效有意義：本站新的內容封存從 2026-06-16 起每日累積 [檔案來源：新archive，未來逐日變大]，而開站日 2026-02-11 之前的資料從未封存、不存在 [CF REST zone metadata；zone 建於 2026-02-11]。這正說明：時效是有方向的——新內容持續累積，AI 偏好抓近期可被持續更新的來源。

🔮 推論：為什麼把時效講給機器聽會有幫助？推法：引薦型引擎要對用戶負責，傾向引用「近期且標明更新時間」的頁面以降低過時風險；<time datetime> 與 lastmod 把「新」變成機器可確認的事實（呼應鐵則二事實密度）。本站 30 天仍有 ChatGPT-User 194,556 次即時抓取 [CF Adaptive 30天, OS驗]，顯示引擎確有「即時讀最新頁」的行為，標清楚更新時間能配合此行為。非對照實驗，故標推論。

🧱一頁 AEO 頁面該長什麼樣：7 層骨架

把上面三條鐵則組成一份照做清單，從網頁最上層到最底層

不用全部記。下表從上到下就是一個 AI 友善頁面的骨架，你照著一層層填即可。每層都對應一條前面講過的鐵則。

層	位置	放什麼	對應鐵則
1	<html lang>	標語言 lang="zh-TW"，讓 AI 知道這是繁中內容	語意
2	<head> meta	title、description、canonical（這頁正版網址）、og:url（給 AI 看的正式網址）	引用面
3	<head> JSON-LD	Article / 作者 / datePublished（藏給機器讀的標籤）	引用面＋時效
4	<body> 語意骨架	<article><h1><h2><time>，不要全用 div	語意
5	正文事實句	每個主張帶「數字＋日期＋出處」，確定 vs 下限分清	事實密度
6	FAQ 區塊	FAQ schema，acceptedAnswer 帶 ida 驗證來源當引用	事實密度
7	站台檔	sitemap <lastmod>、robots、.well-known/llms 導覽	時效＋discovery

dogfood：你正在看的這頁，第 1～5 層全部做齊了——lang="zh-TW"、<head> 嵌 JSON-LD、<article> 包正文、每個數字標來源、確定/下限用 badge 區分。

🔀混搭 8 式：把舊 SEO 升級成 AI 新格式

你早就有的 RSS／sitemap／robots／JSON-LD，加一層就變 AI 友善——接 washinmura 真實背景（ida 實體庫 / aeo / ainews）

不用打掉重練。下面 8 式都是「在你已有的東西上加一層」，並接上 washinmura 自己的資產：ida（實體知識庫，有 730K 級 entity）、aeo（答案引擎優化）、ainews（新聞事實）。每式都附「怎麼量它有沒有用」。

① RSS／Atom → 事實查核 AI feed傳統 RSS 升級

在 RSS 的每個 item 內嵌 ClaimReview／fact，用 ida 的 entity 產出「X 關於 Y 為真／假」的事實 feed，讓 AI 訂閱可查核事實。

怎麼量：AI 引用該 feed 的數量 + UTM 標 ai_feed 看導流。

② sitemap → AI-sitemap★ ROI top3

在 sitemap 的每個 <url> 加 ai:summary（這頁摘要）／ai:lastmod_trust（更新可信度）／ai:entity_ref（對應到 ida 的 entity ID）。等於給爬蟲一份「帶實體標註的地圖」。

<url> <loc>https://washinmura.com/ida/farm-001</loc> <lastmod>2026-06-15</lastmod> <ai:summary>和心村產地直送農場實體</ai:summary> <ai:entity_ref>ida:farm-001</ai:entity_ref> </url>

怎麼量：GPTBot 抓取頻率（基準：GPTBot 30天 3,011,394 次 [CF Adaptive 30天, OS驗]）+ 含 entity_ref 的頁是否被引用。

③ robots.txt → AI 信號傳統 robots 升級

在 robots.txt 加 AI-Training-Opt-In／Content-Trust-Tier，標明哪些內容可訓練、信賴等級多高，給 AI 一個明確信號。

怎麼量：看 log 裡 bot 是否真的遵循這些信號改變抓取行為。

④ JSON-LD → 擴充版傳統 JSON-LD 升級

JSON-LD 加 ClaimReview／Claim／Dataset／Speakable：ida 的 entity 加 ClaimReview、ainews 的關鍵事實加 Claim 連回 ida 來源、www 首頁加 Speakable（給語音助理唸）。

怎麼量：Google 複合結果測試工具（驗證 schema 是否被吃）+ 語音流量。

⑤ FAQ schema → 答案引擎直餵★ ROI top3

把常見問答寫成 FAQ schema，每個 Question 的 acceptedAnswer 直接引 ida 已驗證的 entity 當 citation，並帶 dateVerified（驗證日期）。等於把答案連同證據一起遞到 AI 嘴邊。

{ "@type":"Question", "name":"和心村的農場有驗證嗎？", "acceptedAnswer":{ "@type":"Answer", "text":"已驗證，來源 ida:farm-001", "citation":"https://washinmura.com/ida/farm-001", "dateVerified":"2026-06-15" } }

怎麼量：AI 回答是否附引用連結 + UTM 標 faq_ai。

⑥ Open Graph → AI 摘要優化★ ROI top3

把 og:description 寫成「適合 AI 直接引用的事實句」——帶 entity、帶驗證狀態，而不是行銷口號。AI 做摘要時很可能直接複用 og:description。

❌ 行銷口號

og:description= "最棒的產地直送，快來逛逛！"

✅ 事實句

og:description= "和心村農場（ida:farm-001）， 2026-06-15 已驗證直送來源。"

怎麼量：觀察 AI 摘要是否複用你的 og:description 字句。

⑦ .well-known/ → AI discovery新增發現層

在 .well-known/ 放 api-catalog 與 llms 指引（llms.txt＝放網站根目錄給 AI 讀的內容導覽檔），主動引導 AI agent 找到你最該被讀的內容。

怎麼量：agent 是否抓取這些 discovery 檔。

⑧ API → MCP／Agent 端點新增 agent 介面

ida 的 verify 功能已經有 API，把它標準化成 Agent 可呼叫的端點（MCP），讓 AI agent 能主動來查證。

怎麼量：呼叫量。基準參考：VERIFY API 路徑 30 天已被呼叫 65,387 次 [CF exact path, OS驗]，證明「可被機器呼叫的驗證端點」確有需求。

★ 最值得先試（ROI 高、又不麻煩）這 3 個：

⑤ FAQ schema 帶 ida citation——把答案＋證據直接遞給答案引擎。
② AI-sitemap 帶 entity_ref——在抓量最大的 HTML 入口（GPTBot 30天 3,011,394 次 [CF Adaptive 30天, OS驗]）上加實體標註。
⑥ og:description 事實化——改一行字，就可能被 AI 摘要直接複用。

這三個共同點：都在你已有的東西上加一層，不用蓋新系統，且都能接回 ida／aeo 的既有資產。

🔴誠實邊界：這頁的數字哪些是確定、哪些是下限

格式建議能讓你「更容易被引用」，但「被引用幾次」目前測不到真值

指標	數值	確定度	為什麼
開站總請求	54,361,090 [CF, 126天]	確定✅	CF 全量計數，zone 才約 4 個月非截斷
30天各爬蟲抓取	15,412,222 [CF Adaptive 30天]	確定✅	每個 UA 逐一計數，OS 獨立驗
明確 AI 引擎 referer	452 [CF 30天]	下限⚠️	ChatGPT 等不送 referer，真值被低估（referer 黑洞）
真 AI 引薦	176（真人乾淨點擊 194）[DB ai_referrer_visits, OS驗]	下限⚠️	DB 872萬 event 中 99.998% 是 ai-crawl 爬蟲，禁講成引薦

🔴 四條鐵律（本頁所有數字都遵守）：

每個數字都標 [來源] + 時間窗。
確定（總量、30天 per-UA）vs 下限（引薦、導流＝referer 黑洞測不到真值）分清。
禁把 DB 數字跟 CF 數字相加（兩者差 33–65 倍）。
禁把 DB 的 872 萬 event 講成「引薦」——99.998% 是爬蟲，真引薦只有 176、真人乾淨點擊只有 194 [DB ai_referrer_visits, OS驗]。

所以本頁定位很清楚：格式三鐵則 + 混搭 8 式，是把「被抓 1,500 萬次」變成「更容易被引用」的工程。至於「被引用了幾次」，目前只能給下限（452／176），這是 referer 黑洞的物理限制，不是我們不誠實。