🎯研究目的
這一頁要回答什麼問題
創業家最常問一句話:「我網頁要怎麼寫,AI 才會看上眼、才會去引用我?」
過去這題只能憑感覺、抄別人。但 washinmura 開站約 4 個月累積了 5,436 萬次真實請求紀錄,我們第一次可以用自己站的真數據,反推出「AI 偏好的格式長相」,而不是照搬國外部落格的猜測。
本頁目標:把「AI 喜歡的格式」拆成三條可驗證的鐵則(引用面 / 事實密度 / 時效),每一條都用站內數據佐證;再給出傳統 SEO × AI 新格式的 8 種混搭法,標出最值得先試的 3 個。
📋計畫
這頁怎麼帶你走一遍
| 段落 | 你會看到什麼 | 給誰 |
|---|---|---|
| 鐵則一:HTML 是引用面 | 為什麼 HTML 仍是 AI 的主戰場,語意標籤怎麼寫(前後對照 + 真實程式碼片段) | 決定要不要花力氣改網頁的人 |
| 鐵則二:事實密度 | 「數字 + 日期 + 出處」越密,AI 越愛引用。沒事實密度 vs 有事實密度的對照 | 寫內容、寫文案的人 |
| 鐵則三:時效(recency) | 內容夠不夠新,怎麼用 time/lastmod 告訴 AI | 管更新節奏的人 |
| 7 層 AEO 骨架 | 一個頁面從上到下該長什麼樣,一張表看懂 | 想要一份清單照做的人 |
| 混搭 8 式 | 把舊的 RSS/sitemap/robots/JSON-LD 升級成 AI 版,標出 ROI top 3 | 已有網站、想低成本升級的人 |
✅答案 · 鐵則一:HTML 是 AI 的「引用面」
先搞懂一件事——AI 讀的不是你的後台資料庫,是你那頁 HTML 原始碼
很多人以為要「另外做一套給 AI 的格式」。其實最大宗的 AI 爬蟲,讀的就是你那頁普通網頁的原始碼。看數據:
| AI 爬蟲 | 30天抓取次數 | 它讀什麼 | 類型 |
|---|---|---|---|
| ClaudeBot | 7,798,195 | 你的 HTML 原始碼 | 訓練型 |
| GPTBot | 3,011,394 | 你的 HTML 原始碼 | 訓練型 |
| GoogleOther | 2,847,349 | 你的 HTML 原始碼 | 訓練型 |
| meta-externalagent | 1,039,569 | 你的 HTML 原始碼 | 訓練型 |
| ChatGPT-User | 194,556 | 即時抓你的頁面回答用戶 | 引薦型 |
| OAI-SearchBot | 161,825 | 建搜尋索引 | 引薦型 |
| PerplexityBot | 32,077 | 建搜尋索引 | 引薦型 |
[CF Adaptive 30天, 2026-05-18~06-17, OS驗] · 18 種 UA 合計 15,412,222 次
名詞:訓練型 AI=只抓不導流(GPTBot/ClaudeBot),它抓走拿去學;引薦型 AI=會導流(ChatGPT/Perplexity),它讀完可能附你的連結給用戶。
那「AI 讀得懂的 HTML」差在哪?差在語意標籤。
語意標籤=用有意義的標籤(<article>、<h1>、<time>)告訴機器「這塊是什麼」,而不是全部塞 <div>。機器看一堆 <div> 等於看一堵沒門牌的牆。
❌ 沒語意標籤(機器看不懂這是文章)
全是 div,AI 不知道哪個是標題、哪個是日期、哪個是正文。
✅ 有語意標籤(機器一眼看懂結構)
<article> 說「這是一篇文章」、<h1> 是標題、<time> 是可被機器解析的日期。
再加一層:JSON-LD(藏在網頁裡給機器讀的標籤)
JSON-LD=一段藏在 HTML <head> 裡、人看不到、機器專讀的結構化資料。它把「這篇是什麼、誰寫的、何時發」明明白白告訴 AI。
✅答案 · 鐵則二:事實密度(Fact Density)
同一句話,有沒有「數字 + 日期 + 出處」,AI 引用意願差很多
事實密度=你內容裡「數字 + 日期 + 出處」的密集程度。AI 引擎要的是「能拿去當證據、能附引用」的句子。一句空話它不敢引,一句帶數字帶日期帶來源的,它愛引——因為這樣它回答用戶才有底氣。
❌ 沒事實密度(AI 不敢引,因為無從查證)
沒數字、沒日期、沒來源。AI 引用了也無法附證據,等於不能引。
✅ 有事實密度(數字+日期+出處,AI 可直接當引用)
數字(15,412,222)+ 時間窗(30天)+ 出處(Cloudflare)三件齊全。
用本報告的真實數字,示範什麼叫「事實密度高的一句話」:
| 事實句 | 數字 | 日期/時間窗 | 出處 | 確定度 |
|---|---|---|---|---|
| 開站總請求量 | 54,361,090 | 2026-02-12~06-17(126天) | CF httpRequests1dGroups | 確定✅ |
| 30天 AI 爬蟲抓取 | 15,412,222 | 2026-05-18~06-17 | CF Adaptive, OS驗 | 確定✅ |
| ClaudeBot 抓取 | 7,798,195 | 同上 30天 | CF Adaptive | 確定✅ |
| 明確 AI 引擎 referer | 452 | 同上 30天 | CF | 下限⚠️ |
| VERIFY API 呼叫 | 65,387 | 同上 30天 | CF exact path, OS驗 | 確定✅ |
✅答案 · 鐵則三:時效(Recency)
內容夠不夠新,要用機器讀得懂的方式講出來
時效=你的內容夠不夠新。AI 回答用戶時偏好引用「近期、還在更新」的來源——舊資料風險高。問題是:你怎麼讓 AI「知道」這頁是新的?答案是用 <time> 和 lastmod 把日期講成機器讀得懂的格式。
❌ 日期只給人看(機器要用猜的)
「上週三」機器無法換算;純中文日期格式機器也容易解析失敗。
✅ 日期給機器看(標準格式,一定讀對)
datetime="2026-06-15" 是國際標準格式,所有 AI 都解析得出來。
時效不只寫在頁面,也能寫進 sitemap 和 JSON-LD,多管齊下告訴 AI「我很新」:
- 頁面層:每篇文章用 <time datetime> 標發布/更新日。
- JSON-LD 層:加 datePublished 與 dateModified(本報告 <head> 已示範 datePublished:"2026-06-17")。
- 站台層:sitemap 的 <lastmod> 一定要跟著真實更新時間走,不要造假。
🧱一頁 AEO 頁面該長什麼樣:7 層骨架
把上面三條鐵則組成一份照做清單,從網頁最上層到最底層
不用全部記。下表從上到下就是一個 AI 友善頁面的骨架,你照著一層層填即可。每層都對應一條前面講過的鐵則。
| 層 | 位置 | 放什麼 | 對應鐵則 |
|---|---|---|---|
| 1 | <html lang> | 標語言 lang="zh-TW",讓 AI 知道這是繁中內容 | 語意 |
| 2 | <head> meta | title、description、canonical(這頁正版網址)、og:url(給 AI 看的正式網址) | 引用面 |
| 3 | <head> JSON-LD | Article / 作者 / datePublished(藏給機器讀的標籤) | 引用面+時效 |
| 4 | <body> 語意骨架 | <article><h1><h2><time>,不要全用 div | 語意 |
| 5 | 正文事實句 | 每個主張帶「數字+日期+出處」,確定 vs 下限分清 | 事實密度 |
| 6 | FAQ 區塊 | FAQ schema,acceptedAnswer 帶 ida 驗證來源當引用 | 事實密度 |
| 7 | 站台檔 | sitemap <lastmod>、robots、.well-known/llms 導覽 | 時效+discovery |
🔀混搭 8 式:把舊 SEO 升級成 AI 新格式
你早就有的 RSS/sitemap/robots/JSON-LD,加一層就變 AI 友善——接 washinmura 真實背景(ida 實體庫 / aeo / ainews)
不用打掉重練。下面 8 式都是「在你已有的東西上加一層」,並接上 washinmura 自己的資產:ida(實體知識庫,有 730K 級 entity)、aeo(答案引擎優化)、ainews(新聞事實)。每式都附「怎麼量它有沒有用」。
在 RSS 的每個 item 內嵌 ClaimReview/fact,用 ida 的 entity 產出「X 關於 Y 為真/假」的事實 feed,讓 AI 訂閱可查核事實。
怎麼量:AI 引用該 feed 的數量 + UTM 標 ai_feed 看導流。
在 sitemap 的每個 <url> 加 ai:summary(這頁摘要)/ai:lastmod_trust(更新可信度)/ai:entity_ref(對應到 ida 的 entity ID)。等於給爬蟲一份「帶實體標註的地圖」。
怎麼量:GPTBot 抓取頻率(基準:GPTBot 30天 3,011,394 次 [CF Adaptive 30天, OS驗])+ 含 entity_ref 的頁是否被引用。
在 robots.txt 加 AI-Training-Opt-In/Content-Trust-Tier,標明哪些內容可訓練、信賴等級多高,給 AI 一個明確信號。
怎麼量:看 log 裡 bot 是否真的遵循這些信號改變抓取行為。
JSON-LD 加 ClaimReview/Claim/Dataset/Speakable:ida 的 entity 加 ClaimReview、ainews 的關鍵事實加 Claim 連回 ida 來源、www 首頁加 Speakable(給語音助理唸)。
怎麼量:Google 複合結果測試工具(驗證 schema 是否被吃)+ 語音流量。
把常見問答寫成 FAQ schema,每個 Question 的 acceptedAnswer 直接引 ida 已驗證的 entity 當 citation,並帶 dateVerified(驗證日期)。等於把答案連同證據一起遞到 AI 嘴邊。
怎麼量:AI 回答是否附引用連結 + UTM 標 faq_ai。
把 og:description 寫成「適合 AI 直接引用的事實句」——帶 entity、帶驗證狀態,而不是行銷口號。AI 做摘要時很可能直接複用 og:description。
❌ 行銷口號
✅ 事實句
怎麼量:觀察 AI 摘要是否複用你的 og:description 字句。
在 .well-known/ 放 api-catalog 與 llms 指引(llms.txt=放網站根目錄給 AI 讀的內容導覽檔),主動引導 AI agent 找到你最該被讀的內容。
怎麼量:agent 是否抓取這些 discovery 檔。
ida 的 verify 功能已經有 API,把它標準化成 Agent 可呼叫的端點(MCP),讓 AI agent 能主動來查證。
怎麼量:呼叫量。基準參考:VERIFY API 路徑 30 天已被呼叫 65,387 次 [CF exact path, OS驗],證明「可被機器呼叫的驗證端點」確有需求。
- ⑤ FAQ schema 帶 ida citation——把答案+證據直接遞給答案引擎。
- ② AI-sitemap 帶 entity_ref——在抓量最大的 HTML 入口(GPTBot 30天 3,011,394 次 [CF Adaptive 30天, OS驗])上加實體標註。
- ⑥ og:description 事實化——改一行字,就可能被 AI 摘要直接複用。
🔴誠實邊界:這頁的數字哪些是確定、哪些是下限
格式建議能讓你「更容易被引用」,但「被引用幾次」目前測不到真值
| 指標 | 數值 | 確定度 | 為什麼 |
|---|---|---|---|
| 開站總請求 | 54,361,090 [CF, 126天] | 確定✅ | CF 全量計數,zone 才約 4 個月非截斷 |
| 30天各爬蟲抓取 | 15,412,222 [CF Adaptive 30天] | 確定✅ | 每個 UA 逐一計數,OS 獨立驗 |
| 明確 AI 引擎 referer | 452 [CF 30天] | 下限⚠️ | ChatGPT 等不送 referer,真值被低估(referer 黑洞) |
| 真 AI 引薦 | 176(真人乾淨點擊 194)[DB ai_referrer_visits, OS驗] | 下限⚠️ | DB 872萬 event 中 99.998% 是 ai-crawl 爬蟲,禁講成引薦 |
- 每個數字都標 [來源] + 時間窗。
- 確定(總量、30天 per-UA)vs 下限(引薦、導流=referer 黑洞測不到真值)分清。
- 禁把 DB 數字跟 CF 數字相加(兩者差 33–65 倍)。
- 禁把 DB 的 872 萬 event 講成「引薦」——99.998% 是爬蟲,真引薦只有 176、真人乾淨點擊只有 194 [DB ai_referrer_visits, OS驗]。
所以本頁定位很清楚:格式三鐵則 + 混搭 8 式,是把「被抓 1,500 萬次」變成「更容易被引用」的工程。至於「被引用了幾次」,目前只能給下限(452/176),這是 referer 黑洞的物理限制,不是我們不誠實。