📖 怎麼讀這份報告 · V3 數據全驗證版

washinmura AI 內容格式報告 V3 — 數據全驗證版

這份報告回答一個問題:要讓 AI(ChatGPT、Claude、Perplexity 這些)願意「引用我們、把人帶來我們網站」,內容該怎麼寫?這一頁先教你怎麼讀——每個數字都驗證過、都標來源,確定的和只能看到下限的,分得清清楚楚。

① 每個數字都驗證過、都標來源
這份 V3 把每一個數字都重新核對:由 Opus 第三方獨立複算,後面都附上 [來源]。沒有來源的數字不採用、不杜撰。看到任何數字,你都可以往回追它從哪來。
② AI 喜歡「人看得到的 HTML + 具體數字 + 夠新」
讓 AI 願意引用你,三件事:內容寫在人類肉眼就看得到的 HTML 文字裡(不是藏在圖片或要點按鈕才出現)、有具體數字與日期(不是「很多」「最近」)、而且夠新。Part1 會展開講。
③ 真正「導流進來」現在量不到真值,我們正在補量測
ChatGPT 這類引擎多半不送 referer(不告訴網站訪客從哪點來),所以「有多少人從 AI 點進來」我們只能拿到下限,誠實標 下限・估計 ⚠️。為了把這個黑洞補起來,我們已經上線一條量測管道(Worker)。

🎯研究目的:我們到底想搞清楚什麼?

一句話:怎麼寫內容,才能讓 AI 引擎願意引用我們、並把真人讀者帶到我們網站。

現在愈來愈多人不再 Google,而是直接問 ChatGPT、Claude、Perplexity。問完之後,AI 會引用某些網站當答案來源,有時還會附連結把人導過去。對 washinmura 來說,問題就變成:

白話:這份報告對你(創業家)有什麼用?
它幫你避免「拿一個聽起來很猛、其實是猜的數字」去下注。每個建議背後都有驗證過的數據撐著,你可以放心拿去做內容決策。

📋計畫/方法:數據怎麼來、怎麼驗

三條獨立管線取數,再加一輪第三方獨立複算對帳。三邊兜得起來,數字才敢用。

步驟怎麼做性質
① CF GraphQL
(Cloudflare)
透過 Cloudflare GraphQL API,直接拉 zone 層級的請求紀錄與各 AI 爬蟲抓取量。這是「誰來抓、抓幾次」最可信的來源。 確定 ✅
② DB(pgbouncer)
(PostgreSQL)
從資料庫(經 pgbouncer 連線)撈更早的歷史與引薦事件。日期是真的,但數字嚴重低估,只能看趨勢、不能拿來比大小。 下限・估計 ⚠️
③ Opus 獨立複算
(第三方對帳)
不另外取數,而是把上面兩條管線的關鍵數字重算一遍對帳。本報告最核心的「總請求 54,361,090」就是這樣複算出來的。 第三方複算
白話:為什麼要「兩邊查 + 第三方複算」?
就像對帳——一個人記帳可能抄錯,兩個人各自記、再請第三個人拿計算機重算一遍,三邊兜得起來,數字才敢拿去做決策。這份報告所有標 確定 ✅ 的數字,都走過這道手續。

名詞白話:爬蟲 = AI 公司派來自動抓網頁內容的程式;引薦型 AI = 會把人導流到你網站(如 ChatGPT、Perplexity);訓練型 AI = 只來抓內容餵模型、不導流(如 GPTBot、ClaudeBot)。

答案:全局結論(每個數字都帶來源)

先給你最重要的四個全局結論。細節在後面四頁,這裡先讓你抓到地基。

54,361,090

開站至今總請求

2026-02-12~06-17 共 126 天 確定 ✅

[CF httpRequests1dGroups;Opus 獨立複算]

15,412,222

AI 爬蟲 30 天抓取

已知 AI 爬蟲合計 確定 ✅

[CF Adaptive 2026-05-18~06-17,30 天]

194

真人乾淨點擊

真正從 AI 點進來的人 下限 ⚠️

[DB ai_referrer_visits,下限]

結論 A:網站才開站 4 個月,但 AI 爬蟲已經來抓得很兇確定 ✅
Cloudflare 的 zone(網站)是 2026-02-11 才建立的[CF REST zone metadata],所以「開站至今的完整總量」就是 54,361,090 次請求[CF httpRequests1dGroups,126 天,Opus 獨立複算]——不是被保留期截斷的片段,是一次都沒漏。其中近 30 天已知 AI 爬蟲就抓了 15,412,222[CF Adaptive 2026-05-18~06-17]
結論 B:抓最兇的是 ClaudeBot,但「訓練型」不會帶人來確定 ✅
近 30 天 ClaudeBot 一家就抓了 7,798,195[CF Adaptive 30 天],其次 GPTBot 3,011,394[CF Adaptive 30 天]。但這兩個都是訓練型(只抓內容餵模型,不會把人導來)。真正會帶人來的引薦型(如 ChatGPT-User 194,556[CF Adaptive 30 天])抓取量小很多。記住:抓得多 ≠ 帶人來得多
結論 C:真導流現在量不到真值,只能拿下限下限 ⚠️
帶明確 AI 引擎 referer 的請求只有 452[CF,下限・referer 黑洞];資料庫裡真人乾淨點擊只有 194[DB ai_referrer_visits,下限]。這兩個都是下限,因為 ChatGPT 多半不送 referer,瀏覽器沒告訴網站「我從 AI 來」。真實導流一定 ≥ 這些數,但究竟多多少,現有數據測不到。
結論 D:誠實第一——872 萬 event 絕不是 872 萬次引薦勿誤讀 🔴
資料庫的 ai_referrer 有 872 萬個 event,乍看像「被 AI 引薦 872 萬次」——這是天大的誤讀。第三方獨立驗證後,其中 99.998% 其實是爬蟲,真正的 AI 引薦只有 176[DB ai_referrer_visits,下限]。而且資料庫的歷史數字比 Cloudflare 低估 33~65 倍禁止把 DB 跟 CF 相加
⚠️ 我們已經在補洞: 為了把「referer 黑洞」量起來,我們已上線一條量測管道(Worker,先在 ainews/en 試點,已親驗 cloaking-safe),並修好 21 件 AI 抓不到的 404。導流的真值會隨這條管道累積而逐步浮現。[已落地]

🗺️5 章導覽:這份報告怎麼讀

不用從頭讀到尾。看你關心什麼,直接跳。

📰給完全不懂的人:把 AI 想成一個記者

不懂技術也沒關係。一個比喻就能抓到全部重點。

想像 AI(ChatGPT、Claude、Perplexity)是一個很忙的記者。讀者問他問題,他要趕快給答案,還要附上「這資訊我從哪家看來的」。對 washinmura 來說,目標就是:讓這位記者願意引用我們、還把讀者導到我們這來

📖 記者喜歡好引用的素材

數字明確、日期清楚、白紙黑字寫在文章裡——記者複製貼上就能用、敢用。這就是 AI 愛的格式。

🙈 記者討厭含糊的素材

「很多」「最近」「據說」、資訊藏在圖片或要點半天才出現——記者沒法引用,只好跳過你。

所以整份報告就在教一件事:把我們的內容,寫成「讓 AI 這位記者最好引用」的樣子。具體怎麼寫,Part1 一步步示範。

📚白話術語表:看到不懂的詞回來查

這份報告會用到一些詞。第一次出現都會附白話,這裡是完整對照。

術語白話解釋
JSON-LD藏在網頁裡、專門給機器讀的「資訊標籤」。人看不到,但 AI 一讀就懂這頁在講什麼。
cite-as網頁主動告訴 AI「要引用我,請用這個正式網址」,等於替自己準備好「引用格式」。
事實密度一段內容裡「數字+日期+出處」有多密。密度高,AI 愈敢拿去當答案。
referer瀏覽器告訴網站「我從哪個頁面點過來的」。ChatGPT 多半不送,所以網站看不到誰是從 AI 來的——這就是「referer 黑洞」。
引薦型 AI會把真人讀者導流到你網站的 AI(如 ChatGPT、Perplexity)。這種最有價值。
訓練型 AI只來抓內容餵自己模型、不會把人帶來的 AI(如 GPTBot、ClaudeBot)。抓得再多也不等於帶人來。
llms.txt放在網站根目錄、專門寫給 AI 看的一份「導覽說明」,告訴 AI 這站有什麼、該怎麼讀。
cloaking-safe量測管道的一個安全要求:給 AI 看的內容和給人看的必須一致,不能「對 AI 演一套、對人演另一套」。我們的 Worker 已親驗符合。
下限・估計「至少這麼多,但真值更高、現在測不到」。凡是導流/引用類數字都這樣標,誠實不誇大。

名詞白話:本頁 <head> 自己就嵌了一段 JSON-LD,每個數字都帶 <span class="src"> 來源——這正是我們在 Part1 會詳細說明、AI 引擎最愛的格式(dogfood:自己先示範一次)。