從 2026-02-12 到 06-17 共 126 天,網站(zone)2026-02-11 才建立,所以這就是「開站第一天起的完整總量」,不是被截斷的片段。[CF httpRequests1dGroups]
近 30 天 18 個 AI 爬蟲合計抓了 15,412,222 次。ClaudeBot 一家就佔超過一半。[CF Adaptive 2026-05-18~06-17]
ChatGPT 等引擎多半不送 referer(不告訴網站訪客從哪來),所以「被引用/被導流」我們只能拿到下限數字,誠實地標成「下限・估計」,不誇大。[CF referer 黑洞]
🎯研究目的
這一頁要回答一件事:我們後面 Part1~Part3 的所有判斷與建議,到底站在多紮實的數據上?
創業家做決策最怕「拿一個聽起來很猛、但其實是猜的數字」去下注。所以這一頁的任務,是把 washinmura 整個網站從開站到今天的真實流量數據,完整、誠實地攤開:
- 讓你看見地基。 後面所有「該怎麼寫內容、哪個 AI 引擎值得顧」的結論,都建立在這頁的數字上。
- 讓你分得清「確定」與「下限」。 有些數字(總請求量、每個爬蟲抓幾次)是確定 ✅;有些(多少人真的從 AI 被導流過來)我們只能拿到下限・估計 ⚠️。混在一起講,就會做出錯誤決策。
- 讓你知道我們怎麼驗證。 不是單方面報數字,是兩邊獨立查、再用第三方獨立複算對帳。
📋計畫/方法:數據怎麼取得 + 怎麼驗證
三條獨立的數據管線,外加一輪獨立複算對帳。17 個關鍵數字裡,16 個兩邊吻合。
| 數據管線 | 怎麼取得 | 怎麼驗證 | 可信度 |
|---|---|---|---|
| CF 數據 (Cloudflare) |
透過 Cloudflare GraphQL API 直接拉 zone 層級的請求紀錄 | 由 OP 與 CX 兩方各自獨立查詢、互相核對口徑 | 雙查 ✅ |
| DB 數據 (PostgreSQL) |
從 PostgreSQL 資料庫 tqaeo(經 pgbouncer 連線)撈爬蟲訪問紀錄表 | 由 CX 查詢,再由 OS 用同一口徑獨立複算對帳 | 同口徑複算 ✅ |
| 獨立複算 (第三方) |
不另外取數,而是針對上面兩條管線的關鍵數字重算一遍 | 由 Opus 獨立複算 17 個數字,結果 16 個吻合(1 個差 0.02%,原因是當日累加) | 16/17 吻合 |
就像對帳:一個人記的帳可能抄錯,兩個人各自記、再請第三個人拿計算機重算一遍,三邊兜得起來,數字才敢拿去做決策。這頁所有「確定 ✅」的數字都經過這道手續。
名詞白話:referer = 瀏覽器告訴網站「我從哪個頁面點過來的」(ChatGPT 多半不送,所以網站看不到誰是從 AI 來的);引薦型 AI = 會把人導流到你網站(如 ChatGPT/Perplexity);訓練型 AI = 只來抓內容、不導流(如 GPTBot/ClaudeBot)。
✅完整數據表 (a):總量 + 成長曲線
這是整個網站從開站到今天的「總流量」,是最確定的一組數字。
總請求次數
開站至今全部請求 確定 ✅
[CF httpRequests1dGroups,2026-02-12~06-17 共 126 天;OP 親算 vs CX 差 0.02%,因當日累加]
乾淨值 ≈ 52,651,711(扣 Tollbit ~3% 自家計費 log,詳見下方 Tollbit 校正)確定 ✅
[扣 Tollbit 1,607,037,下限因 Worker 建 04-26 更早不可查]
日均請求/天
總量 ÷ 126 天 確定 ✅
[CF httpRequests1dGroups]
開站基準日
CF zone 建立日 基準
[CF REST zone metadata]
因為 Cloudflare 的 zone 是 2026-02-11 才建立的[CF REST zone metadata],整個 zone 才存在 4 個月,不是保留期截斷。也就是說,這 54,361,090 次[CF httpRequests1dGroups]不是「最近能查到的一段」,而是「網站開張到現在,一次都沒漏」。
成長曲線:從 10 萬 到 790 萬
把每週的請求量攤開來看,成長非常陡:
| 時間點 | 該週請求量 | 說明 | 來源 |
|---|---|---|---|
| W7(2026-02-09) | 10.6 萬/週 | 剛開站,流量很低 | [CF] |
| W12(2026-03-16) | 443 萬/週 | 約一個月後暴增 | [CF] |
| W24(2026-06-08) | 790 萬/週 | 目前水準 含 Tollbit ⚠️ | [CF] |
✅完整數據表 (b):各爬蟲完整清單(18 個)
近 30 天(2026-05-18~06-17)每一個 AI 爬蟲分別抓了幾次。這是「被抓取」的次數,不是「被引用」。確定 ✅ · OS 驗
| 排名 | 爬蟲(User-Agent) | 30 天抓取次數 | 類型 |
|---|---|---|---|
| 1 | ClaudeBot | 7,798,195 確定 ✅ | 訓練型 |
| 2 | GPTBot | 3,011,394 確定 ✅ | 訓練型 |
| 3 | GoogleOther | 2,847,349 確定 ✅ | 訓練型 |
| 4 | meta-externalagent | 1,039,569 確定 ✅ | 訓練型 |
| 5 | Amazonbot | 256,690 確定 ✅ | 訓練型 |
| 6 | ChatGPT-User | 194,556 確定 ✅ | 引薦型 |
| 7 | OAI-SearchBot | 161,825 確定 ✅ | 引薦型 |
| 8 | Bytespider | 35,556 確定 ✅ | 訓練型 |
| 9 | PerplexityBot | 32,077 確定 ✅ | 引薦型 |
| 10 | PetalBot | 19,922 確定 ✅ | 訓練型 |
| 11 | Applebot | 11,384 確定 ✅ | 訓練型 |
| 12 | CCBot | 2,583 確定 ✅ | 訓練型 |
| 13 | YouBot | 430 確定 ✅ | 引薦型 |
| 14 | Perplexity-User | 349 確定 ✅ | 引薦型 |
| 15 | Google-Extended | 175 確定 ✅ | 訓練型 |
| 16 | cohere-ai | 95 確定 ✅ | 訓練型 |
| 17 | anthropic-ai | 70 確定 ✅ | 訓練型 |
| 18 | Claude-SearchBot | 3 確定 ✅ | 引薦型 |
| 合計 | 15,412,222 |
[CF Adaptive 2026-05-18~06-17,30 天,OS 驗;合計 = CF Adaptive sum,OS 驗]
這 18 個爬蟲合計抓了 15,412,222 次[CF Adaptive sum,OS 驗]。其中 ClaudeBot 一家就 780 萬,超過一半。要注意:「抓得多」≠「引用得多」。大部分是訓練型(只抓不導流),真正會把人帶進來的引薦型(ChatGPT-User、OAI-SearchBot、PerplexityBot…)抓取量小很多。
✅完整數據表 (b2):DB 更早的歷史(回到 3 月)
資料庫保留了比 Cloudflare 更早的爬蟲歷史,日期是真的,但數字嚴重低估,下限・估計 ⚠️
bot_visits_daily
1,148 筆/32 個爬蟲
訪問數合計 3,472,506
時間窗 2026-03-03~06-14
[DB,OS 複算吻合]
crawler_url_hits
259 萬 筆/721MB
逐筆 URL 抓取明細
時間窗 2026-05-13~06-11
[DB,OS 驗]
同樣是 ClaudeBot,資料庫只記到 11.9 萬,但 Cloudflare 是 780 萬——差了 60 幾倍[DB vs CF]。而且 2026-05-17 之後資料庫只剩 1~3 個爬蟲有紀錄。所以這組「歷史回到 3 月」日期是真的、數字是不完整的。
👉 規則:DB 數字可以看「3 月就有爬蟲在抓」這個趨勢事實,但絕對不能拿 DB 的數字去和 CF 相加,也不能拿來互比大小。兩條管線量級差太多,加在一起會得到完全錯誤的結論。
✅完整數據表 (c):請求 vs 驗證 vs 引用
這是全報告最容易被誤讀的一段。「被抓 1500 萬次」聽起來很猛,但被抓≠被驗證≠被引用≠有人真的點進來。[CF Adaptive 30 天]
REQUEST · 被抓取
爬蟲來抓內容的次數 確定 ✅
[CF Adaptive 30 天,被抓非被引用]
VERIFY · API 呼叫
打到特定驗證路徑的次數 確定 ✅
[CF exact path,OS 驗]
CITE · 明確 AI 引用
帶 AI 引擎 referer 的請求 下限 ⚠️
[CF,🔴下限·referer 黑洞]
| 指標 | 數字 | 意義 | 性質 |
|---|---|---|---|
| 有 referer 的請求 | 7,747,968(17.3%) | 只有 17.3% 的請求會告訴我們「從哪來」,其餘 82.7% 是黑洞 | 下限 ⚠️ [CF] |
| DB ai_referrer event | 872 萬 event | 看起來很多,但 OS 抓出 99.998% 其實是 ai-crawl 爬蟲 | 勿誤讀 🔴 [DB ai_referrer_visits,OS 驗] |
| ↳ 真 AI 引薦 | 176 | 872 萬裡,真正算 AI 引薦的只有 176 | 下限 ⚠️ |
| ↳ 真人乾淨點擊 | 194 | 真正是人從 AI 點進來的,只有 194 | 下限 ⚠️ |
資料庫的 ai_referrer 有 872 萬個 event,乍看像「被 AI 引薦 872 萬次」——這是天大的誤讀。OS 獨立驗證後發現其中 99.998% 是 ai-crawl 爬蟲本身,真正的 AI 引薦只有 176、真人乾淨點擊只有 194。[DB ai_referrer_visits,OS 驗]
👉 所以:禁止把 872 萬講成引用/引薦。
因為帶 AI 引擎 referer 的請求只有 452 筆,而有 referer 的請求只佔全部的 17.3%(7,747,968 / 54,361,090)[CF]。ChatGPT 這類引擎多半不送 referer,等於有人從 AI 點進來、瀏覽器卻沒告訴網站「我從 AI 來」。這個結構性的「referer 黑洞」讓我們只能測到下限——真實的導流一定 ≥ 452,但究竟多多少,現有數據無法得知。這就是為什麼引用/導流類數字一律標 下限・估計 ⚠️,不標「確定」。
🌐完整數據表 (d):三語言 × AI 用途
把全站流量拆成「三種 AI 用途 × 三種語言」。三類用途各有各的最大語言,不能混為一談。三資料源交叉驗證(CF path-regex + DB 獨立 language 欄 + ai_referrer_visits,OS 獨立複算)。確定 ✅ · OS 驗
| AI 用途 | ja(日文) | en(英文) | zh(中文) | 最大語言 |
|---|---|---|---|---|
| 訓練爬蟲 (全史,開站至今) |
1,967,212 確定 ✅ [DB rollup,OS 驗] |
1,795,050 [DB rollup,OS 驗] |
1,584,366 [DB rollup,OS 驗] |
ja 最大 ✅ |
| 引用爬蟲 (CF 近 30 天) |
47.9% 確定 ✅ [CF 30 天,2 源 2 窗 2 bot 同向] |
33.2% [CF 30 天] |
9.8% [CF 30 天] |
ja 最大 ✅ |
| 真人導流 (195 筆小樣本) |
63 [DB ai_referrer_visits] |
120 下限・小樣本 ⚠️ [DB ai_referrer_visits] |
9 [DB ai_referrer_visits] |
en 最大 ⚠️ |
之前看到「zh 訓練最大」其實是近 30 天的 artifact(短期假象):6 月 ClaudeBot 一家狂打 zh,6/02 單日 19.2 萬,相對 4 月基線僅 1.3 萬[DB rollup,OS 驗]。拉回全史看,是 ja 最大(196.7 萬 > en 179.5 萬 > zh 158.4 萬);開站早期 zh 甚至只有 ja 的一半(225K vs 454K)[DB rollup 全史,OS 驗]。
👉 誠實結論:別被一個月的高峰誤導成「我們中文內容最被 AI 看重」。
ja 是「訓練 + 引用」雙料最大;en 只在「真人導流」贏(但這是 195 筆小樣本,方向可信、絕對數字噪音高);zh 三項都排第三。
⚠️ aeo 是最大子站(佔 training 約 61% / referral 約 71.77%)[DB,OS 驗],所以本語言分析涵蓋全站含 aeo,不是只算 ainews。
資料只有單一
zh 桶,無法區分繁中(zh-TW)與簡中(zh-CN)。我們做的是繁中內容,但桶裡可能混入簡中,現有數據無法證偽。[DB language 欄粒度限制]
🧹Tollbit 校正:總量扣掉自家計費 log
報告原本的總量 54,361,090 含一部分 Tollbit 計費 log 灌水。查清楚後做了校正。確定 ✅
原總量(含 Tollbit)
扣校正前 含計費 log ⚠️
[CF httpRequests1dGroups]
乾淨總量(扣 Tollbit)
扣 Tollbit 30 天 1,607,037(~3%) 確定 ✅
[扣 Tollbit,下限因 Worker 建 04-26 更早不可查]
| 項目 | 數字 | 說明 |
|---|---|---|
| Tollbit log 是什麼 | 30 天 1,607,037 次 [CF] | 是我們自己的 CF Worker(ainews-tollbit)往 log.tollbit.com 送的計費 log(edgeWorkerFetch),不是外部 bot |
| 佔比 | ~3% | 佔原總量約 3%,扣掉後得乾淨總量 52,651,711 |
| 各爬蟲數字受影響嗎 | 不受影響 | Tollbit 空 UA 不在 18 爬蟲清單裡,ClaudeBot 7.8M 等本來就乾淨 |
| 量測 Worker 受傷嗎 | 未受傷 | 解綁後服務全 200,量測 Worker 正常 |
已於 2026-06-17 解綁 route 移除 Tollbit log,流量自 20:10 起歸零[CF,解綁紀錄]。量測 Worker 未受傷、服務全 200。從今天起累積的數據已乾淨,未來不需再做這層校正。
🔴數據誠實守則
這份報告對自己定的紀律。讀任何數字前,先把這六條放在心上。
- 每個數字都標 [來源] + 時間窗。 沒有來源的數字,不採用、不杜撰。
- 「確定」與「下限」分清。 總量、每個 UA 的 30 天抓取量 = 確定 ✅;引薦/導流 = 下限・估計 ⚠️(referer 黑洞測不到真值)。
- 禁止 DB 跟 CF 相加。 兩者差 33~65 倍,量級不同,相加 = 錯誤結論。
- 禁止把 872 萬 event 講成引薦。 99.998% 是爬蟲,真引薦 176、真人 194。
- 推測一律標 🔮。 凡是推論/推理,明白寫出「我是怎麼推的」。
- 開站(2026-02-11)前沒有數據。 那段從沒封存,不存在的數字不假裝有;但 zone 才 4 個月,損失有限。
VPS log 僅數天[檔案]|本地 CSV 快照 3 天[檔案]|新 archive 從 2026-06-16 起每日累積(未來會變大)[檔案]。多個獨立來源互相印證,不是單一數據源孤證。
📐本頁自己也用 AI 愛的格式(dogfood)
這份報告自己就示範了我們建議的格式:語意化 HTML5、<head> 嵌 JSON-LD、每個事實都帶來源。
❌ AI 不愛的寫法
沒數字、沒日期、沒來源,AI 無從引用也無從信任。
✅ 本頁實際用的寫法
數字 + 時間窗 + 來源 + 驗證方,事實密度高,AI 可直接引用。
名詞白話:JSON-LD = 藏在網頁裡給機器讀的標籤;事實密度 = 數字+日期+出處的密集程度。本頁 <head> 就嵌了一段 JSON-LD,整頁每個數字都帶 <span class="src"> 來源——這正是我們在 Part1 會詳細說明、AI 引擎最愛的格式。