📊 完整數據基礎 · V3

這份報告,到底建在多少數據上?

所有結論的地基都在這一頁。每一個數字都標明來源(Cloudflare/資料庫/檔案)與時間窗,確定的數字與「只能看到下限」的數字清楚分開。沒有任何一個數字是猜的。

① 總請求 54,361,090 次 — 開站至今全部都在
從 2026-02-12 到 06-17 共 126 天,網站(zone)2026-02-11 才建立,所以這就是「開站第一天起的完整總量」,不是被截斷的片段。[CF httpRequests1dGroups]
② 抓得最兇的爬蟲是 ClaudeBot — 30 天 7,798,195 次
近 30 天 18 個 AI 爬蟲合計抓了 15,412,222 次。ClaudeBot 一家就佔超過一半。[CF Adaptive 2026-05-18~06-17]
③ 真正「有人從 AI 點進來」的量,測不到真值,只能看下限
ChatGPT 等引擎多半不送 referer(不告訴網站訪客從哪來),所以「被引用/被導流」我們只能拿到下限數字,誠實地標成「下限・估計」,不誇大。[CF referer 黑洞]

🎯研究目的

這一頁要回答一件事:我們後面 Part1~Part3 的所有判斷與建議,到底站在多紮實的數據上?

創業家做決策最怕「拿一個聽起來很猛、但其實是猜的數字」去下注。所以這一頁的任務,是把 washinmura 整個網站從開站到今天的真實流量數據,完整、誠實地攤開:

📋計畫/方法:數據怎麼取得 + 怎麼驗證

三條獨立的數據管線,外加一輪獨立複算對帳。17 個關鍵數字裡,16 個兩邊吻合。

數據管線怎麼取得怎麼驗證可信度
CF 數據
(Cloudflare)
透過 Cloudflare GraphQL API 直接拉 zone 層級的請求紀錄 由 OP 與 CX 兩方各自獨立查詢、互相核對口徑 雙查 ✅
DB 數據
(PostgreSQL)
從 PostgreSQL 資料庫 tqaeo(經 pgbouncer 連線)撈爬蟲訪問紀錄表 由 CX 查詢,再由 OS 用同一口徑獨立複算對帳 同口徑複算 ✅
獨立複算
(第三方)
不另外取數,而是針對上面兩條管線的關鍵數字重算一遍 由 Opus 獨立複算 17 個數字,結果 16 個吻合(1 個差 0.02%,原因是當日累加) 16/17 吻合
白話:為什麼要「兩邊查 + 第三方複算」?
就像對帳:一個人記的帳可能抄錯,兩個人各自記、再請第三個人拿計算機重算一遍,三邊兜得起來,數字才敢拿去做決策。這頁所有「確定 ✅」的數字都經過這道手續。

名詞白話:referer = 瀏覽器告訴網站「我從哪個頁面點過來的」(ChatGPT 多半不送,所以網站看不到誰是從 AI 來的);引薦型 AI = 會把人導流到你網站(如 ChatGPT/Perplexity);訓練型 AI = 只來抓內容、不導流(如 GPTBot/ClaudeBot)。

完整數據表 (a):總量 + 成長曲線

這是整個網站從開站到今天的「總流量」,是最確定的一組數字。

54,361,090

總請求次數

開站至今全部請求 確定 ✅

[CF httpRequests1dGroups,2026-02-12~06-17 共 126 天;OP 親算 vs CX 差 0.02%,因當日累加]

乾淨值 ≈ 52,651,711(扣 Tollbit ~3% 自家計費 log,詳見下方 Tollbit 校正)確定 ✅
[扣 Tollbit 1,607,037,下限因 Worker 建 04-26 更早不可查]

~431,000

日均請求/天

總量 ÷ 126 天 確定 ✅

[CF httpRequests1dGroups]

2026-02-11

開站基準日

CF zone 建立日 基準

[CF REST zone metadata]

為什麼這個總量是「開站第一天起的完整總量」?
因為 Cloudflare 的 zone 是 2026-02-11 才建立的[CF REST zone metadata],整個 zone 才存在 4 個月,不是保留期截斷。也就是說,這 54,361,090 次[CF httpRequests1dGroups]不是「最近能查到的一段」,而是「網站開張到現在,一次都沒漏」。

成長曲線:從 10 萬 到 790 萬

把每週的請求量攤開來看,成長非常陡:

時間點該週請求量說明來源
W7(2026-02-09)10.6 萬/週剛開站,流量很低[CF]
W12(2026-03-16)443 萬/週約一個月後暴增[CF]
W24(2026-06-08)790 萬/週目前水準 含 Tollbit ⚠️[CF]
⚠️ 誠實標註: 6 月的數字裡,有一部分是 Tollbit 計費 log,不是純粹的內容請求。所以 W24 的 790 萬/週要理解成「含計費 log」,不能當作純內容流量直接和 W7、W12 等比。[CF,6 月部分含 Tollbit 計費 log 非純內容]

完整數據表 (b):各爬蟲完整清單(18 個)

近 30 天(2026-05-18~06-17)每一個 AI 爬蟲分別抓了幾次。這是「被抓取」的次數,不是「被引用」。確定 ✅ · OS 驗

排名爬蟲(User-Agent)30 天抓取次數類型
1ClaudeBot7,798,195 確定 ✅訓練型
2GPTBot3,011,394 確定 ✅訓練型
3GoogleOther2,847,349 確定 ✅訓練型
4meta-externalagent1,039,569 確定 ✅訓練型
5Amazonbot256,690 確定 ✅訓練型
6ChatGPT-User194,556 確定 ✅引薦型
7OAI-SearchBot161,825 確定 ✅引薦型
8Bytespider35,556 確定 ✅訓練型
9PerplexityBot32,077 確定 ✅引薦型
10PetalBot19,922 確定 ✅訓練型
11Applebot11,384 確定 ✅訓練型
12CCBot2,583 確定 ✅訓練型
13YouBot430 確定 ✅引薦型
14Perplexity-User349 確定 ✅引薦型
15Google-Extended175 確定 ✅訓練型
16cohere-ai95 確定 ✅訓練型
17anthropic-ai70 確定 ✅訓練型
18Claude-SearchBot3 確定 ✅引薦型
合計15,412,222

[CF Adaptive 2026-05-18~06-17,30 天,OS 驗;合計 = CF Adaptive sum,OS 驗]

怎麼讀這張表?
這 18 個爬蟲合計抓了 15,412,222[CF Adaptive sum,OS 驗]。其中 ClaudeBot 一家就 780 萬,超過一半。要注意:「抓得多」≠「引用得多」。大部分是訓練型(只抓不導流),真正會把人帶進來的引薦型(ChatGPT-User、OAI-SearchBot、PerplexityBot…)抓取量小很多。

完整數據表 (b2):DB 更早的歷史(回到 3 月)

資料庫保留了比 Cloudflare 更早的爬蟲歷史,日期是真的,但數字嚴重低估下限・估計 ⚠️

bot_visits_daily

1,148 筆/32 個爬蟲

訪問數合計 3,472,506

時間窗 2026-03-03~06-14

[DB,OS 複算吻合]

crawler_url_hits

259 萬 筆/721MB

逐筆 URL 抓取明細

時間窗 2026-05-13~06-11

[DB,OS 驗]

🔴 必讀 caveat:DB 比 CF 低估 33~65 倍,禁止相加比較
同樣是 ClaudeBot,資料庫只記到 11.9 萬,但 Cloudflare 是 780 萬——差了 60 幾倍[DB vs CF]。而且 2026-05-17 之後資料庫只剩 1~3 個爬蟲有紀錄。所以這組「歷史回到 3 月」日期是真的、數字是不完整的
👉 規則:DB 數字可以看「3 月就有爬蟲在抓」這個趨勢事實,但絕對不能拿 DB 的數字去和 CF 相加,也不能拿來互比大小。兩條管線量級差太多,加在一起會得到完全錯誤的結論。

完整數據表 (c):請求 vs 驗證 vs 引用

這是全報告最容易被誤讀的一段。「被抓 1500 萬次」聽起來很猛,但被抓被驗證被引用有人真的點進來[CF Adaptive 30 天]

15,412,222

REQUEST · 被抓取

爬蟲來抓內容的次數 確定 ✅

[CF Adaptive 30 天,被抓非被引用]

65,387

VERIFY · API 呼叫

打到特定驗證路徑的次數 確定 ✅

[CF exact path,OS 驗]

452

CITE · 明確 AI 引用

帶 AI 引擎 referer 的請求 下限 ⚠️

[CF,🔴下限·referer 黑洞]

指標數字意義性質
有 referer 的請求7,747,968(17.3%)只有 17.3% 的請求會告訴我們「從哪來」,其餘 82.7% 是黑洞下限 ⚠️
[CF]
DB ai_referrer event872 萬 event看起來很多,但 OS 抓出 99.998% 其實是 ai-crawl 爬蟲勿誤讀 🔴
[DB ai_referrer_visits,OS 驗]
↳ 真 AI 引薦176872 萬裡,真正算 AI 引薦的只有 176下限 ⚠️
↳ 真人乾淨點擊194真正是人從 AI 點進來的,只有 194下限 ⚠️
🔴 最關鍵的一句:872 萬 event ≠ 872 萬次 AI 引薦
資料庫的 ai_referrer 有 872 萬個 event,乍看像「被 AI 引薦 872 萬次」——這是天大的誤讀。OS 獨立驗證後發現其中 99.998% 是 ai-crawl 爬蟲本身,真正的 AI 引薦只有 176、真人乾淨點擊只有 194[DB ai_referrer_visits,OS 驗]
👉 所以:禁止把 872 萬講成引用/引薦
🔮 推論:為什麼「真導流量」只能拿到下限、拿不到真值?
因為帶 AI 引擎 referer 的請求只有 452 筆,而有 referer 的請求只佔全部的 17.3%(7,747,968 / 54,361,090)[CF]。ChatGPT 這類引擎多半不送 referer,等於有人從 AI 點進來、瀏覽器卻沒告訴網站「我從 AI 來」。這個結構性的「referer 黑洞」讓我們只能測到下限——真實的導流一定 ≥ 452,但究竟多多少,現有數據無法得知。這就是為什麼引用/導流類數字一律標 下限・估計 ⚠️,不標「確定」。

🌐完整數據表 (d):三語言 × AI 用途

把全站流量拆成「三種 AI 用途 × 三種語言」。三類用途各有各的最大語言,不能混為一談。三資料源交叉驗證(CF path-regex + DB 獨立 language 欄 + ai_referrer_visits,OS 獨立複算)。確定 ✅ · OS 驗

AI 用途ja(日文)en(英文)zh(中文)最大語言
訓練爬蟲
(全史,開站至今)
1,967,212 確定 ✅
[DB rollup,OS 驗]
1,795,050
[DB rollup,OS 驗]
1,584,366
[DB rollup,OS 驗]
ja 最大 ✅
引用爬蟲
(CF 近 30 天)
47.9% 確定 ✅
[CF 30 天,2 源 2 窗 2 bot 同向]
33.2%
[CF 30 天]
9.8%
[CF 30 天]
ja 最大 ✅
真人導流
(195 筆小樣本)
63
[DB ai_referrer_visits]
120 下限・小樣本 ⚠️
[DB ai_referrer_visits]
9
[DB ai_referrer_visits]
en 最大 ⚠️
🔴 重要修正:「我們餵最多中文訓練」全史不成立
之前看到「zh 訓練最大」其實是近 30 天的 artifact(短期假象):6 月 ClaudeBot 一家狂打 zh,6/02 單日 19.2 萬,相對 4 月基線僅 1.3 萬[DB rollup,OS 驗]。拉回全史看,是 ja 最大(196.7 萬 > en 179.5 萬 > zh 158.4 萬);開站早期 zh 甚至只有 ja 的一半(225K vs 454K[DB rollup 全史,OS 驗]
👉 誠實結論:別被一個月的高峰誤導成「我們中文內容最被 AI 看重」。
怎麼讀這張表?三種用途各有各的冠軍
ja 是「訓練 + 引用」雙料最大;en 只在「真人導流」贏(但這是 195 筆小樣本,方向可信、絕對數字噪音高);zh 三項都排第三。
⚠️ aeo 是最大子站(佔 training 約 61% / referral 約 71.77%)[DB,OS 驗],所以本語言分析涵蓋全站含 aeo,不是只算 ainews。
⚠️ 已知盲點:zh-TW 分不出 zh-CN
資料只有單一 zh 桶,無法區分繁中(zh-TW)與簡中(zh-CN)。我們做的是繁中內容,但桶裡可能混入簡中,現有數據無法證偽[DB language 欄粒度限制]

🧹Tollbit 校正:總量扣掉自家計費 log

報告原本的總量 54,361,090 含一部分 Tollbit 計費 log 灌水。查清楚後做了校正。確定 ✅

54,361,090

原總量(含 Tollbit)

扣校正前 含計費 log ⚠️

[CF httpRequests1dGroups]

52,651,711

乾淨總量(扣 Tollbit)

扣 Tollbit 30 天 1,607,037(~3%) 確定 ✅

[扣 Tollbit,下限因 Worker 建 04-26 更早不可查]

項目數字說明
Tollbit log 是什麼30 天 1,607,037 次 [CF]我們自己的 CF Worker(ainews-tollbit)往 log.tollbit.com 送的計費 log(edgeWorkerFetch),不是外部 bot
佔比~3%佔原總量約 3%,扣掉後得乾淨總量 52,651,711
各爬蟲數字受影響嗎不受影響Tollbit 空 UA 不在 18 爬蟲清單裡,ClaudeBot 7.8M 等本來就乾淨
量測 Worker 受傷嗎未受傷解綁後服務全 200,量測 Worker 正常
✅ 已移除(2026-06-17)
已於 2026-06-17 解綁 route 移除 Tollbit log,流量自 20:10 起歸零[CF,解綁紀錄]。量測 Worker 未受傷、服務全 200。從今天起累積的數據已乾淨,未來不需再做這層校正。

🔴數據誠實守則

這份報告對自己定的紀律。讀任何數字前,先把這六條放在心上。

  1. 每個數字都標 [來源] + 時間窗。 沒有來源的數字,不採用、不杜撰。
  2. 「確定」與「下限」分清。 總量、每個 UA 的 30 天抓取量 = 確定 ✅;引薦/導流 = 下限・估計 ⚠️(referer 黑洞測不到真值)。
  3. 禁止 DB 跟 CF 相加。 兩者差 33~65 倍,量級不同,相加 = 錯誤結論。
  4. 禁止把 872 萬 event 講成引薦。 99.998% 是爬蟲,真引薦 176、真人 194。
  5. 推測一律標 🔮。 凡是推論/推理,明白寫出「我是怎麼推的」。
  6. 開站(2026-02-11)前沒有數據。 那段從沒封存,不存在的數字不假裝有;但 zone 才 4 個月,損失有限。
其他來源(證明不只靠 Cloudflare 一家):
VPS log 僅數天[檔案]|本地 CSV 快照 3 天[檔案]|新 archive 從 2026-06-16 起每日累積(未來會變大)[檔案]。多個獨立來源互相印證,不是單一數據源孤證。

📐本頁自己也用 AI 愛的格式(dogfood)

這份報告自己就示範了我們建議的格式:語意化 HTML5、<head> 嵌 JSON-LD、每個事實都帶來源。

❌ AI 不愛的寫法
<div>爬蟲抓了很多次, ClaudeBot 最多</div>

沒數字、沒日期、沒來源,AI 無從引用也無從信任。

✅ 本頁實際用的寫法
<td><b>ClaudeBot</b></td> <td>7,798,195</td> <span class="src">[CF Adaptive 2026-05-18~06-17,OS 驗]</span>

數字 + 時間窗 + 來源 + 驗證方,事實密度高,AI 可直接引用。

名詞白話:JSON-LD = 藏在網頁裡給機器讀的標籤;事實密度 = 數字+日期+出處的密集程度。本頁 <head> 就嵌了一段 JSON-LD,整頁每個數字都帶 <span class="src"> 來源——這正是我們在 Part1 會詳細說明、AI 引擎最愛的格式。