完整數據 · washinmura AI 內容格式報告 V3

① 總請求 54,361,090 次 — 開站至今全部都在
從 2026-02-12 到 06-17 共 126 天，網站（zone）2026-02-11 才建立，所以這就是「開站第一天起的完整總量」，不是被截斷的片段。[CF httpRequests1dGroups]

② 抓得最兇的爬蟲是 ClaudeBot — 30 天 7,798,195 次
近 30 天 18 個 AI 爬蟲合計抓了 15,412,222 次。ClaudeBot 一家就佔超過一半。[CF Adaptive 2026-05-18~06-17]

③ 真正「有人從 AI 點進來」的量，測不到真值，只能看下限
ChatGPT 等引擎多半不送 referer（不告訴網站訪客從哪來），所以「被引用／被導流」我們只能拿到下限數字，誠實地標成「下限・估計」，不誇大。[CF referer 黑洞]

🎯研究目的

這一頁要回答一件事：我們後面 Part1～Part3 的所有判斷與建議，到底站在多紮實的數據上？

創業家做決策最怕「拿一個聽起來很猛、但其實是猜的數字」去下注。所以這一頁的任務，是把 washinmura 整個網站從開站到今天的真實流量數據，完整、誠實地攤開：

讓你看見地基。 後面所有「該怎麼寫內容、哪個 AI 引擎值得顧」的結論，都建立在這頁的數字上。
讓你分得清「確定」與「下限」。 有些數字（總請求量、每個爬蟲抓幾次）是確定 ✅；有些（多少人真的從 AI 被導流過來）我們只能拿到下限・估計 ⚠️。混在一起講，就會做出錯誤決策。
讓你知道我們怎麼驗證。 不是單方面報數字，是兩邊獨立查、再用第三方獨立複算對帳。

📋計畫／方法：數據怎麼取得 + 怎麼驗證

三條獨立的數據管線，外加一輪獨立複算對帳。17 個關鍵數字裡，16 個兩邊吻合。

數據管線	怎麼取得	怎麼驗證	可信度
CF 數據（Cloudflare）	透過 Cloudflare GraphQL API 直接拉 zone 層級的請求紀錄	由 OP 與 CX 兩方各自獨立查詢、互相核對口徑	雙查 ✅
DB 數據（PostgreSQL）	從 PostgreSQL 資料庫 tqaeo（經 pgbouncer 連線）撈爬蟲訪問紀錄表	由 CX 查詢，再由 OS 用同一口徑獨立複算對帳	同口徑複算 ✅
獨立複算（第三方）	不另外取數，而是針對上面兩條管線的關鍵數字重算一遍	由 Opus 獨立複算 17 個數字，結果 16 個吻合（1 個差 0.02%，原因是當日累加）	16/17 吻合

白話：為什麼要「兩邊查 + 第三方複算」？
就像對帳：一個人記的帳可能抄錯，兩個人各自記、再請第三個人拿計算機重算一遍，三邊兜得起來，數字才敢拿去做決策。這頁所有「確定 ✅」的數字都經過這道手續。

名詞白話：referer = 瀏覽器告訴網站「我從哪個頁面點過來的」（ChatGPT 多半不送，所以網站看不到誰是從 AI 來的）；引薦型 AI = 會把人導流到你網站（如 ChatGPT／Perplexity）；訓練型 AI = 只來抓內容、不導流（如 GPTBot／ClaudeBot）。

✅完整數據表 (a)：總量 + 成長曲線

這是整個網站從開站到今天的「總流量」，是最確定的一組數字。

54,361,090

總請求次數

開站至今全部請求確定 ✅

[CF httpRequests1dGroups，2026-02-12~06-17 共 126 天；OP 親算 vs CX 差 0.02%，因當日累加]

乾淨值 ≈ 52,651,711（扣 Tollbit ~3% 自家計費 log，詳見下方 Tollbit 校正）確定 ✅
[扣 Tollbit 1,607,037，下限因 Worker 建 04-26 更早不可查]

~431,000

日均請求／天

總量 ÷ 126 天確定 ✅

[CF httpRequests1dGroups]

2026-02-11

開站基準日

CF zone 建立日基準

[CF REST zone metadata]

為什麼這個總量是「開站第一天起的完整總量」？
因為 Cloudflare 的 zone 是 2026-02-11 才建立的[CF REST zone metadata]，整個 zone 才存在 4 個月，不是保留期截斷。也就是說，這 54,361,090 次[CF httpRequests1dGroups]不是「最近能查到的一段」，而是「網站開張到現在，一次都沒漏」。

成長曲線：從 10 萬到 790 萬

把每週的請求量攤開來看，成長非常陡：

時間點	該週請求量	說明	來源
W7（2026-02-09）	10.6 萬／週	剛開站，流量很低	[CF]
W12（2026-03-16）	443 萬／週	約一個月後暴增	[CF]
W24（2026-06-08）	790 萬／週	目前水準含 Tollbit ⚠️	[CF]

⚠️ 誠實標註： 6 月的數字裡，有一部分是 Tollbit 計費 log，不是純粹的內容請求。所以 W24 的 790 萬／週要理解成「含計費 log」，不能當作純內容流量直接和 W7、W12 等比。[CF，6 月部分含 Tollbit 計費 log 非純內容]

✅完整數據表 (b)：各爬蟲完整清單（18 個）

近 30 天（2026-05-18~06-17）每一個 AI 爬蟲分別抓了幾次。這是「被抓取」的次數，不是「被引用」。確定 ✅ · OS 驗

排名	爬蟲（User-Agent）	30 天抓取次數	類型
1	ClaudeBot	7,798,195 確定 ✅	訓練型
2	GPTBot	3,011,394 確定 ✅	訓練型
3	GoogleOther	2,847,349 確定 ✅	訓練型
4	meta-externalagent	1,039,569 確定 ✅	訓練型
5	Amazonbot	256,690 確定 ✅	訓練型
6	ChatGPT-User	194,556 確定 ✅	引薦型
7	OAI-SearchBot	161,825 確定 ✅	引薦型
8	Bytespider	35,556 確定 ✅	訓練型
9	PerplexityBot	32,077 確定 ✅	引薦型
10	PetalBot	19,922 確定 ✅	訓練型
11	Applebot	11,384 確定 ✅	訓練型
12	CCBot	2,583 確定 ✅	訓練型
13	YouBot	430 確定 ✅	引薦型
14	Perplexity-User	349 確定 ✅	引薦型
15	Google-Extended	175 確定 ✅	訓練型
16	cohere-ai	95 確定 ✅	訓練型
17	anthropic-ai	70 確定 ✅	訓練型
18	Claude-SearchBot	3 確定 ✅	引薦型
	合計	15,412,222

[CF Adaptive 2026-05-18~06-17，30 天，OS 驗；合計 = CF Adaptive sum，OS 驗]

怎麼讀這張表？
這 18 個爬蟲合計抓了 15,412,222 次[CF Adaptive sum，OS 驗]。其中 ClaudeBot 一家就 780 萬，超過一半。要注意：「抓得多」≠「引用得多」。大部分是訓練型（只抓不導流），真正會把人帶進來的引薦型（ChatGPT-User、OAI-SearchBot、PerplexityBot…）抓取量小很多。

✅完整數據表 (b2)：DB 更早的歷史（回到 3 月）

資料庫保留了比 Cloudflare 更早的爬蟲歷史，日期是真的，但數字嚴重低估，下限・估計 ⚠️

bot_visits_daily

1,148 筆／32 個爬蟲

訪問數合計 3,472,506

時間窗 2026-03-03~06-14

[DB，OS 複算吻合]

crawler_url_hits

259 萬筆／721MB

逐筆 URL 抓取明細

時間窗 2026-05-13~06-11

[DB，OS 驗]

🔴 必讀 caveat：DB 比 CF 低估 33～65 倍，禁止相加比較
同樣是 ClaudeBot，資料庫只記到 11.9 萬，但 Cloudflare 是 780 萬——差了 60 幾倍[DB vs CF]。而且 2026-05-17 之後資料庫只剩 1～3 個爬蟲有紀錄。所以這組「歷史回到 3 月」日期是真的、數字是不完整的。
👉 規則：DB 數字可以看「3 月就有爬蟲在抓」這個趨勢事實，但絕對不能拿 DB 的數字去和 CF 相加，也不能拿來互比大小。兩條管線量級差太多，加在一起會得到完全錯誤的結論。

✅完整數據表 (c)：請求 vs 驗證 vs 引用

這是全報告最容易被誤讀的一段。「被抓 1500 萬次」聽起來很猛，但被抓≠被驗證≠被引用≠有人真的點進來。[CF Adaptive 30 天]

15,412,222

REQUEST · 被抓取

爬蟲來抓內容的次數確定 ✅

[CF Adaptive 30 天，被抓非被引用]

65,387

VERIFY · API 呼叫

打到特定驗證路徑的次數確定 ✅

[CF exact path，OS 驗]

452

CITE · 明確 AI 引用

帶 AI 引擎 referer 的請求下限 ⚠️

[CF，🔴下限·referer 黑洞]

指標	數字	意義	性質
有 referer 的請求	7,747,968（17.3%）	只有 17.3% 的請求會告訴我們「從哪來」，其餘 82.7% 是黑洞	下限 ⚠️ [CF]
DB ai_referrer event	872 萬 event	看起來很多，但 OS 抓出 99.998% 其實是 ai-crawl 爬蟲	勿誤讀 🔴 [DB ai_referrer_visits，OS 驗]
↳ 真 AI 引薦	176	872 萬裡，真正算 AI 引薦的只有 176	下限 ⚠️
↳ 真人乾淨點擊	194	真正是人從 AI 點進來的，只有 194	下限 ⚠️

🔴 最關鍵的一句：872 萬 event ≠ 872 萬次 AI 引薦
資料庫的 ai_referrer 有 872 萬個 event，乍看像「被 AI 引薦 872 萬次」——這是天大的誤讀。OS 獨立驗證後發現其中 99.998% 是 ai-crawl 爬蟲本身，真正的 AI 引薦只有 176、真人乾淨點擊只有 194。[DB ai_referrer_visits，OS 驗]
👉 所以：禁止把 872 萬講成引用／引薦。

🔮 推論：為什麼「真導流量」只能拿到下限、拿不到真值？
因為帶 AI 引擎 referer 的請求只有 452 筆，而有 referer 的請求只佔全部的 17.3%（7,747,968 / 54,361,090）[CF]。ChatGPT 這類引擎多半不送 referer，等於有人從 AI 點進來、瀏覽器卻沒告訴網站「我從 AI 來」。這個結構性的「referer 黑洞」讓我們只能測到下限——真實的導流一定 ≥ 452，但究竟多多少，現有數據無法得知。這就是為什麼引用／導流類數字一律標下限・估計 ⚠️，不標「確定」。

🌐完整數據表 (d)：三語言 × AI 用途

把全站流量拆成「三種 AI 用途 × 三種語言」。三類用途各有各的最大語言，不能混為一談。三資料源交叉驗證（CF path-regex + DB 獨立 language 欄 + ai_referrer_visits，OS 獨立複算）。確定 ✅ · OS 驗

AI 用途	ja（日文）	en（英文）	zh（中文）	最大語言
訓練爬蟲（全史，開站至今）	1,967,212 確定 ✅ [DB rollup，OS 驗]	1,795,050 [DB rollup，OS 驗]	1,584,366 [DB rollup，OS 驗]	ja 最大 ✅
引用爬蟲（CF 近 30 天）	47.9% 確定 ✅ [CF 30 天，2 源 2 窗 2 bot 同向]	33.2% [CF 30 天]	9.8% [CF 30 天]	ja 最大 ✅
真人導流（195 筆小樣本）	63 [DB ai_referrer_visits]	120 下限・小樣本 ⚠️ [DB ai_referrer_visits]	9 [DB ai_referrer_visits]	en 最大 ⚠️

🔴 重要修正：「我們餵最多中文訓練」全史不成立
之前看到「zh 訓練最大」其實是近 30 天的 artifact（短期假象）：6 月 ClaudeBot 一家狂打 zh，6/02 單日 19.2 萬，相對 4 月基線僅 1.3 萬[DB rollup，OS 驗]。拉回全史看，是 ja 最大（196.7 萬 > en 179.5 萬 > zh 158.4 萬）；開站早期 zh 甚至只有 ja 的一半（225K vs 454K）[DB rollup 全史，OS 驗]。
👉 誠實結論：別被一個月的高峰誤導成「我們中文內容最被 AI 看重」。

怎麼讀這張表？三種用途各有各的冠軍
ja 是「訓練 + 引用」雙料最大；en 只在「真人導流」贏（但這是 195 筆小樣本，方向可信、絕對數字噪音高）；zh 三項都排第三。
⚠️ aeo 是最大子站（佔 training 約 61% / referral 約 71.77%）[DB，OS 驗]，所以本語言分析涵蓋全站含 aeo，不是只算 ainews。

⚠️ 已知盲點：zh-TW 分不出 zh-CN
資料只有單一 zh 桶，無法區分繁中（zh-TW）與簡中（zh-CN）。我們做的是繁中內容，但桶裡可能混入簡中，現有數據無法證偽。[DB language 欄粒度限制]

🧹Tollbit 校正：總量扣掉自家計費 log

報告原本的總量 54,361,090 含一部分 Tollbit 計費 log 灌水。查清楚後做了校正。確定 ✅

54,361,090

原總量（含 Tollbit）

扣校正前含計費 log ⚠️

[CF httpRequests1dGroups]

52,651,711

乾淨總量（扣 Tollbit）

扣 Tollbit 30 天 1,607,037（~3%）確定 ✅

[扣 Tollbit，下限因 Worker 建 04-26 更早不可查]

項目	數字	說明
Tollbit log 是什麼	30 天 1,607,037 次 [CF]	是我們自己的 CF Worker（ainews-tollbit）往 log.tollbit.com 送的計費 log（edgeWorkerFetch），不是外部 bot
佔比	~3%	佔原總量約 3%，扣掉後得乾淨總量 52,651,711
各爬蟲數字受影響嗎	不受影響	Tollbit 空 UA 不在 18 爬蟲清單裡，ClaudeBot 7.8M 等本來就乾淨
量測 Worker 受傷嗎	未受傷	解綁後服務全 200，量測 Worker 正常

✅ 已移除（2026-06-17）
已於 2026-06-17 解綁 route 移除 Tollbit log，流量自 20:10 起歸零[CF，解綁紀錄]。量測 Worker 未受傷、服務全 200。從今天起累積的數據已乾淨，未來不需再做這層校正。

🔴數據誠實守則

這份報告對自己定的紀律。讀任何數字前，先把這六條放在心上。

每個數字都標 [來源] + 時間窗。 沒有來源的數字，不採用、不杜撰。
「確定」與「下限」分清。 總量、每個 UA 的 30 天抓取量 = 確定 ✅；引薦／導流 = 下限・估計 ⚠️（referer 黑洞測不到真值）。
禁止 DB 跟 CF 相加。 兩者差 33～65 倍，量級不同，相加 = 錯誤結論。
禁止把 872 萬 event 講成引薦。 99.998% 是爬蟲，真引薦 176、真人 194。
推測一律標 🔮。 凡是推論／推理，明白寫出「我是怎麼推的」。
開站（2026-02-11）前沒有數據。 那段從沒封存，不存在的數字不假裝有；但 zone 才 4 個月，損失有限。

其他來源（證明不只靠 Cloudflare 一家）：
VPS log 僅數天[檔案]｜本地 CSV 快照 3 天[檔案]｜新 archive 從 2026-06-16 起每日累積（未來會變大）[檔案]。多個獨立來源互相印證，不是單一數據源孤證。

📐本頁自己也用 AI 愛的格式（dogfood）

這份報告自己就示範了我們建議的格式：語意化 HTML5、<head> 嵌 JSON-LD、每個事實都帶來源。

❌ AI 不愛的寫法

<div>爬蟲抓了很多次， ClaudeBot 最多</div>

沒數字、沒日期、沒來源，AI 無從引用也無從信任。

✅ 本頁實際用的寫法

<td><b>ClaudeBot</b></td> <td>7,798,195</td> <span class="src">[CF Adaptive 2026-05-18~06-17，OS 驗]</span>

數字 + 時間窗 + 來源 + 驗證方，事實密度高，AI 可直接引用。

名詞白話：JSON-LD = 藏在網頁裡給機器讀的標籤；事實密度 = 數字＋日期＋出處的密集程度。本頁 <head> 就嵌了一段 JSON-LD，整頁每個數字都帶 <span class="src"> 來源——這正是我們在 Part1 會詳細說明、AI 引擎最愛的格式。

🎯研究目的

📋計畫／方法：數據怎麼取得 + 怎麼驗證

✅完整數據表 (a)：總量 + 成長曲線

總請求次數

日均請求／天

開站基準日

成長曲線：從 10 萬 到 790 萬

✅完整數據表 (b)：各爬蟲完整清單（18 個）

✅完整數據表 (b2)：DB 更早的歷史（回到 3 月）

bot_visits_daily

crawler_url_hits

✅完整數據表 (c)：請求 vs 驗證 vs 引用

REQUEST · 被抓取

VERIFY · API 呼叫

CITE · 明確 AI 引用

🌐完整數據表 (d)：三語言 × AI 用途

🧹Tollbit 校正：總量扣掉自家計費 log

原總量（含 Tollbit）

乾淨總量（扣 Tollbit）

🔴數據誠實守則

📐本頁自己也用 AI 愛的格式（dogfood）

❌ AI 不愛的寫法

✅ 本頁實際用的寫法

成長曲線：從 10 萬到 790 萬