Forecast Error: Dirty Estimation on the Quick Test Spec of COVID-19

簡單結論：

從上個星期疫情指揮中心發布的有限資料來看，快篩試劑的敏感性可能達到 95%，特異性甚至高到接近 99%。意思是說 20 個感染者可能有 1 個抓不到，而平均 100 個沒有被感染者有 1 個多一點點被誤判成陽性。不過這些都還是在有限的樣本與假設台北、新北、台中三都所使用的快篩試劑品質相同之下算出來的，可能會有可觀的誤差。
從 5/21 到 5/26 這段日子的樣本估算，台北的盛行率約 3.6%，新北約 2.6%，而台中不及 0.1%。這些是熱區結果，實際上三都的盛行率要遠低於這些數據。
即便是目前的疫情，用快篩普篩大約會在全國篩出廿幾萬的假陽性，而相對應的真陽性可能只有萬餘。就算中央與地方政府合作可以在短時間解決快篩以及接下來的 PCR 檢驗，仍然沒有足夠的容量可以處理隔離的需要。只有到盛行率高到不再用現行的隔離方式，普篩才有實務上的價值。

問題：快篩試劑的敏感性跟特異性到底是多少？

最近台灣開始使用快篩來幫助抓出熱區的感染者，不過我一直對快篩的準確度很好奇，這些資訊是判斷偽陽性與偽陰性重要的基礎。之前看到兩篇分析盛行率 (prevalence rate，樣本總人數中感染某疾病的百分比) 對於偽陽性與偽陰性的影響時，對於快篩試劑的準確度所使用的參數差很多，不過我們沒有資訊可以拿來評估，所以也只能將就看著。

上個星期中央疫情指揮中心拿出下面這個表格來，雖然檢驗還沒有完成，總算是有了一些可以用的實證資訊了。

先說明一下在相關討論裡常用到的名詞。前面提到了盛行率，另外兩個重要的名詞是敏感性 (sensitivity) 與特異性 (specificity)：

敏感性 = 真陽性／（真陽性 + 偽陰性)
特異性 = 真陰性／（真陰性 + 偽陽性)

這裡的陽性陰性都是指快篩的結果，真陽性的定義是快篩陽性而且在更精確的 PCR 也顯示陽性，偽陽性則是快篩陽性但是 PCR 檢驗結果是陰性。真陰性是快篩陰性而且 PCR 也顯示陰性，偽陰性則是快篩陰性可是 PCR 為陽性。這些是基本名詞的定義。

把這些名詞的關係整理在下面的表格裡：

真正感染的人數是把所有的樣本數乘上盛行率，不過快篩並不能篩出所有的患者來，這個數字乘上敏感性之後才是快篩陽性而且真正感染的人數。大家會擔心有漏網之魚在社區裡繼續感染，這個偽陰性數字就是右下的樣本數乘以盛行率再乘以 (1-敏感性)。

以上面表格中的台北市來說，那 58 件 PCR 陽性件數是真陽性，已有結果的 77 件快篩陽性是真陽性加上偽陽性，所以偽陽性是 (77-58) = 19 件。快篩陰性之後的資料在這裡並沒有顯示，所以真陰性與偽陰性的資料無法從上面的表格得知。

如果以個別縣市來看，我們只有還沒有驗完的真陽性與偽陽性，就算我們按比例放大為全部驗完後真陽性與偽陽性的數據，仍然沒有辦法同時求出該縣市的盛行率與快篩試劑的敏感性與特異性三個未知數。不過這是一個開始，我們至少可以抓個合理的範圍。舉例來說，如果台北市的樣本中盛行率高達 5% 的話，那麼在全部 90 件快篩陽性裡面有 68 個真陽性 (68/90 跟目前比例約略相當) 就要敏感性低到 69% 才能支持這樣的結果。目前武漢肺炎快篩試劑的敏感性不會這麼低，這效果太糟了。這表示盛行率應該要比 5% 更低些，畢竟如果不考慮偽陰性，真陽性除以總樣本用這裡假設真陽性 68 件來算，不過是 3.45% 而已。像樣的試劑不該會有太高的偽陰性才對。

這裡我們有三個樣本數較高的縣市：台北市、新北市跟台中市，其他縣市檢驗樣本數太少，差一個確診就會讓比例差很遠，所以就不用了。

接下來我用的假設如下：

各縣市使用的快篩試劑相同，或最起碼敏感性與特異性相同。
還沒有驗完的樣本最後全部真陽性與偽陽性的比例跟已經驗出來的部分相同。

如果快篩試劑的敏感性跟特異性相同的話，我們其實就有三都的真陽性與偽陽性共六個樣本點來求三都的盛行率及敏感性與特異性五個參數，如此一來雖然自由度少的可憐，不過勉強可以求解了。我這裡只是簡單的拿實現值與估計值的差異平方和最小值來估計參數，除了這不是線性迴歸式外，基本觀念就是一般用在線性迴歸式的最小平方法。自由度為1的估計我們就不用談標準差了，一定不會小的。我們把這件事情放在心上來看參數估計就好，千萬要記得這裡的標準差一定很大。

所有樣本權重相同的情況下結果是：

敏感性：95.02%

特異性：98.78%

台北市樣本盛行率：3.62%

新北市樣本盛行率：2.58%

台中市樣本盛行率：0.08%

三都的實際盛行率會遠低於樣本盛行率，因為快篩站是設在感染熱區，而受驗者也是有直接或間接接觸者，很多還有類似的症狀，屬於高風險族群。

有了這些資料就可以來推估疫情指揮中心資料裡沒有的真／偽陰性的數據了。下面是三都的資料，我在計算最後人數的時候並沒有四捨五入，這樣對於台中市這種偽陰性很小的數據，可以看得出來到底是多小而不是直接給個 0 來帶過。

如果只做快篩沒有做 PCR，以實際感染者卻被快篩漏掉的來看，台中只有 0.2 人，所以完全不用擔心這個問題。台北跟新北其實也不多，大概各三個人左右。這三個人回去社區以後會不會造成感染？當然是有可能的。所以還是需要自主管理十四天，如果情況惡化的話要盡快就醫。

問題比較大的在偽陽性這一邊。以目前的流程來說，處置的方式是所有快篩陽性都要先隔離，以這裡有限的樣本數來說就已經為數不少。隨著樣本數增加，這個數字還會大幅度增加，也就是說如果普篩的話，偽陽性跟真陽性的差距會遠比台中市來的更大。因為隨著盛行率下降，這個數字會來的更高。我這裡算出來的特異性也高過我之前聽過的最大版本，這個數據如果下修，也會讓偽陽性變的更大（偽陽性 = 總人數*(1-盛行率)*(1-特異性)）。

如果兩千三百萬人普篩，就算盛行率是千分之一，也有 28 萬人快篩是偽陽性。台灣能夠 1 人 1 室隔離的有多少人？要能夠生出 28 萬個隔離單位來才行。這個盛行率以目前全國確診情況來看應該還是高估了。在今年四月以前，應該連萬分之一也不到。

假如盛行率高達 10%跟美國約略相當，普篩之下偽陽性也還是有 25 萬人。所以對於普篩來講，其實盛行率對於偽陽性人數不是太大的問題。只是那時候大家傷腦筋的是 218.5 萬的真陽性，處理方式也不一樣了，不會再有什麼集中檢疫所或1人1室隔離的事情了。

Forecast Error

Monday, May 31, 2021

Dirty Estimation on the Quick Test Spec of COVID-19

No comments:

Site Meter