コロナウイルス感染者データに関して、そのサンプリングの仕方などが議論をよんでいる。私の予想だけでなく、多くの権威ある機関の予測数字が、桁を超えて、コロコロ変わっている。これは、感染が指数関数的に増えるためであり、データの構造の感応度が大きいからだ。
その前に、こうした予測の目的をよく考えなければならない。日々の過去データから、ロジスティク曲線になることを前提にする予測方法では、感染者数の予測もあるが、むしろ、いつ頃ピークアウトするかに重きがある。仮に、サンプリングが不十分で、絶対数が10倍でも、サンプリングのタイミングが妥当であれば、結果の絶対数が10倍になるだけで、収束タイミングは同じだろう。
これに対して、病院のキャパや、絶対数を知りたい場合は、別のアプローチが必要であり、むしろ、統計学の手法に基づいて、ランダムにPCR検査でサンプルを集め、検定推計すべきだろう。そのために、複数の多面的アプローチで推計することが肝要だ。その意味で、北大西浦教授だけに依存し、その前提的やパラメータの感応度が不明な日本は問題だ。
これに対し、台湾大学化学部の徐丞志准教授が、日本の公式統計から、古典的なSIRモデルで試算を行っており、2万から5万としており、ほぼ、ロジスティク曲線の推計に近い。https://wedge.ismedia.jp/articles/-/19371?layout=b
直感的には、既に5万人の感染者がいるが、温度湿度紫外線効果などもあり、夏頃に、5-10万で収束と見ている。また、政府は、連休中に、1週間延期、その後は、感染者数を見ながら、2週間程度のブレーキと、2週間程度の緩和策をとり、バンバン制御のように、収束させていくのではないか。あくまで、総合的複眼的な直感だ。