毎月勤労統計調査における「母集団」の「復元」 (original) (raw)
厚生労働省「毎月勤労統計調査」のサンプリングがおかしかった問題について。標本調査で得た統計量をどうあつかうかの理屈自体がややこしいのに加えて、毎月勤労統計調査に固有の課題がいろいろあるので、理解するのがけっこう面倒である。以下、私の理解の範囲内で簡単な説明。
なお、この記事を書くにあたっての情報源は、ほぼ https://www.mhlw.go.jp/toukei/list/30-1.html からたどれる文書だけである。私自身は毎月勤労統計調査に関わったことはなく、この調査データを使った分析もしたことがない。何かかんちがいしている可能性はあるので、お気づきの点があれば、ご指摘いたたけると幸いである。
前提条件
まず、毎月勤労統計調査というのは、
- 日本全体の状況について
- リアルタイムで
- 超高精度の推計を
おこなわないといけないという、きわめて条件のきびしい調査である。
この調査の結果は、たとえば国民経済計算の雇用者報酬の推計に使われる。それには日本全体で労働者がいくらの給与を得たかという 総額 を求めなければならない。つまり、調査対象の平均の給与がわかればそれでいいというものではなく、日本全体で労働者が何人いるかなどの数値についても正確に知る必要がある。
そして、そうした推計値を、非常に短い期間で求めなければならない。2019年1月の給与について2月に調査して、結果を3月に報告、というようなスケジュール。長い時間をかけて情報を集めて数値を補正するようなことができないので、そのときに手に入る情報だけで計算できるシステムにしておかなければならない。
それに加えて、要求される精度が、非現実的なレベルの高さである。今回起きた問題では、平均給与の推定値が0.6%程度違っていただけのことで、数十億円を超える国家予算が吹っ飛ぶのではないかと想定されている。ごくわずかな数値の変化が非常に大きな影響を各所に及ぼすことになるので、誤差をどこまでおさえるかが重要になる。
サンプリング
毎月勤労統計調査の調査対象は、常用労働者が5人以上の事業所である。民営の企業の 工場や事務所や店舗などを全国から3万3千程度えらぶことになっている (実際には3万程度しか選んでいなかったということらしいのだが)。
調査対象となる事業所を選ぶ方法は、事業所が雇っている常用労働者の人数 (以下では「規模」と表現することにする) によってちがう:
「第一種事業所」(30人以上規模)
総務省統計局「事業所母集団データベース」(https://www.stat.go.jp/data/jsdb/) から選ぶ。規模の3区分と産業の41区分を掛け合わせて123個の層を設定し、それぞれに割り当てられた「抽出率」にしたがって、無作為に対象事業所を選ぶ (https://www.mhlw.go.jp/toukei/list/dl/30-1d-02.pdf)。この抽出率の設定が、500人以上規模の層では全て1になっている (にもかかわらず、実際にはそうしていなかったというのが今回発覚した問題)。なお、抽出率は、産業大分類/中分類ごとに一定以上の推定精度を得られるように定められている (「目標精度」の表が https://www.mhlw.go.jp/toukei/list/dl/30-1d-01.pdf にあるのだが、これをどう読めばいいかはよくわからない)。
「第二種事業所」 (5-29人規模)
地理的な区域を設定してこれをまず無作為抽出し、選ばれた各地域内に存在する事業所をリストアップして、産業別に無作為に選ぶ (このときに抽出率をどうしているのかは不明)。
第一種事業所のうち30-499人規模の事業所は、いったん選ばれると、3年間つづけて調査対象になる。以前は一斉に入れ替えていたが、2018年から、毎年1月に1/3ずつ入れ替える方式に変更された。
第二種事業所は、いったん選ばれると、1年半の間つづけて調査対象になる。半年に一度、1/3ずつ入れ替える (これは以前から)。
調査対象の事業所が調査期間内に廃止になってしまった場合には、別の事業所を追加する (毎年1月)。
母集団労働者人口の層別推計
こうやって、抽出した事業所に、何人の人がどれくらい働いていて、どれくらいの給与を払っているかを答えてもらう。ちゃんと協力してくれるか、正しい内容を答えてくれるかは、調査の精度を考える上で非常に重要であるが、今回の問題には直接関係しない。ただ、回収率は83%程度ということでかなり低く、そのことが結果に影響を与えているはずではある。
さて、知りたいのは、調査をおこなった月に支払われた給与などの、日本全体での総額 である。調査してわかる給与額はそのごく一部であるから、それを何倍かして、日本全体の額を求めたい。この課題を達成するために、毎月勤労統計調査は https://www.mhlw.go.jp/toukei/list/30-1c.html にあるような手順をとっている。おおまかにいうとつぎのような感じである。
- 産業と事業所規模をかけてつくった層 (41×5 = 205層) を個別に考える
- それらの各層に属する事業所に勤める労働者の日本全体での総数の 前月 の値 (E) を、なんとかして推計する
- その層で実際に調査対象とした事業所の 前月 の労働者総数 (e0) を調査結果から求める
- これら2つの値の比を「推計比率」(r = E / e0) と呼ぶ
- 調査結果からわかるいろんな統計量について、この r をかけると、層 (産業×事業所規模) 別に、日本全体についての値が求まる
- こうやって求めた値をすべての層について合計すると、日本全体の、5人以上規模事業所の全産業の労働者についての値を推計できる
このような手続きによって日本全体の値を推計することを指して、「母集団の復元」と呼んでいる。
一連の手順のなかで、労働者の日本全体での総数 (E) を推計するところがいちばん面倒なのだが、ここはおおむねつぎのようになっている
- 日本全体の事業所の全数調査「経済センサス」の最新の値を「ベンチマーク」として設定
- それ以降の事業所新設・廃止等による変動を、雇用保険事業所データによって追跡する
- 既存事業所に雇用されている労働者数の変動を、毎月勤労統計調査の前月までのデータ によって追跡する
現在のベンチマークは「経済センサス」2014年6月の値。このベンチマークを採用したのは2018年1月調査からであり、そこで2017年12月調査までの公表推計値と断層が生じている。
このベンチマーク以降の労働者数の変動を推計していく際に、毎月勤労統計調査自身のデータを累積的に使っている。このため、この調査による労働者数データに何かまちがいがあると、それはつぎのベンチマーク変更までの間、推計比率 r の歪みとして影響をあたえ続けることになる。
抽出率による重み付け
「母集団」を「復元」する原理は以上のようなものであるが、ちがう時点でサンプリングした事業所を入れ替えながら調査を続けていることや、第二種事業所のサンプリングでは地域別に抽出率がちがうといった問題があるので、事業所規模×産業の層の内部に抽出率のちがう対象事業所が混在している。この要因を調整するため、上記の e0 などをふくめ、調査データから何かの統計量を計算するときには、当該事業所の抽出率の逆数で重み付けをおこなってから、合計や平均などを求めることになる。
このときの「抽出率」を具体的にどう決めるのかは、資料を読んでいてよくわからない点である。https://www.mhlw.go.jp/toukei/list/dl/30-1d-02.pdf に書いてある「抽出率」は、サンプリングのときに、リストに載っている事業所をどれくらいの比率でとるかということを示す。この「抽出率」はサンプリング当時の話であるから、古いサンプルでは最大3年前の話ということになり、当時使用したリストに載っていた事業所数と、抽出して調査対象とした事業所数との比である。
しかし https://www.mhlw.go.jp/content/10700000/000467631.pdf では「抽出率とは、母集団に占める調査対象事業所の割合」と書いているので、そういうことであれば、過去にサンプリングしたときのことではなく、現在推計しようとしている「母集団」(その層の前月の労働者人口) に対する比と考えたほうが自然なような気もする。経済変動の大きい時期であれば、3年も経てば、産業別の労働者人口が大きく変わっていることはあり得ると思うんだけど、どうなんだろうか。
統計量の母集団への「復元」
ということで、細かい謎はあるのだが、以上のことをすべて考えあわせると、毎月勤労統計調査において「母集団」を「復元」するというのは、結局のところ、「推計比率」r と「抽出率の逆数」との積をウェイトとして使って各種の統計量を計算するということである。
推計比率 r を構成する要素のうち、母集団労働者人口E は、毎月勤労統計調査データだけで求められるものではない。これについては、別に計算を進めておき、データのチェックが終わってから合算するのが合理的だろう。他の要素 (前月のデータの労働者総数 e0 と、当該事業所の抽出率) はあらかじめわかっているものなので、データ中に埋め込んで使うことができる。
東京都の500人以上規模事業所が過小代表だった件について
今回、東京の巨大事業所が、小さい抽出率になっていて、それに適切なウェイトがあたえられていなかった、という話である。現在のところ、情報があまりなくて、細かい事情がよくわからない。たとえば、厚生労働省の1月11日のプレス・リリースではつぎのようにしている。
毎月勤労統計調査の平成29年までの集計は、同一産業・同一規模では全国均一の抽出率という前提で行われており
―――――
厚生労働省 (2019-01-11)「毎月勤労統計調査において全数調査するとしていたところを一部抽出調査で行っていたことについて」
しかし、第二種事業所については、以前から抽出率のちがうサンプルが混在していたはずではないかと思うのだが、ちがうのだろうか。ただ、もし本当にそれまで抽出率のちがいを前提とした集計をしておらず、昨年になってはじめてその機能を集計プログラムに導入したのだとすると、昨年になって突然、東京都の大規模事業所についてのウェイト処理が始まったというのは整合的な話ではある。
そのほかの疑問点については https://remcat.hatenadiary.jp/entry/20190112/1547294783 参照。
いずれにせよ、このような複雑な話を、自然言語で説明するのは無理というものである。最低限、数式を使ったきちんとした説明にしてほしい。今後の検証のことを考えれば、プログラムのコード自体を公開する (できればデータも) のが最善と思う。
履歴
2019-01-14: 記事作成・公開
2019-02-09: 「サンプリング」の節 から「民営の企業の」を削除