2019.09.30
【意識調査】校定とデータ・クリーニング

去年の夏、愛知県半田市にある新美南吉記念館を訪れる機会があった。新美南吉は半田市出身の日本を代表する児童文学者だ。『ごん狐』や『手袋を買いに』の作者と言った方がわかりやすいかもしれない。南吉の作品を幼少期に絵本で読んだことがある方も多いだろう。秋になれば彼岸花が咲くという記念館周辺の風景は、訪れる者を心地よく童話の世界へ誘ってくれる。

新美南吉記念館は南吉の生涯を辿ることができる館内の展示も見応えがあるのだが、資料室で開いた『校定新美南吉全集』(大日本図書)がわたしの印象に残っている。全12巻分の背表紙は、人を圧倒させるものがある。そもそも「校定」とは書物の本文をあるべき形にすることで、異同や誤りがある古典などの本文に対し、他の伝本や資料との比較、あるいは語学的な検討を経て、本来の形を特定することを指す。『校定新美南吉全集』の何冊かを手に取り頁をめくっているだけで、それがいかに大変な仕事であるかを実感した。

こうした仕事があることからもわかるように、国語の教科書や絵本で一般に親しまれている『ごん狐』は南吉のオリジナルではない。児童文芸誌『赤い鳥』を創刊したことで知られる鈴木三重吉の編集によるものが一般的に広く読まれているのだ。南吉の作品が世に知られるようになる過程において、三重吉が果たした役割はとても大きいと言われている。一方で、南吉の草稿も文学的な価値が高いとされていて、『校定新美南吉全集』第10巻では誰でもその内容に触れることができる。

児童文学も含めて近代文学の古典にはこうした「校定」や「校訂」といった仕事が欠かせない。夏目漱石にしても芥川龍之介にしても、これらの仕事を経た何らかの「底本」をもとにして出版されているのが常である。普段はあまり意識されることがない仕事だが、とても大切な仕事だと思う。

なぜこのことが印象に残ったかというと、労働組合が行うあることに「校定」や「校訂」という仕事がとてもよく似ていると感じたからだ。一見すると全く関係なさそうに見えるのだが、組合員意識調査の回答データの入力でも実は似たようなことが必ず起こっている。

組合員意識調査の入力の過程では、実にいろいろな回答に直面する。「○は3つまで」と設問文に書いているのもかかわらず、○が5つ6つもつけられているのは序の口である。所属支部を誤って回答していたり、上司の面談はしていないと回答した人が上司との面談時間を回答していたりする。そのまま集計作業に入ってしまうと実態と異なる調査結果になってしまい、組合員から寄せられた貴重な意見をうまく活かすことができなくなってしまう。

そのため、集計作業に入る前にはデータ・クリーニングが行われることが一般的だ。ここでいうデータ・クリーニングとは、アンケートの回答データをチェックして誤りや矛盾を正すために、回答データを修正したり、集計対象から除外することを指す。

つまり、アンケートの集計結果とはアンケート用紙に回答されたオリジナルとは異なる回答データを「底本」とすることがほとんどなのだ。統計作業におけるデータ・クリーニングとは、文学研究における「校定」や「校訂」そのものだと言えるだろう。

文学作品にとって絶対的な存在である著者のオリジナルのテクストを相対化した表現なのだと思うが、かつてある文学者が「本文校訂ほど文学的で、同時に反文学的な作業はない」と述べた文章が物議をかもしたことがある。アンケートにおいても同じことが言えるのかもしれない。アンケートにとって絶対的な根拠となる回答データも実はそのままでは統計には利用できないことが多い。あえてなぞらえて述べるなら「データ・クリーニングほど統計的で、同時に反統計的な作業はない」のかもしれない。

組合員意識調査も大規模なものは数万件を超えるアンケート用紙を回収する。データ・クリーニングの対象となる回答データも自ずから膨大になりがちである。『校定新美南吉全集』は全12巻だったが、もしもどこかの労働組合が『校定 組合員意識調査全集』を出版するとしたら果たして全何巻になるのだろうか。

綱島 廣太郎j.union株式会社 名古屋支店

お酒を飲むとすぐに眠ってしまいます……。

« 前回の記事 次回の記事 »