初学者のための統計ソフトの選び方

はじめに

SAS、STATA、R、EZRなど、たくさん統計ソフトがあるけど、何が違うの?

どの統計ソフトを使うべきか?

今回はそんな疑問にお答えできる内容になっています。はじめに、統計ソフトの種類、特徴を紹介します。次に、これまで様々な統計ソフトを使ってきた私の経験を元に、統計ソフトを選ぶ時のポイントを紹介します。統計ソフト選びのお役に立てれば幸いです。

統計ソフトの種類・特徴

統計ソフトとは統計解析をするための電卓みたいなものです。電卓も、いろんな会社から、いろんな種類の電卓が売られていますよね?統計ソフトも、いろんな会社から、いろんな商品が出ています。

臨床研究でよく使われているものは、SASSTATARSPSSEZRJMPといったところでしょうか。それらに加え、最近は機械学習の領域でPythonがよく使われています。ではこれらにどのような違いがあるのでしょうか?違いを、解析の仕方コスト普及具合信頼性の4点から説明したいと思います。

解析の仕方

解析の仕方によって、コーディングで解析するソフトと、クリックで解析するソフトの2つに大別できます。2つの特徴、メリット、デメリットを見ていきましょう。

コーディングで解析するソフトは大型のデータ解析には必須!

下図のように、文字を使って、パソコンに命令していくスタイルです。いわゆる、プログラミングです。SASSTATARPythonがこれに当たります。プログラミングなので正直とっつきにくいです。コードがたくさん書いてある本は、読んでいて眠くなるし、せっかく入力したコードも一文字間違えただけで全然動いてくれなかったりします。

しかし、それでもコーディングするソフトは大きなメリットがあるのです。

まず作成したコードを保存しておくことで、データソースに間違いがあった場合でも解析のやり直しがとても簡単にできます。元データを修正した後、同じコードで解析すればよいだけなのです。これは、まったく違うデータソースを解析する場合でも、過去に自分が作ったコードを流用して解析することができるということでもあります。最初にコードを作成するのが大変ですが、自分のよく使うコードを一度作成してしまえば、別のデータを解析する場合でもコピペでプログラムを走らせるだけで、サクサクと解析ができるというわけですね。

そして、自分が書いたコードを他者と共有できるというメリットが大きいです。共同研究者とは、同じデータソースを持っていれば、コードを共有することで全く同じ解析ができます。いちいち解析結果を整理してグラフなどを張り付けて他者にチェックしてもらう必要は無く、コードだけを送れば間違った部分を修正してもらうこともできます。つまり、解析のやり直し、内容のチェックが簡単で、再現性が担保される(だれがやっても同じ結果になる)というのが最大のメリットと言えます。

もう一つ、大型のデータを扱っても解析中のフリーズが少ないという利点も大きいですね。一つの病院の数百例規模のデータを扱っているレベルでは、エクセルファイルでもデータ整理は可能だと思いますが、数万規模のデータを扱うとなると、エクセルを開くだけで時間がかかりますし、並び替えなどをやると途中でフリーズしてしまうことが多いでしょう。これらの統計ソフトは、大型のデータを扱う上で必須のツールと言えます。

SASとRって良く耳にするけど、何が違うの?

SAS、STATA、R等のソフトの違いは、パソコンに命令する言葉が少しだけ違います。SASは英語、STATAはスペイン語、Rはフランス語といった感じです。一つマスターすれば、2つめをマスターするのは容易だと思います。

メリット:解析の自由度が高い、再現性が高い、パソコンがフリーズしにくい

デメリット:とっつきにくい

クリックで解析するソフト

EZRSPSSJMPがこれに当たります。下図のように、解析方法や投入する因子を選択項目の中から、マウスでクリックして、解析していくタイプの統計ソフトです。もっとも、クリックしている裏側ではコーディングが走っているので、本質的にはコーディングする解析ソフトと同じことをやっているのです。EZRでは裏でRのコーディングが、JMPでは裏でSASのコーディングが走っています。クリックして選択していくだけなので、直感的で簡単なので、とっつきやすいです。一方、クリックできる範囲内でしか解析ができないので、解析内容が制限されるという欠点があります。また、データクリーニングができないので、事前にExcelを使って、データクリーニングをしてから、それを統計ソフトに読み込ませて解析する必要があります。再現性を保つためには、Execelでどのようにデータクリーニングしたかを別のツール(wordなど)で記録したり、こまめにExcelファイルを保存する必要があります。さらに、データの処理量が多い時は、パソコンがフリーズしやすいです。

メリット:とっつきやすい

デメリット:解析内容が制限される、再現性が低い、パソコンがフリーズしやすい

価格

価格はRが一番安いです。というか無料です。Rのクリックで解析するバージョンのEZRも無料です。その次に安いのがSTATAで、最低限の機能のものは5万円くらいで購入可能です(最近はサブスクリプションタイプのものが普及していますので、詳しくは取り扱い会社のHPをご覧ください)。SAS、SPSS、JMPは高額なので個人で購入するというより施設で購入することが多いと思います。

無料:R、EZR

お手頃価格:STATA

高額:SAS、SPSS、JMP

普及・シェア

私が所属していた京大公衆衛生大学院では、基本的に学生はSTATAを学ぶようになっており、使い方の授業が選択科目にありました。東大の公衆衛生大学院でもSTATAを使っている人が多いようです。参考書も豊富ですので、若手が最初に取り掛かるには良いソフトかなと思います。

製薬会社や大きな臨床試験グループはSASを使っている印象です。独学で臨床研究を始めた臨床家はEZRを使用している人が多い気がします(私もそうでした)。また、大学に入局し基礎研究の大学院に行っていた人は、所属先で契約しているJMPやSPSSを使用している人が多い気がします。

近年、急速に利用者が増えているのがRです。ハーバード大学の公衆衛生大学院の学生の多くが使用しているそうです。日本の公衆衛生大学院でも利用が増えているようです。どれが極端に普及しているというわけではなさそうですが、若手外科医のレベルではSTATAか、Rを学ぶのが良いかなと思います。個人的には、これからはRが増えるのでは?と思っています。

信頼性

今まで挙げた統計ソフトのどれも信頼性はある思います。私が以前EZRを使用していた時に、EZRなんて信用できないもので解析してはいけないと、誰かに言われた記憶があります。その時は「へえ、そうなんだ…」と思っていたのですが、いろいろと統計ソフトを使用してきた経験上、EZRも十分信頼に値する統計ソフトだと思います。

SAS、STATA、SPSSなど、昔から、多くの論文で使わてきた老舗統計ソフトは信頼も厚く、これらは間違いないと思います。しかし、それら以外の統計ソフトに対しては懐疑的な研究者もいくらかいるようで、せっかく書いた論文を統計ソフトの点で批判されたりすることもあるようです(新しいものに対して否定的になるのは人の性のようです)。実際には、RやEZRを用いた論文がトップジャーナルに掲載されていることもしばしば見かけますので、現状では信頼性については問題無さそうに思います。

ただし、Rは無料で多くのユーザーがいる反面、ネット上にたくさんのコード、パッケージが転がっています。それらのコードやパッケージが本当に信頼できるものかどうかはしっかり吟味する必要があるでしょう。最近では、Pythonというプログラミング言語も普及してきて、これを利用した統計解析を行う研究者も増えてきました。ただし臨床医学の領域では、機械学習で使用されることが多く、一般的な臨床研究での使用はあまりお勧めしません。

統計ソフトの選ぶポイント

統計ソフトの種類、特徴を理解できたら、次は、どうやって自分にあった統計ソフトを選ぶべきかについて、解説していきます。できれば、自分の身の丈にあった、コスパのいい統計ソフトを選びたいものです。私のように無駄にたくさんの統計ソフトを使うのは英語論文を書くにあたっては遠回りでしかありません。自分にあった統計ソフトを選ぶために、研究体制研究へのエフォート(臨床研究を人生でどれくらいやっていくか)、扱うデータの3つのポイントをチェックしましょう。

研究体制

自身が所属する研究体制で統計ソフトの種類はほぼ決まります。私は京都大学公衆衛生大学院に入学した際に、所属教室のほとんどがSTATAを使用していたし、STATAを学ぶ授業もあったので、それ以降、主にSTATAを使っています。一方、留学先の研究室では昔からSASを使用しているため、現在SASを使っています。このように、所属する研究体制で自然と使用する統計ソフトが決まってきます。

所属する研究体制みたいな枠組みがないが、研究指導者がいる場合、まずはその指導者と同じ、もしくは、その指導者が勧める統計ソフトを選ぶといいでしょう。統計ソフトを自分で扱えるようになるには少し時間がかかります。うまくいかない時は、ネットや本で調べるのですが、それでもうまくいかない時は、人に聞くのが一番です。自分の研究を指導してくれる指導者はそれを聞く最適な相手です。なので、指導者と同じ統計ソフトを使うことをまずおすすめします。

私が過去の紹介した記事「研究の裏側から学ぼう②」では、STATAを用いて研究したのですが、指導者はSASを使っていました。そのため、解析部分は自分一人で頑張るしかなく、多大な労力を要しました。それもまた勉強なのですが、早く論文を出していく必要のある若手にとっては、このような苦労は別にしなくても良い苦労かなと思います。

特に指導者が使っている統計ソフトがない、という場合は次の項に進んでください。

研究へのエフォート

私も最初に研究を始めた時は、指導者はいたものの、統計ソフトの指定はなく、統計ソフトは自分で探しました。当時後期研修医の内科の同期に、英語の論文をたくさん書いている人がいて、その人がEZRを使っていると聞いたので、EZRを選択しました。数千円の本を買って、その中にEZRをダウンロードするCD-Rが入っていたので、本に従って、ダウンロードし、解析するだけだったので、比較的簡単でした。

しかし、いろんな統計ソフトを使ってきた今、初学者にお勧めしたいのは、RStudio (Rのコードをわかりやすく入力できるアプリ)をダウンロードして、Rで解析することかなと思います。EZRは再現性のない解析になりやすいし、さらに専門的な研究に発展させるためには、最初からコーディングによる解析を勉強していくべきだと思います。Rは無料なので、初期費用もあまりかからず勉強できる素晴らしいソフトと言えます。(Rの導入方法については、また後日・動画解説で行っていきたいと思います。)

そうはいっても、今取り組んでいる論文をさっさと仕上げたいんですけど~

というそこのあなた。とりあえず、難しい解析は必要ないので、今書いている論文にすぐ使えるソフトが知りたいというのでしたら、EZRをおすすめします。EZRは何より簡単だし、Rが裏で走っているので、Rに乗り換えるのも容易という点でも、おすすめです。

今後、どこかに所属する予定があれば、その所属先で使用する統計ソフトを使っておくことをおすすめします。例えば、京大や東大の公衆衛生大学院に行く予定があるなら、授業で取り扱う機会が多いSTATAがいいでしょう。

小規模な研究でも、どんどんソフトを使っていこう!

前述の通り、扱うデータ量が数千以上となると、コーディングで解析するソフトが必須になります。ただ、最初から大型のデータを扱う機会は少ないでしょうし、初学者は自分の作成したコードが正しいかどうか、もとのエクセル表に立ち返って確認しながら勉強していく作業も必要です。

なので、大きな研究をする段階になってからコーディングのソフトを買うというより、まずは小規模な研究であっても積極的にコーディングで解析をやってみて、結果を自分の目で確認しながらOJTで学んでいくと良いでしょう。将来的に大規模なデータを扱いたい!という志のある方は、早いうちからRやSTATAに慣れていくと良いですね!

まとめ

統計ソフトの種類特徴選ぶポイントを紹介しました。初学者はコーディングで解析するソフトとしてRかSTATAをおすすめします。

あと、最後に1点注意です。冒頭で示したように、統計ソフトは電卓のようなものです。電卓も正しい情報を入力すれば、正しい答えをが返ってきますが、間違った情報を入力すると間違った答えが返ってきます。統計ソフトも同じです。そして、正しい情報を入手するためには、適切な研究計画の立案、実施が重要であることを肝に銘じておきましょう。

コメント

タイトルとURLをコピーしました