はじめに
前回記事「研究の裏側から学ぼう①」で、臨床研究には指導者、データ、時間が必要であるという話をしました。今回は、その中のデータに関する話で、データベースを用いた臨床研究の話です。IT技術の進歩に伴い、データベース研究は近年盛んに行われています。いいデータベースを使えるチャンスがあれば、それを用いて、自分の臨床疑問を解決したいものです。今回、私の経験を元に、データベースを用いた臨床研究をする際に大事なポイントをご紹介したいと思います。
先に結論ですが、データベースにアクセスするチャンスを得る、臨床疑問をストックしておく、データベースの特徴を把握する、統計知識、プログラミングスキルを持つ、ということが既存データベースを用いた研究を実施する際に重要だと思います。
大阪府地域がん登録とDPCデータの統合データを用いた臨床研究

私は、京大公衆衛生大学院在学中に、ひょんなことから、大阪府の地域がん登録とDPC(Diagnosis Procedure Combination)データの統合データベースを利用した研究をする機会を得ました。この論文は、その際に執筆したものです。
紹介する論文
Kawamura H, Morishima T, Sato A, Honda M, Miyashiro I. Effect of adjuvant chemotherapy on survival benefit in stage III colon cancer patients stratified by age: a Japanese real-world cohort study. BMC Cancer. 2020;20(1):19. DOI: 10.1186/s12885-019-6508-1. PMID: 31906959.
論文の概要
背景:本研究の目的は、日本のリアルワールドデータを用いて、年齢毎のステージIII結腸癌に対する術後補助化学療法の使用と予後との関連を調査することです。
方法:大阪府のがん診療連携拠点病院の地域がん登録とDPCデータを個人単位で統合したデータベースを用いました。2010年~2014年に根治手術を受けたステージIII結腸癌症例を対象とし、高齢者群(75歳以上)と非高齢者群(75歳未満)に分け、各グループにおける術後補助化学療法使用の有無と全生存期間との関連を調査しました。傾向スコアを使って逆確率による重み付けとコックス比例ハザードモデルを用いて交絡調整しました。
結果:組み入れられた症例は783例で、高齢者群は476例(60.8%)、非高齢者群は307例(39.2%)でした。高齢者群では補助化学療法を受けた割合は36.8%で、非高齢者群(73.3%)より少ないという結果でした。非高齢者群のハザード比は0.56(95%信頼区間:0.33–0.94, p値=0.027)であったのに対し、高齢者群は1.07(95%信頼区間:0.66–1.74, p値=0.78)でした。
結論:高齢者のステージIII結腸癌に対する術後補助化学療法の効果は、現在の使用方法では限定的であるかもしれません。

研究の裏側
きっかけは学会発表
京大入学後、がん登録協議会というマニアックな学会に参加した機会がありました。参加したものの、知り合いもおらず、外科に関する発表なども皆無で、とんでもないアウェイ感でした。そんな中、偶然、京大で授業を受けたことがあるM先生を見かけたのです。普段なら多分声をかけないと思うのですが、とんでもないアウェイ感で平常心ではなかったのかわかりませんが、勇気を出して声をかけてみました。M先生は私のことを覚えていたわけではなかったのですが、京大の学生ががん登録に興味を持ってくれてたことが嬉しかったらしく、気さくに話してくれ、すぐに意気投合しました。そして、自身が中心となって構築された大阪府地域がん登録とDPCの突合データベースを用いた研究を紹介してくれました。私はその場で、それを使って研究してみたいと申し出ました。M先生は快く引き受けてくれ、その後大阪国際がんセンターに見学に行き、特別研究員としてそのデータベースを使った研究をすることになりました。

福島県での臨床経験から出てきた臨床疑問
京大に行く前年に、福島県に異動になり、初めて外来を担当しました。外来を始めると当然ながら、術後のフォローアップも必要になります。私は当時、内視鏡外科技術認定医取得のために、結腸癌手術症例を多く担当していたので、術後補助化学療法が必要な患者も多く診ていました。結腸癌自体高齢者がなりやすい疾患で、かつ、地方の病院ということもあり、結腸癌患者は高齢者が多く、術後補助化学療法が必要かどうか迷うことが多々ありました。本研究の着想はこのような経験から来たものです。

がん登録、DPCデータの理解
地域がん登録は、地域全体のがん患者が含まれているという悉皆性と、がんに関するステージなどの簡単な情報があることと、長期予後情報があるという強みがあります。一方、患者並存疾患、ADL(Activity of daily life)などの患者全身状態や治療内容の把握が困難という問題点がありました。それらの問題点を補うものとしてDPCデータを保管したのが、このデータベースの画期的なところでした。また、上記で示した臨床疑問もこのデータベースと相性が良さそうでした。

京大で学んだことを即実践
本研究は京大で大学院生をしながら、携わったもので、京大で学んだことをすぐに実践する形で研究を進めていった。PICO型の研究にして(どんな時でもPICO、PECOは大事ですね)、統計ソフトSTATAを用いてデータクリーニングし、交絡調整を傾向スコアを使って逆確率による重み付けとコックス比例ハザードモデルを用いました。これらはすべて京大で学んだことである。

既存データベースを用いた研究をする際のポイント
データベースにアクセスするチャンスを得る、臨床疑問をストックしておく、データベースの特徴を把握する、統計知識、プログラミングスキルを持つ、ということがデータベースを用いた研究を実施する際に重要だと思います。
データベースにアクセスするチャンスを得る

概して、日本人はデータを囲い込む傾向にあり、臨床試験のデータはもとより、公的な予算を投じているはずのデータベースなども限られた研究者にしか公開しない場合が多いです。欧米ではデータベース利用の自由度が高く、多くの臨床研究が発信しやすい土壌がありますが、日本では一般の臨床医が自由に使えるような大型のデータベースは少ないです。
データベースを利用するためには、今回の私のように、学会などで興味のあるデータベースを使っている人と知り合い、直接頼みこむというのも一つの方法だと思います。自分が構築したデータベースに関心があると言われたいやな顔をする研究者はいないでしょう。研究のアイディアがあれば、むしろ喜ばれるかもしれません。是非、学会の抄録などで興味のあるデータベースを使った研究をしている人がいたら、積極的に声をかけてみましょう。
学会などの研究組織が研究テーマを公募している場合、それに応募するという方法もあります。例えば、日本臨床疫学会では、学会員を対象に特定のデータベースを使った研究テーマを公募し、助成金まで出して研究をサポートしています。がん集学的治療研究財団では、データベース事業として過去に行った臨床試験のデータを統合しており、二次解析の研究テーマをホームページ上で公募していました(現在は公募終了しています)。
消化器外科領域では手術症例のデータベースであるNCD(National Clinical Databese)を用いた研究について関連学会が研究テーマを公募しているのは有名です。ただし、NCD研究は、高額な研究費が必要な割に、応募者が直接データを見たり分析したりすることは出来ません。テーマに沿った結果の図表のみをあたえられるだけなので、あまり自分自身の勉強にはなりません。
その他JMDCデータなどの有償データベース提供サービスなどもあります。このような有償サービスを利用する際は、助成金などを獲得してから、利用申請するのが一般的です。
臨床疑問をストックしておく

既存のデータベースにアクセスできるチャンスは限られています。チャンスが巡ってくれば、それを確実にものにしたいものです。そのためにも、常にある程度の臨床疑問をストックしておくことが大切です。日常診療で疑問があれば調べ、調べても解決できなければ、それは解決すべき臨床疑問になります。日々の臨床で出てきた臨床疑問をストックするネタ帳みたいなものを作っておきましょう。そして、データベースにアクセスするチャンスがあれば、そのネタ帳の中からデータベースに最適な臨床疑問を選び、アクセスするチャンスをものにしましょう。
データベースの特徴を把握する

データベースに最適な臨床疑問かどうか判断するためには、使うデータベースの特徴の把握が必要です。臨床疑問に合うデータとは、どのようなデータでしょうか?その臨床疑問を解決するために、十分な症例数があるか、必要なアウトカム情報があるか、交絡因子を調整すための情報があるか、などなど、データベースの特徴を把握することが重要です。どんなデータベースにも長所、短所があります。詳細なデータがあるけど、登録症例数が少なかったり、その逆もしかりです。使用したいと思ったデータベースがあれば、アクセスする前に、その特徴を把握しておく必要があります。
統計知識、プログラミングスキルを持つ

当たり前ですが、統計知識、プログラミングスキルはある程度必要です。100例前後のデータであれば、データシートを眺めればある程度データの傾向は把握できますが、それ以上になってくると、全体像の把握に統計ソフトによるプログラミングが必須になります。また、交絡調整のために統計知識を身につけることも必須です。間違った統計、プログラミングで得られた結果は間違った結論を導きます。私も今回紹介した研究で、データをクリーニングし(解析に足るデータにすること)、統計解析するのにずいぶん時間がかかりました。大きなデータベースを扱う前には、ある程度の統計、プログラミングの勉強をした方がいいでしょう。ただ、実際にデータを扱ってみないとわからないこともあるので、準備のし過ぎもよくないです。
まとめ
データベースにアクセスするチャンスを得る、臨床疑問をストックしておく、データベースの特徴を把握する、統計知識、プログラミングスキルを持つ、ということが既存データベースを用いた研究を実施する際に重要だと思います。少しハードルが高いと思われた方もいるかもしれませんが、これからもデータベース研究の需要は高まってくるでしょう。是非、機会があれば、データベース研究に挑戦していただきたいです。

コメント