どんな研究?
人工知能(AI)はヘルスケアにおいて一般的なツールになりつつあり、その用途の1つは病気や怪我の自己診断です。例えば、代表的な生成AIのChatGPTに「手指がしびれて、足元がふらつくけど、どんな病気が考えられる?」など具体的な症状を伝えて質問をすると、回答を得ることができます。今後利用者が増加することが予想されることからも、AIを利用した自己診断の正確性や問題点について理解することが重要です。
そこで、医療イノベーション機構の藤田 浩二教授らは、骨、関節、神経に関連する一般的な5つの整形外科疾患(手根管症候群、頸椎症性脊髄症、腰部脊柱管狭窄症、変形性膝関節症、変形性股関節症)におけるChatGPTの診断能力を検証しました。研究チームは5日間、ChatGPTに全く同じ質問をし、その答えの正確性や再現性、またChatGPTが医師への受診を勧めるかどうかをチェックしました。
ここが重要
ChatGPTの診断は必ずしも正確ではないことがわかりました。例えば、手根管症候群については、全ての回答で正確に診断できましたが、頚椎症性脊髄症の診断精度は4%と著しく低いものでした。さらに、異なる研究者が異なる日に同じ質問をした場合でも、その回答は大きく異なっていました。また、ChatGPTは約80%のケースで受診を勧めましたが、受診するべきと強く推奨したのはそのうち13%のケースのみであり、多くのケースで「受診したほうがよい」「受診を検討してもよい」などの弱い表現でした。このような弱い表現では患者の受診行動を惹起できない可能性があります。また、質問の仕方次第で自己診断の信頼性が変化することを見出しました。この結果は、ChatGPTは自己診断ツールとして高いポテンシャルを有しているものの、医療補助に用いるためには改良が必要であることを示しています。
今後の展望
医療補助用にデザインされた新たな生成AIシステム開発への大きな後押しとなることが期待できます。診断性能を改善させるためには、より多くの症状に対し同様の研究を行い、病態ごとにより適切な質問方法を探していくことが求められます。
研究者のひとこと
AIには大きな可能性があるものの、医療アドバイスとしての十分な信頼性を得るには、さらなる進歩が必要であることを再認識させる結果となりました。この結果を基に、多くの研究や議論が生まれることを期待しています。
この研究をもっと詳しく知るには
お問い合わせ先
研究支援窓口