• HOME
  • 機械学習法による推定

機械学習法による推定

機械学習法による溶解度パラメータの推定

前記事では、原子団寄与法を用いた有機小分子のHansen溶解度パラメータ(HSP)の推定方法について、紹介しました。この手法は、各官能基のパラメータを足し合わせることで、HSPを求めることができるシンプルな方法である一方、分子構造の多様性を十分に反映したHSPの推定ができないという課題がありました。

そこで近年、注目されているのが「機械学習」を用いたアプローチ(機械学習法)です。機械学習法を用いることで、原子団寄与法と比較して、分子構造の詳細な情報を捉え、多様な分子でも対応可能な溶解度パラメータの推定モデルの構築を行うことができます。

分子構造の記述 – 2次元と3次元のアプローチ

分子構造の情報をコンピュータ上で扱うためには、分子をどのように表現するかが重要です。大きく分けて、2次元表現と3次元表現の2種類があります。

2次元表現(smiles)

2次元表現の中で最も広く利用されているのがSMILES(Simplified Molecular Input Line Entry System)と呼ばれる方法です。SMILESは、分子構造をアルファベットと記号の文字列として表現する方法であり、下記のようなメリットを備えています。

可読性: SMILESは「C=C」や「CCO」といった簡単なアルファベット列で分子を表現できるため、人間にも比較的読みやすく、かつ非常にコンパクトである。例えばエタノール(CH3CH2OH)は「CCO」と表すことができます。

計算機による処理:分子構造を文字列データとして扱うことができるため、アルゴリズムを用いた変換や解析を高速かつ効率的に実行することが可能です。

立体情報の補完:SMILES自体は分子構造を2次元で記述する手法ですが、立体配置(立体異性体)の情報を別途補足する拡張方法も存在しており、複雑な分子構造にも対応することが可能です。

3次元表現(molファイルなど)

2次元表現方法に対して、3次元の分子構造を直接扱う代表的なデータ形式として、molファイルやsdfファイルなどが挙げられます。中でも、molファイルには、分子内の各原子の座標や結合情報を詳細に記録するフォーマットで、以下のようなメリットがあると知られています。

空間情報の取得:分子の3次元構造をそのまま反映できるため、立体的な相互作用や分子間の結合の評価に適しています。
シミュレーションとの連携:物性計算や分子動力学シミュレーションにおいて、分子の正確な配置情報が求められる場合に不可欠な表現方法となります。
分子記述子への応用:3次元情報から抽出される分子構造の特徴量には、分子の形状や体積、極性分布など、より多様な物性変化を捉えることが可能です。

このように、3次元表現にはより多くの情報が含まれますが、取り扱いには多くの計算資源を必要とする場合が多く、対象とする分子数が多い場合には2次元表現と使い分けるなど、状況に応じたアプローチが求められます。

2d_structure_description
分子構造の2次元での記述方法(SMILES)
2d_structure_description
分子構造の3次元での記述方法(molファイル)

分子記述子(特徴量)と取得

分子記述子(descriptor)とは、分子の構造的特徴や物理化学的性質を数値化した情報のことです。これらの記述子は、分子のグラフ表現(SMILES)や3次元構造から抽出され、機械学習モデルの入力データとして利用されます。具体的には、以下のような特徴が抽出されます。

幾何学的情報:原子配置、結合距離、角度、立体障害など、分子の空間配置に関する情報
電子的性質:電子密度分布、部分電荷、極性など、分子内の電子環境を示す情報
トポロジカル情報: 分子の骨格構造、環状構造、枝分かれのパターンなど、グラフ理論に基づいた情報

従来の原子団寄与法は、各官能基の寄与を単純に合算するため、分子全体の立体構造や複雑な幾何学的変化を捉えるには限界がありました。これに対し、分子記述子は「原子がどこに配置されているか」「立体的にどう結合しているか」「電子分布がどうなるか」を明示的に数値化できます。そのため、より多様な構造の違いを取り込み、溶解度パラメータ(sp・HSP)の推定精度を高めることが可能になります。

機械学習法による溶解度パラメータ推定手順

分子記述子として得られた多様な情報を活用し、機械学習の入力情報とすることで、非線形な関係や複雑な相互作用の学習が可能となります。溶解度パラメータを含む各種物性を機械学習で推定する場合、具体的には以下の流れになります。

1.分子構造(SMILESなど)から分子記述子を計算
2.分子記述子と溶解度パラメータ(実測または先行研究データ)のデータセットを用意
3.回帰モデル(ランダムフォレストなど)を学習
4.新規分子構造の溶解度パラメータを推定

なお、機械学習モデルは様々な種類がありますが、溶解度パラメータのような連続値を扱うには回帰モデルが中心となります。

ランダムフォレスト:データ量が比較的少なくても安定した推定精度を得やすい
サポートベクター回帰:適切なカーネル選択で高精度が見込める
ニューラルネットワーク:大規模データや複雑な表現力が必要な場合に強みを発揮

機械学習で得られたモデル性能は、決定係数R2やRMSE(Root Mean Squared Error)などの指標にて評価します。推定結果と実験値を比較しながらモデルをチューニングを行い、汎用性を高めていくことになります。

機械学習の拡張性

機械学習を用いた溶解度パラメータ推定の魅力は、その拡張性にあります。新たな実験データや分子構造情報が蓄積されることで、既存モデルに対して学習データの追加・更新が可能です。これにより、以下のようなメリットが期待されます。

対応領域の拡大:より広範囲な分子に適用可能となり、新規の分子構造への対応も可能になります。
精度の向上:より細かい構造的特徴や物性の相関を学習でき、推定精度が更に向上します。
シミュレーションとの統合:分子動力学シミュレーションや量子化学計算と組み合わせることで、理論的予測と実験結果の相補的な利用が可能となり、材料設計やデバイス開発の効率化に寄与します。

データベースの蓄積により、機械学習を活用した溶解度パラメータの推定の信頼性と適用範囲はさらに広がると予想されます。これにより、実験前のシミュレーションや設計段階での迅速な評価が可能となり、材料開発のスピードアップやコスト削減に大きく寄与することが期待されます。

evaluation_ML
機械学習法を用いた推定精度の評価

まとめ

機械学習法による溶解度パラメータの推定のアプローチは、実験の手間を大幅に削減しながら、溶解度パラメータを求めることができるという利点はそのままに、従来の原子団寄与法では捉えきれなかった複雑な分子構造と溶解度パラメータとの相関関係を捉え、より柔軟かつ高精度な溶解度パラメータの推定を可能とします。SMILESやmolファイルから抽出される多様な分子記述子(特徴量)を活用することで、対象分子の幅が広がり、推定精度と適用範囲の向上が期待されます。機械学習という新たなツールを活用することで、材料開発やデバイス開発の現場において、より精密な物性推定や効率的な開発プロセスの実現が期待できるでしょう。