卒業論文・修士論文の概要 2016年度

修士論文

越智 奨貴 定量的構造物性性相関/定量的構造活性相関における適用範囲内への望ましい物性・活性をもつ構造の生成
材料や医薬品開発において、優れた物性や活性を持つ物質を効率的に探索することは重要である。ケモインフォマティクスを利用した分子設計においては、望ましい物性や活性を持つ新規な化合物を提案するために、構造生成機を用いて、化学構造を仮想的に生成する手法が提案されている。生成された化学構造は、定量的構造活性相関(QSAR)や定量的構造物性相関 (QSPR)モデルを用いて物性・活性予測を行い、その結果に応じて化学構造を選別する。QSAR/QSPRモデルを利用する場合、モデルの適用範囲(applicability domain、AD)を考慮することが重要である。ADとは、QSAR/QSPRモデルによる予測を高い精度で行える、記述子空間における領域を指す。一般に、記述子の値がAD外に位置する化学構造に対してモデルを適用した場合、予測誤差は大きくなる。AD外に存在する構造は予測誤差が大きいため、たとえ望ましい物性・活性予測値が得られたとしても、探索対象からは外される。したがって、QSAR/QSPRモデルが適用可能となるように、 AD外にある構造を適切に構造変化させることができれば、新規で望ましい物性・活性をもつ構造の獲得が期待できる。そこで本研究では、one-class support vector machine(OCSVM)とmatched molecular pairs(MMP)を用いて、AD外からAD内への構造変化手法を提案した。その結果、AD外からAD内への構造変化に成功し、それらの構造が望ましい物性・活性予測値をもつことを確認した。構造生成機に本手法を用いることで、これまでは探索されなかった構造をもとに、モデルによる予測値を信頼できる新規化学構造の提案が可能となる。
Yan Lu 変数領域選択と汎化能力を考慮した土壌成分値を予測のためのモデル開発
Soil property analysis is indispensable in precision agriculture, an advanced field regarding site-specific management for crop production enhancement and environmental sustainability. Due to how difficult collecting and measuring soil properties is, such as moisture content, total carbon, total nitrogen, electricity conductivity and pH, near-infrared spectroscopy (NIR) is a useful tool to be applied to soil properties prediction, making use of statistical learning methods. However, the prediction of soil properties without any knowledge about their inner relationship is not adequate. Soil properties are different depending on location and environment. The inner area variability could cause nonlinearity on a global scale. Therefore, to determine which method and strategy are suitable for this task, detection of nonlinearity between NIR spectroscopy and soil properties became the first purpose of this study. Various numerical tools and graphic methods were applied to this soil property dataset, such as variable selection, sample splitting, applicability domain evaluation and residual inspection. Global nonlinearity for all five soil properties was confirmed, and the strength of such nonlinearity is property dependent. Furthermore, a new prediction method based on ensemble learning was proposed, considering nonlinearity between NIR spectroscopy and soil properties. Compared with conventional modeling, the proposed method significantly improved performance for soil properties’ prediction.
柴山 翔二郎 PAT技術のための低コストで運用可能な数理モデルの開発
プロセスの運転状況をオンラインで推定する手法はソフトセンサーやプロセス監視技術などと呼ばれ、化学プロセスや医薬品製造プロセスを適用先として近年開発が進んでいる。プロセス中の混合液に対して物理化学的な情報を持つ赤外スペクトル(IR)をオンラインで測定し、事前に構築した予測モデルに入力することで、測定の困難な成分濃度を推定する。これにより、例えば晶析プロセスの粒子径分布の制御などが可能となる。しかし、統計回帰手法を用いて予測モデルを構築する場合、多数のモデル構築用データをオフラインで取得する必要があり、時間および金銭的コストを要する。この課題を回避し高精度な濃度予測を実現するために、ベール則を利用したiterative optimization technology[K. Muteki; et. al. Ind. Eng. Chem. Res. 52, 2013]が提案されているが、溶液中では分子間相互作用の影響を受けて、混合液IRが変形するベール則の成り立たない波長領域が混在する為、予測精度が低下する。そこで、本研究の目的を、少数の濃度データおよびIRと、IOTを組み合わせて溶液系に適用可能な濃度予測手法の開発とした。

本研究では、1組の濃度およびIRのペアからベール則の成り立つ波長領域選択を行う手法を開発した[S. Shibayama; H. Kaneko; K. Funatsu, Chemometr. Intell. Lab. Sys. 156, 2016]。図に示すように、紫の実線で示される混合液IRに対して、黄色の破線で示されるベール則の計算値を計算し、緑の鎖線で示されるそれらの残差が小さくなる波長領域を選択する。この波長領域選択とIOTを組み合わせた手法を、ヘプタン-イソプロパノールの2成分系、水-イソプロパノールの2成分系などに適用したところ、良好な予測結果が得られた。修士論文では、提案手法を5成分系および、ピークシフトが生じる2成分系溶液に対して適用し、検証を行った。

卒業論文

荒木 大悟 医薬品開発におけるリード化合物探索のための多目的最適化
医薬品を開発する際、リード化合物の設計が重要である。船津研究室では、化学空間の可視化を利用した構造生成手法 de novo algorithm for exploring chemical space(DAECS) の開発が進められてきた。DAECS では、多次元の化学空間を二次元平面に投射し活性を可視化する。可視化した二次元平面上で高活性とされる領域を指定することで、指定した領域の近傍で構造が生成される。これにより高活性である可能性が高い構造を生成することができる。初期のDAECSでは活性以外の性質を考慮していなかった。そこでDEACSの改良版として活性とドラッグライクを同時に満たす構造を生成する手法が提案された。本研究では医薬品としての要求特性をドラッグライクと一つにまとめるのではなく、医薬品ごとに複数の要求特性を検討できるようにした。また、複数の要求特性を同時に満たす領域を探索する手法を提案した。提案手法では、可視化に用いたgenerative topographic map(GTM)の結果から得られる確率密度に注目し、要求特性ごとの確率密度および全ての要求特性を満たす同時確率密度を計算することによって、複数の要求特性を同時に満たす確率の高い領域を特定することに成功した。これにより複数の要求特性を満たす構造が提案でき、医薬品開発の効率化につながると考えられる。
 
櫛田 啓文 シミュレーションおよび統計手法を用いた制御性を考慮した反応器設計
反応器設計では、生成物質の収率や生産量などの目的とする反応器性能に応じて、原料濃度・反応温度・攪拌速度などの設計変数を最適化する必要がある。設計変数の最適化を行う際に、全ての設計変数の組み合わせを網羅的に探索するアプローチはシミュレータを用いたとしても時間的コストが大きい。この問題に対して、船津研究室では過去のシミュレーションに用いた設計変数とそれに対応する反応器性能のデータベースから構築したガウシアンプロセスモデルを利用することで、より少ない試行回数で設計変数の最適化を実現する手法を提案してきた。本研究では、ガウシアンプロセスモデルを用いて設計変数の最適化を行う際に、プロセスの制御性に関連する制御変数の最適化も同時に行う手法を提案した。提案手法を用いることで、コストや収率など複数の反応器性能を考慮した反応器設計が可能になると考えられる。
 
菅原 悠樹 遺伝的アルゴリズムを用いたMBRにおけるファウリングと微生物間のモデリング
膜分離活性汚泥法(Membrane BioReactor, MBR)は好気性微生物を含む活性汚泥を用いて廃水処理を行う方法の一つであり、汚泥と処理水を膜を用いて分離する。MBRは従来の活性汚泥法に対して省スペースで運用可能であるが、膜を用いるため運転に伴って活性汚泥が膜に堆積するファウリングという問題がある。ファウリングによって、ろ過に必要な膜差圧(transmembrane pressure, TMP)が上昇し、運転コストの増大や膜自体の欠損の危険性がある。活性汚泥中に含まれる微生物が全炭化水素の摂取や代謝などを通してファウリングへの影響を与えていると考えられるがそのメカニズムは明らかになっていない。微生物の活動を抑制することでファウリングの影響を小さくすることが試みられている。

本研究では、実際の下水処理場に併設されているパイロットスケールのMBRプラントのデータを用いてファウリングへ大きな影響力を持っている微生物の候補を得ることを目指した。説明変数に各微生物の比率、目的変数に全炭化水素濃度を用いて統計モデルを構築した。モデル構築には本研究室で開発されGAVDSという遺伝的アルゴリズムを用いて説明変数の時間遅れの影響を考慮しながら変数選択を行う手法を適用し、その選択回数から微生物候補を選出した。本研究で選出された候補微生物の中には、既往の実験室スケールの研究で全炭化水素を多く排出しファウリング促進能力が高いとされた微生物もあることを確認した。

 
鈴木 天音 深層学習による溶解度予測および 深層学習モデルの化学的解釈
分子設計において大量の候補化合物に対し溶解度をもとにスクリーニングを行うケースが存在する。しかし、候補化合物すべてに対し実験で溶解度を求めるのは現実的に困難であるため、定量的構造物性相関(QSPR)と呼ばれる統計手法を利用した溶解度の推算が行われている。従来のQSPRではデータ数の少ない溶媒について予測精度が低下する問題があった。これに対し、深層学習を用いることで任意の溶媒・溶質に対して高い精度で溶解度予測を実現する先行研究が提案された。しかし、この手法は溶解度予測に不要な構造記述子の影響を排除しきれていない点と、予測に化学的裏付けができていない点に問題があった。本研究では忘却とL1正則化、Dropoutを組み合わせることで不要な記述子を排除し、モデルの中間層出力を可視化することで、深層学習モデルが何を「学習」しているのかを確認した。有機溶媒に対する溶解度データを用いて検証を行い、先行研究に比べ予測精度が優れていることを確認した。また、深層学習モデルが多くの情報から溶解度予測に必要な情報を抽出するように訓練されていることを可視化によって明らかにした。