定量分析 多変量回帰分析編 | FTIR Blog - PerkinElmer Japan

定量分析 多変量回帰分析編

前回のエントリでは単回帰分析の基礎と限界について書きました。単回帰分析は、着目ピークがマトリクスからの影響を多く受ける場合、良好な検量線が得られないことがあります。そういった場合、今回ご紹介する多変量回帰分析が有効です。

■多変量回帰分析とは

 単回帰分析とは、1 つの変数を使って回帰直線を作成する分析方法でした。多変量回帰分析では複数の変数から回帰直線を作成します。ここで言う変数とは、特定の波数における吸光度を意味します。なので、例えば波数範囲 4000 ~ 500 cm-1 をデータポイント間隔 1 cm-1 で測定したスペクトルなら、3500 個もの変数を持っていることになります。多変量という言葉がぴったりですね。

 このような非常に多くの変数を統計的に解析して、標準物質の濃度水準(=検量線の横軸)に最も適合する新しい縦軸の変数を作り出します。3500 個の変数から濃度変化に関係のない変数を省いたり、濃度変化の傾向が同じような変数をまとめるなどして変数を削減していくのです。最終的に削減の過程で得られた 1 つの新しい変数に落とし込みます。この新しい変数への落とし込みのことを“モデル化“と呼びます。モデル化によって得られた新しい変数と濃度の関係を示したグラフが、多変量回帰分析における検量線です。

 多変量回帰分析には単変量回帰分析と比べて、①ピークの波数条件を決める必要がない、②ピークが複雑に重なっていても定量できる。③複数成分を一度に定量できる。 の 3 つの大きなメリットがあります。ただし①については、解析範囲をノイズ成分の含まない任意の端数範囲に限定した方が良い結果が得られることもあります。特徴とメリットを図にまとめました。


図1 多変量回帰分析の特徴とメリット

 

■多変量回帰分析の種類

 一口に多変量回帰分析といっても、種類がいくつかあります。主に CLS 法、ILS 法、PCR 法、PLS 法の 4 つがあります。PLS 法は、更に PLS1 と PLS2 に分けられます。これら 5 つはモデル化の仕方に違いがあります。詳しく書くと長くなるので、今後のエントリで少しずつ触れていきます。
 5 つの方法の中で、現時点で最も分析精度が高いと考えられているのが PLS 法です。PLS 法のモデル化は 2 ステップで行われます。最初のステップでは、多変量データを主成分分析して、全ての変数を“主成分”とよばれる 1 ~ 20 個程度の変数に要約します。次のステップでは、主成分のうちの複数を組み合わせて、最適な 1 つの変数を導き出します。このときの中間段階の“主成分“をどのように組み合わせるかが、モデル化にあたり最も重要になります。

 PLS1 法は計算精度と計算コスト(時間)のバランスが良く、近年よく利用されるようになってきました。今回、PLS1 法を使って、前回のエントリで良好な検量線が得られなかった ABS 樹脂のアクリロニトリル (AN), ブタジエン (BD), スチレン (ST) の 3 成分の検量線を作成してみました。

 

■ABS樹脂のPLS1法による検量線作成

 AN, BD, ST の比率を振って作成した ABS 樹脂の標準物質を 6 水準用意しました。Diamond ATR アクセサリを取り付けた赤外分光光度計(Frontier Gold FTIR)でそれぞれ 7 回繰り返し測定しました。測定条件は分解能 4 cm-1、波数範囲 4000 - 650 cm-1、積算回数 4 回としました。測定したデータを Spectrum Quant ソフトにインポートして検量線を作成しました。アルゴリズムは PLS1、変数の数は最低 4、潜在変数の数は 9 とし、校正を実行しました。図 2 に得られた検量線を示します。AN, BD, ST の 3 成分ともに、単回帰分析では得られかった良好な検量線が得られています。


図2 ABS樹脂のPLS1法による検量線結果
AN(左)、BD(中)、ST(右)

 

■モデル化の注意点 標準物質のデータ点数

 PLS1 でモデルを構築するにあたり、最も重要な点は検量線作成に使用するスペクトル数です。一般的な単回帰分析の検量線ではスペクトル数は最低 3 本あれば作成できます。検量線の持つ誤差の幅を考えるとわずか 3 本のスペクトルで作成した検量線の使用はあまりお勧めできません。パーキンエルマーの定量分析ソフト Spectrum Quant では、スペクトル数は最低 4 本以上が必要です。多くの場合で単回帰分析の検量線に必要なスペクトル数は 4 ~ 10 本程度です。

 一方、多変量回帰分析の検量線でスペクトル数 10 本は少なすぎます。ほとんどの場合で 20 本以上となります。場合によっては 50 本を超えることもあります。測定スペクトル数の目安は

“モデルを構築するために必要な主成分の数×10”

です。ABS 樹脂の例では AN, ST, BD の 3 種類の成分が存在しているため、少なくとも主成分の数は 3 つ以上必要です。ほかにも予期せぬスペクトルの変動を考慮して、主成分の数は 4 以上、と考えました。つまり、必要な測定スペクトル数は 40 本、ということになります。そこで、実験条件の項目でも触れましたが 6 水準のサンプルを各 n7 で測定して 42 本のスペクトルを用意しました。

 図3 に、用意した標準物質の各濃度水準の繰り返し測定回数を変えて作成した検量線を示します。


図3 標準物質の繰り返し測定回数を変えたときのANの検量線
N=6 (a), N=12 (b), N=18 (c), N=30 (d)

(a) の検量線は、各標準物質に対する繰り返し測定回数1回で測定した場合 (スペクトル数 6 本)のデータです。検量線の直線性が悪く、R2 の値も 0.8045 と低くなっています。(b) の検量線は、繰り返し回数 2 回(スペクトル数 12 本)のデータで、スペクトル数 6 本のデータより検量線の直線性が改善されました。(c) は R2 が 0.9973 となり、良好な検量線が得られています。更にサンプル数を増やしても R2 の値はほとんど変わりませんでした。この結果から、今回の ABS 樹脂の定量の例では最低 18 本以上のスペクトル数が必要とわかります。

 なぜこれほど多くのスペクトルが必要なのでしょうか?スペクトル数が少ないとモデルに組み込める主成分の選択肢が減るからです。図4 に、モデルの中に含まれる主成分の数と検量線の精度の関係を示しました。縦軸の値は予測標準誤差 (SEP, Standard Error of Prediction) です。SEP はモデル化した検量線の誤差を表す指標で、数値が小さいほど、検量線の誤差が小さい、つまり精度の高い検量線であることを示す指標です。


図4 AN検量線のモデル内主成分の数と予測標準誤差(SEP)の関係

 N=6 の場合、モデル内に使用されている主成分の数は 1 つだけです。主成分の数が少ないと、標準物質の濃度変化に対する吸光度変化をすべて捉えきることができず、大きな予測標準誤差が生じています。グラフの中のスペクトル数が増加するにしたがって、モデル内に組み込まれている主成分の数が増えており、結果として予測標準誤差が小さくなっていることがわかります。このように、多変量回帰分析による検量線作成ではスペクトル数に注意する必要があります。

■まとめ

多変量回帰分析による定量分析は、①ピークの波数条件を決めなくてよい、②ピークが複雑に重なっていても定量できる、③複数成分を一度に定量できるなどの利点があります。①については、解析範囲を任意に設定することもできます。標準物質のスペクトル数に注意すれば、単回帰分析では得られないような高い直線性の検量線が得られることがあります。一方で、単回帰分析はマトリクスの影響がない場合、外乱因子に強く、定量下限が低い点が有利です。場合に応じて、単回帰分析と多変量回帰分析を上手に使い分けていただければと思います。

 

定量分析のネタが続いたので、次回はブログ化の要望が多かったデータベースを活用した未知物質の定性分析について書きます。お楽しみに!

 

 

 

<< 定量分析 単回帰分析編 FTIR Blog データベース検索を活用した異物の分析解析方法 >>