【google colaboratory】入門：機械学習の基礎と簡単なモデルの作成

こんにちは。今回は、google colaboratoryについて初心者エンジニアに向けて、機械学習の基礎と簡単なモデルの作成方法について解説します。

機械学習の概要

機械学習は、コンピュータがデータから学習し、予測モデルを構築するための手法です。データを収集し、そのデータからパターンを見つけ出し、そのパターンを使って未知のデータに対して予測を行うことができます。機械学習には、教師あり学習、教師なし学習、強化学習などの種類があります。

教師あり学習は、入力データとそれに対応する正解データが与えられる場合に利用されます。教師あり学習の代表的なアルゴリズムとして線形回帰やロジスティック回帰があります。

教師なし学習は、正解データが与えられず、入力データのパターンを見つけ出すために利用されます。教師なし学習の代表的なアルゴリズムとしてクラスタリングや次元削減があります。

強化学習は、環境とエージェントの相互作用に基づいて、トライ＆エラーを繰り返すことで最適な行動を学習する手法です。

データの前処理方法

機械学習のモデルを作成する前に、データの前処理が必要です。データの前処理には、欠損値の処理や特徴量のスケーリング、カテゴリカル変数のエンコーディングなどがあります。

欠損値の処理では、欠損値を補完する方法を選択します。欠損値が少ない場合は、平均値や中央値などで補完することが一般的です。欠損値が多い場合は、他の特徴量を使って補完するか、欠損値を持つデータを削除する方法が考えられます。

特徴量のスケーリングでは、特徴量の値の範囲を統一することでモデルの学習を効率化するため、標準化や正規化などの手法を用います。標準化はデータを平均0、標準偏差1に変換することで、正規化はデータを0から1の範囲に変換することで行われます。

カテゴリカル変数のエンコーディングでは、カテゴリカル変数を数値に変換する必要があります。代表的な方法としては、ラベルエンコーディングやワンホットエンコーディングがあります。

以下は、データの前処理を行うサンプルコードです。

import pandas as pd
from sklearn.impute import simpleimputer
from sklearn.preprocessing import standardscaler, labelencoder, onehotencoder

# データの読み込み
data = pd.read_csv("data.csv")

# 欠損値の補完
imputer = simpleimputer(strategy="mean")
data_filled = imputer.fit_transform(data)

# 特徴量のスケーリング
scaler = standardscaler()
data_scaled = scaler.fit_transform(data_filled)

# カテゴリカル変数のエンコーディング
label_encoder = labelencoder()
data["category_encoded"] = label_encoder.fit_transform(data["category"])

onehot_encoder = onehotencoder()
data_encoded = onehot_encoder.fit_transform(data[["category_encoded"]])

線形回帰モデルの作成方法

線形回帰は、教師あり学習の一つであり、入力データと出力データの関係を線形でモデル化する手法です。具体的には、入力データと出力データの間の関係を表す直線を求めることで、新しい入力データに対しての出力データを予測することができます。

以下は、線形回帰モデルの作成方法のサンプルコードです。

from sklearn.linear_model import linearregression

# データの読み込み
data = pd.read_csv("data.csv")
x = data[["x1", "x2", "x3"]]
y = data["y"]

# モデルの作成と学習
model = linearregression()
model.fit(x, y)

# 新しい入力データに対する予測
new_data = pd.dataframe([[1, 2, 3]], columns=["x1", "x2", "x3"])
prediction = model.predict(new_data)

サポートベクターマシンの作成方法

サポートベクターマシン (svm) は、教師あり学習の一つであり、分類や回帰問題において非線形な境界をモデル化する手法です。svmは、データの最適なマージンを見つけることで、新しいデータに対しての予測を行います。

以下は、サポートベクターマシンの作成方法のサンプルコードです。

from sklearn.svm import svc

# データの読み込み
data = pd.read_csv("data.csv")
x = data[["x1", "x2", "x3"]]
y = data["target"]

# モデルの作成と学習
model = svc(kernel="rbf")
model.fit(x, y)

# 新しい入力データに対する予測
new_data = pd.dataframe([[1, 2, 3]], columns=["x1", "x2", "x3"])
prediction = model.predict(new_data)

ロジスティック回帰モデルの作成方法

ロジスティック回帰は、教師あり学習の一つであり、2値分類問題において使用される手法です。ロジスティック回帰は、入力データと出力データの関係を表すs字カーブをモデル化することで、新しい入力データに対しての出力データを確率として予測することができます。

以下は、ロジスティック回帰モデルの作成方法のサンプルコードです。

from sklearn.linear_model import logisticregression

# データの読み込み
data = pd.read_csv("data.csv")
x = data[["x1", "x2", "x3"]]
y = data["target"]

# モデルの作成と学習
model = logisticregression()
model.fit(x, y)

# 新しい入力データに対する予測
new_data = pd.dataframe([[1, 2, 3]], columns=["x1", "x2", "x3"])
probabilities = model.predict_proba(new_data)

モデルの評価方法

モデルの評価は、機械学習のモデルの性能を客観的に評価するための手法です。モデルの評価には、ホールドアウト法やクロスバリデーションなどの手法があります。

ホールドアウト法は、データセットを訓練データとテストデータに分割し、訓練データでモデルを学習し、テストデータでモデルの性能を評価します。

クロスバリデーションは、データセットを複数の部分に分割し、それぞれの部分をテストデータにした上で、残りの部分を訓練データとしてモデルの性能を評価します。クロスバリデーションは、訓練データとテストデータの分割による偏りを軽減することができます。

以下は、モデルの評価方法のサンプルコードです。

from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.metrics import accuracy_score

# データの読み込み
data = pd.read_csv("data.csv")
x = data[["x1", "x2", "x3"]]
y = data["target"]

# ホールドアウト法によるモデルの評価
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42)

model = logisticregression()
model.fit(x_train, y_train)

y_pred = model.predict(x_test)
accuracy = accuracy_score(y_test, y_pred)

# クロスバリデーションによるモデルの評価
model = logisticregression()
scores = cross_val_score(model, x, y, cv=5, scoring="accuracy")
average_accuracy = scores.mean()

以上が、google colaboratoryを使った機械学習の基礎と簡単なモデルの作成方法の解説です。初心者エンジニアの方にとって、参考になる情報となることを願っています。

参考記事：