今回はAI入門シリーズ第5回です。前回はこちらをご覧ください。
このシリーズでは全く知らないからちょっとコード触ったことある!というところまでを目指します。

前回、Pythonで基本的なコードを書いてみました。今回はもう少し踏み込んで、「ライブラリ」を使ってみましょう。


AIを本格的に学ぶためには、Pythonの基本に加え、便利なライブラリの使い方をマスターすることが重要です。

ライブラリとは、特定の処理を効率よく行うための「便利な機能集」です。AIやデータ分析には特に役立つライブラリがたくさんあり、Google Colabを使えば、これらをすぐに試すことができます。

1. Google Colabを使う準備

Google Colab(コラボ)は、Googleが提供する無料のPython実行環境で、インターネットに接続さえあればブラウザ上でコードを実行できます。Googleアカウントがあればすぐに使い始めることができるので、まずはColabのページにアクセスしましょう。

1. Colabにアクセスしたら、「新しいノートブック」をクリックします。

2. 新しいノートブックでコードを書き始めましょう。コードセルを選択し、そこにコードを記述してShift + Enterで実行できます。

2. ライブラリのインストールとインポート

Google Colabでは、多くのライブラリが事前にインストールされていますが、必要に応じて新しいライブラリも簡単にインストール可能です。!pip install ライブラリ名を使うことでインストールできます。

以下のように、Colab上で必要なライブラリをインポートして使ってみましょう。

# 必要なライブラリのインポート

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

import seaborn as sns

3. データ分析ライブラリの活用:NumPyとPandas

データ分析でよく使われるのが、NumPyPandasです。

NumPy: 数値データの操作に強く、大量のデータを効率的に処理できます。

Pandas: 表形式のデータ(行と列)を扱うためのツールで、データを整理したり集計するのに役立ちます。

NumPyで簡単な配列操作

#NumPyで配列を作成し基本的な操作をしてみましょう

array = np.array([1, 2, 3, 4, 5])

print("Array:", array)

print("Arrayの平均:", np.mean(array))

print("Arrayの合計:", np.sum(array))

Pandasでデータフレームを操作

Pandasの基本的なデータ構造は「データフレーム」です。データフレームを使ってデータをテーブル形式で整理することができます。

# Pandasのデータフレームを作成

data = {'Name': ['Alice', 'Bob', 'Charlie'],

        'Age': [24, 27, 22],

        'Score': [88, 92, 95]}

df = pd.DataFrame(data)

print(df)

# 平均年齢を計算

print("平均年齢:", df['Age'].mean())

4. データの可視化: MatplotlibとSeaborn

データを視覚的に理解するために、MatplotlibSeabornといった可視化ライブラリを使ってみましょう。

Matplotlibでシンプルなグラフを描く

# サンプルデータの作成

x = np.linspace(0, 10, 100)

y = np.sin(x)

# グラフの描画

plt.plot(x, y)

plt.title("Sin関数")

plt.xlabel("x軸")

plt.ylabel("y軸")

plt.show()

Seabornで美しいグラフを作成

Seabornは、Matplotlibをベースにしたデータ視覚化ライブラリで、美しいグラフを簡単に描けます。

# Seabornでデータを可視化

sns.set(style="darkgrid")

sns.histplot(df['Score'], kde=True)

plt.title("スコアの分布")

plt.show()

5. 機械学習の基礎:scikit-learn

scikit-learnは、Pythonで機械学習を始めるための代表的なライブラリです。ここでは、scikit-learnを使って、データの分類モデルを作ってみます。

from sklearn.datasets import load_iris

from sklearn.model_selection import train_test_split

from sklearn.neighbors import KNeighborsClassifier

# データセットの読み込み

data = load_iris()

X_train, X_test, y_train, y_test = train_test_split(data.data, data.target, test_size=0.2)

# k-最近傍法のモデルを作成して学習

model = KNeighborsClassifier(n_neighbors=3)

model.fit(X_train, y_train)

# 精度を確認

accuracy = model.score(X_test, y_test)

print("モデルの精度:", accuracy)

このコードでは、「アイリスデータセット」を使い、分類器(K-Neighbors Classifier)を訓練してテストデータに対する精度を確認しています。機械学習の雰囲気を掴むためにぴったりの簡単な例です。

まとめ

今回は、Google Colabを活用して、Pythonで主要なデータ分析・機械学習用ライブラリの基礎的な使い方を見てきました。Pythonは非常に柔軟で、ライブラリを使いこなせば効率的にデータを扱えるようになります。次はさらに応用的な処理や、深層学習ライブラリ(TensorFlowやPyTorchなど)にも挑戦してみてください。

PythonでAIを始めるための準備に関するQ&A

Q1: Pythonのどのバージョンを使うべきですか?

A: Python 3以降を使用してください。AI関連のライブラリはPython 3.xに最適化されており、最新バージョンを推奨します。

Q2: 仮想環境を作成するメリットは何ですか?

A: 仮想環境はプロジェクトごとに独立したPython環境を提供するため、パッケージの競合を防ぎ、異なるプロジェクトで異なるパッケージバージョンを使用できます。

Q3: AI開発で必須のPythonライブラリは何ですか?

A: NumPy、pandas、scikit-learn、TensorFlow、PyTorchなどが主要なライブラリです。数値計算、データ解析、機械学習やディープラーニングで利用されます。

Q4: Jupyter Notebookはどのような場合に使うと便利ですか?

A: Jupyter Notebookはインタラクティブにコードを実行できるため、データの可視化や機械学習モデルの試行錯誤に適しています。セル単位でコードの実行やデータの表示が可能です。

Q5: AIの簡単なサンプルコードを実行するための推奨環境は?

A: 仮想環境で必要なライブラリをインストールした後、Jupyter NotebookまたはVS Codeを使用するのが便利です。どちらもデータ解析やモデルの検証に適しています。