您的位置: 首页> Python

Python 编程实战 · 进阶与职业发展：数据分析与 AI（Pandas、NumPy、Scikit-learn）

匿名上传

发布时间:2025-12-26 16:30:02

而这三大工具库正是核心：

NumPy：高性能数值计算基础
Pandas：结构化数据处理与分析
Scikit-learn：机器学习建模全流程

如果说真实世界的数据分析是一条流水线，那么 NumPy 是“底层数学引擎”，Pandas 是“数据 ETL 工具”，而 Scikit-learn 则是“智能分析工厂”。下面我们就以工程实践为主线，系统讲解三者如何在数据分析与 AI 任务中协作。

一、NumPy：科学计算的基石

NumPy（Numerical Python）是整个数据分析生态的基础，其核心是：

N 维数组（ndarray）
矢量化运算
广播机制（broadcasting）
高性能数学运算

这些机制共同让 Python 在数值计算上获得接近 C 的性能。

1. ndarray：比 Python 列表强太多

如果你用 Python 原生 list 做大量数学运算，会非常慢；而 NumPy 通过内存连续布局实现高效向量操作：

import numpy as np

arr = np.array([1, 2, 3])
print(arr * 3)

输出：

[3 6 9]

这种矢量化特性使数据处理更简单，也更快。

2. 广播机制：无需写循环

例如，一个形状为 (3,3) 的矩阵加上一个标量：

a = np.ones((3, 3))
b = 5
print(a + b)

广播机制自动扩展维度，无需遍历。这是机器学习中批数据计算（batch operation）的核心。

3. 常用操作：数据分析中的基础动作

数学运算：np.mean, np.std, np.dot, np.linalg
统计运算：回归、协方差、相关系数
随机生成：np.random.rand, np.random.normal

例如生成模拟数据：

data = np.random.normal(0, 1, (1000,))

AI 和统计分析常靠这些操作构造训练数据或初步理解分布。

二、Pandas：结构化数据分析的核心工具

如果说 NumPy 处理的是“矩阵”，那么 Pandas 处理的是“表格”。它最擅长的是：

数据清洗
数据合并、拆分
缺失值处理
分组统计（groupby）
时间序列分析

在工程中，Pandas 通常承担：

的前半部分。

1. 核心数据结构：Series / DataFrame

import pandas as pd

df = pd.DataFrame({
    'name': ['A', 'B', 'C'],
    'score': [90, 85, 88]
})

2. 数据清洗：实际项目中的重点

实际数据几乎都是“脏数据”，Pandas 能轻松处理：

缺失值：

df.fillna(0)
df.dropna()

类型转换：

df['date'] = pd.to_datetime(df['date'])

条件过滤：

df[df['score'] > 80]

分组统计：

df.groupby('class')['score'].mean()

这些操作在商业分析（BI）和模型训练中都非常常见。

3. 与 NumPy 协作：性能更强

Pandas 基于 NumPy，因此很多底层操作还是 NumPy 完成：

df['score_z'] = (df['score'] - df['score'].mean()) / df['score'].std()

这种写法就是 NumPy 风格的公式在 Pandas 上的应用。

三、Scikit-learn：工程化的机器学习框架

Scikit-learn（sklearn）是 Python 最成熟的机器学习库，它提供了：

分类 / 回归 / 聚类
特征工程
模型选择
数据集拆分
交叉验证
超参数搜索

结构清晰、易于生产环境应用。

1. 标准使用流程：机器学习的标准模板

几乎所有任务都遵循统一 API：

from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

model = RandomForestClassifier()
model.fit(X_train, y_train)

print(model.score(X_test, y_test))

这就是 sklearn 的强大之处：高度模块化，统一接口风格。

2. 特征工程：模型前的关键步骤

常见操作：

标准化：

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

one-hot 编码：

from sklearn.preprocessing import OneHotEncoder

特征选择：

from sklearn.feature_selection import SelectKBest

在工业级机器学习项目中，特征工程往往比模型本身更决定性能。

3. 常用模型示例

回归：

Linear Regression
RandomForestRegressor
Lasso/Ridge

聚类：

KMeans
DBSCAN

四、三者如何协作：完整 AI 流水线示例

下面展示一个“真实工程”的典型处理流程：

Step 1. 用 Pandas 读取与清洗数据

df = pd.read_csv("salary.csv")
df.dropna(inplace=True)

Step 2. 数值处理与转换：借助 NumPy

import numpy as np

df['age_norm'] = (df['age'] - np.mean(df['age'])) / np.std(df['age'])

Step 3. 构建机器学习模型（Scikit-learn）

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

X = df[['age_norm', 'experience']]
y = df['salary']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

model = LinearRegression()
model.fit(X_train, y_train)

print(model.score(X_test, y_test))

通过这三大工具，你就完成了：