Python 有哪些数据处理库和模块？

软件测试曦曦

1010人浏览 · 2025-11-06 19:15:23

软件测试曦曦 · 2025-11-06 19:15:23 发布

Python 拥有丰富的生态系统，提供了众多的数据处理库和模块，可以满足从简单到复杂的各种需求。以下是 Python 中一些其他重要的数据处理库和模块：

1. SciPy

用途：科学计算

SciPy 是基于 NumPy 构建的一个库，主要用于科学和技术计算。它包含了大量的数学算法和函数，如优化、线性代数、积分、插值等。

示例：

from scipy import optimize
# 最小化一个简单的函数
def f(x):
return x**2 + 10 * np.sin(x)
result = optimize.minimize(f, x0=0)
print(result.x) # 输出: [-1.30644995]

2. Matplotlib 和 Seaborn

用途：数据可视化

Matplotlib 是最流行的 Python 绘图库之一，支持多种图表类型，包括折线图、柱状图、散点图等。

Seaborn 是建立在 Matplotlib 之上的高级接口，专注于统计数据可视化，简化了许多常见的绘图操作。

示例（Seaborn）：

import seaborn as sns
import matplotlib.pyplot as plt
tips = sns.load_dataset("tips")
sns.scatterplot(x="total_bill", y="tip", data=tips)
plt.show()

3. Plotly

用途：交互式数据可视化

Plotly 提供了创建交互式图表的能力，适用于 Web 应用程序。它支持多种图形类型，并且易于与 Pandas 集成。

示例：

import plotly.express as px
df = px.data.iris()
fig = px.scatter(df, x="sepal_width", y="sepal_length", color="species")
fig.show()

4. Scikit-learn

用途：机器学习

Scikit-learn 是一个强大的机器学习库，实现了广泛的监督和非监督学习算法。它还提供了数据预处理、模型选择和评估等功能。

示例：

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2)
clf = KNeighborsClassifier()
clf.fit(X_train, y_train)
print(clf.score(X_test, y_test)) # 输出分类准确率

5. TensorFlow 和 PyTorch

用途：深度学习

TensorFlow 和 PyTorch 是两个领先的深度学习框架，分别由 Google 和 Facebook 开发。它们为构建神经网络提供了高度灵活的 API，并且可以在 GPU 上加速训练过程。

示例（TensorFlow）：

import tensorflow as tf
mnist = tf.keras.datasets.mnist
(x_train, y_train), (x_test, y_test) = mnist.load_data()
x_train, x_test = x_train / 255.0, x_test / 255.0
model = tf.keras.models.Sequential([
tf.keras.layers.Flatten(input_shape=(28, 28)),
tf.keras.layers.Dense(128, activation='relu'),
tf.keras.layers.Dropout(0.2),
tf.keras.layers.Dense(10)
])
model.compile(optimizer='adam',
loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True),
metrics=['accuracy'])
model.fit(x_train, y_train, epochs=5)

6. NLTK 和 spaCy

用途：自然语言处理（NLP）

NLTK（Natural Language Toolkit）是一个用于文本分析的经典库，涵盖了分词、词性标注、句法解析等多个方面。

spaCy 是一个更现代化的 NLP 库，注重速度和效率，特别适合生产环境中的应用。

示例（spaCy）：

import spacy
nlp = spacy.load("en_core_web_sm")
doc = nlp("Apple is looking at buying U.K. startup for $1 billion")
for ent in doc.ents:
print(ent.text, ent.label_)
# 输出: Apple ORG, U.K. GPE, $1 billion MONEY

7. Beautiful Soup 和 Scrapy

用途：Web 数据抓取

Beautiful Soup 是一个用于解析 HTML 和 XML 文档的库，常用于网页内容提取。

Scrapy 是一个完整的 Web 爬虫框架，支持异步请求、自动遵循 robots.txt 规则等功能。

示例（Beautiful Soup）：

from bs4 import BeautifulSoup
import requests
response = requests.get('https://example.com')
soup = BeautifulSoup(response.text, 'html.parser')
for title in soup.find_all('title'):
print(title.string)

8. OpenPyXL 和 XlsxWriter

用途：Excel 文件读写

OpenPyXL 主要用于读取和写入 .xlsx 文件，而 XlsxWriter 则专注于创建新的 Excel 文件，特别是当您需要生成复杂的表格格式时非常有用。

示例（OpenPyXL）：

import openpyxl
wb = openpyxl.load_workbook('example.xlsx')
sheet = wb.active
for row in sheet.iter_rows(values_only=True):
print(row)

9. Feather 和 Parquet

用途：高效的数据存储格式

Feather 和 Parquet 是两种高效的列式存储格式，专为快速读取和写入大数据集设计。它们支持跨语言互操作性，并且与 Pandas 兼容。

示例（Parquet with PyArrow）：

import pandas as pd
import pyarrow.parquet as pq
df = pd.DataFrame({'one': [1, 2, 3], 'two': ['a', 'b', 'c']})
df.to_parquet('example.parquet')
table = pq.read_table('example.parquet')
print(table.to_pandas())

10. SQLAlchemy

用途：数据库 ORM

SQLAlchemy 是一个 SQL 工具包和对象关系映射器（ORM），允许您以面向对象的方式与关系型数据库交互。它支持多种数据库后端，并提供了灵活的查询构造器。

示例：

from sqlalchemy import create_engine, Column, Integer, String, ForeignKey
from sqlalchemy.ext.declarative import declarative_base
from sqlalchemy.orm import sessionmaker
Base = declarative_base()
class User(Base):
__tablename__ = 'users'
id = Column(Integer, primary_key=True)
name = Column(String)
engine = create_engine('sqlite:///:memory:')
Base.metadata.create_all(engine)
Session = sessionmaker(bind=engine)
session = Session()
new_user = User(name='Alice')
session.add(new_user)
session.commit()
users = session.query(User).all()
for user in users:
print(user.name)

总结

这些库和模块覆盖了从基础的数据处理到高级分析和可视化的各个方面。根据您的具体需求选择合适的工具，可以帮助您更高效地完成任务并提高代码质量。随着经验的增长，您将逐渐熟悉每个库的最佳实践及其适用场景。希望这些建议能帮助您找到最适合您项目的解决方案！

最后作为一位过来人也是希望大家少走一些弯路，如果你不想再体验一次学习时找不到资料，没人解答问题，坚持几天便放弃的感受的话，在这里我给大家分享一些软件测试的学习资源，希望能给你前进的路上带来帮助。

视频文档获取方式：
这份文档和视频资料，对于想从事【软件测试】的朋友来说应该是最全面最完整的备战仓库，这个仓库也陪伴我走过了最艰难的路程，希望也能帮助到你！以上均可以分享，点下方小卡片即可自行领取。

开源鸿蒙跨平台开发者社区

开源鸿蒙跨平台开发社区汇聚开发者与厂商，共建“一次开发，多端部署”的开源生态，致力于降低跨端开发门槛，推动万物智联创新。

更多推荐

react native 0.72遇到react-native-screens库出现cxx编译问题的解决方案

《React Native轻量化编译C++错误排查全记录》摘要：本文记录了程序员千里马在维护React Native相簿应用时遭遇的棘手编译问题。项目在轻量化编译时频繁出现react-native-screens的C++编译错误，而完整编译却能通过。作者先后排查了路径限制、缓存污染、网络依赖、版本兼容等问题，尝试了换包、重建工程等多种方案。最终发现是node_modules中老旧的react-na

开源鸿蒙跨平台开发者社区

分布式软总线核心代码分析（二）

本文分析了OpenHarmony分布式软总线5.1版本中"发现服务"的核心实现机制。发现服务通过DiscMgrInit初始化三个通信介质（BLE/CoAP/USB），建立发布服务链表（g_publishInfoList）、发现服务链表（g_discoveryInfoList）和16个能力匹配桶（g_capabilityList）。当设备被发现时，系统会根据设备能力位图与订阅者进

开源鸿蒙跨平台开发者社区

动态化方案：React Native, Weex, 自研引擎

React Native、Weex和自研引擎是当前主流的动态化方案，它们通过不同的技术路径实现了“一次编写，多端运行”的目标。本文将围绕这三种方案，从性能、生态支持、开发体验、社区活跃度和定制化能力五个方面展开对比，帮助开发者选择最适合的技术栈。React Native基于JavaScriptCore引擎，通过桥接机制与原生组件通信，性能接近原生但存在一定损耗。总结来看，React Native适