大模型学习——评测 InternLM-1.8B 实践

T-Rain777

1610人浏览 · 2025-02-17 15:14:19

T-Rain777 · 2025-02-17 15:14:19 发布

任务目的：使用 OpenCompass 评测浦语 API

1.环境配置

OpenCompass 提供了 API 模式评测和本地直接评测两种方式。其中 API 模式评测针对那些以 API 服务形式部署的模型，而本地直接评测则面向那些可以获取到模型权重文件的情况。

我们首先在训练营提供的开发机上创建用于评测 conda 环境:

conda create -n opencompass python=3.10
conda activate opencompass

cd /root
git clone -b 0.3.3 https://github.com/open-compass/opencompass
cd opencompass
pip install -e .
pip install -r requirements.txt
pip install huggingface_hub==0.25.2

pip install importlib-metadata

一定要注意激活对应环境，确保接下来安装包的位置位于环境中（本人在这里血泪教训）。

2.评测 API 模型

如果你想要评测通过 API 访问的大语言模型，整个过程其实很简单。首先你需要获取模型的 API 密钥（API Key）和接口地址。以 OpenAI 的 GPT 模型为例，你只需要在 OpenAI 官网申请一个 API Key，然后在评测配置文件中设置好这个密钥和相应的模型参数就可以开始评测了。评测过程中，评测框架会自动向模型服务发送测试用例，获取模型的回复并进行打分分析。整个过程你不需要准备任何模型文件，也不用担心本地计算资源是否足够，只要确保网络连接正常即可。

考虑到 openai 的 API 服务暂时在国内无法直接使用，我们这里以评测 internlm 模型为例，介绍如何评测 API 模型。

打开网站浦语官方地址书生·浦语获得 api key 和 api 服务地址 (也可以从第三方平台硅基流动获取), 在终端中运行:export INTERNLM_API_KEY=xxxxxxxxxxxxxxxxxxxxxxx # 填入你申请的 API Key
配置模型: 在终端中运行 cd /root/opencompass/ 和 touch opencompass/configs/models/openai/puyu_api.py, 然后打开文件, 贴入以下代码:
import os
from opencompass.models import OpenAISDK
internlm_url = 'https://internlm-chat.intern-ai.org.cn/puyu/api/v1/' # 你前面获得的 api 服务地址
internlm_api_key = os.getenv('INTERNLM_API_KEY')

models = [
dict(
# abbr='internlm2.5-latest',
type=OpenAISDK,
path='internlm2.5-latest', # 请求服务时的 model name
# 换成自己申请的APIkey
key=internlm_api_key, # API key
openai_api_base=internlm_url, # 服务地址
rpm_verbose=True, # 是否打印请求速率
query_per_second=0.16, # 服务请求速率
max_out_len=1024, # 最大输出长度
max_seq_len=4096, # 最大输入长度
temperature=0.01, # 生成温度
batch_size=1, # 批处理大小
retry=3, # 重试次数
)
]
配置数据集: 在终端中运行 cd /root/opencompass/ 和 touch opencompass/configs/datasets/demo/demo_cmmlu_chat_gen.py, 然后打开文件, 贴入以下代码:
from mmengine import read_base

with read_base():
from ..cmmlu.cmmlu_gen_c13365 import cmmlu_datasets

# 每个数据集只取前2个样本进行评测
for d in cmmlu_datasets:
d['abbr'] = 'demo_' + d['abbr']
d['reader_cfg']['test_range'] = '[0:1]' # 这里每个数据集只取1个样本, 方便快速评测.
完成模型配置后需要在终端中运行: python run.py --models puyu_api.py --datasets demo_cmmlu_chat_gen.py --debug. 预计运行10分钟后, 得到结果:

注意：一定要确保环境成功激活并且安装包位于正确的路径下，否则无法成功run.py运行脚本，需要重新下载安装包。

开源鸿蒙跨平台开发者社区

开源鸿蒙跨平台开发社区汇聚开发者与厂商，共建“一次开发，多端部署”的开源生态，致力于降低跨端开发门槛，推动万物智联创新。

更多推荐

移动端热更新实现原理

热更新的核心在于动态加载。例如，Android平台可将补丁代码打包为Dex文件，由类加载器动态加载，覆盖原有逻辑。例如，React Native的热重载功能，让开发者实时预览修改效果，极大提升开发效率。它允许开发者在不重新发布应用的情况下，动态更新代码、资源或功能，大幅缩短迭代周期。例如，一个10MB的安装包可能只需下载100KB的补丁，大幅提升效率。热更新技术通过动态加载、资源替换和差分优化等机

开源鸿蒙跨平台开发者社区

告别脆弱的XPath：层级化命名空间如何让UI自动化测试稳如泰山

本文探讨了UI自动化测试中传统元素定位方法（如XPath、CSS选择器）的三大痛点：脆弱性、语义缺失和多端重复维护。针对这些问题，提出了一种层级化命名空间（Hierarchical Namespace）的解决方案。该方案通过四层业务语义标识（业务模块→页面→组件→元素）替代技术路径，使元素定位与UI结构解耦。文章详细介绍了规范设计原则、多平台实现方式（Web/React Native/iOS/An