任务目的:使用 OpenCompass 评测浦语 API 

1.环境配置

OpenCompass 提供了 API 模式评测本地直接评测两种方式。其中 API 模式评测针对那些以 API 服务形式部署的模型,而本地直接评测则面向那些可以获取到模型权重文件的情况。

我们首先在训练营提供的开发机上创建用于评测 conda 环境:

conda create -n opencompass python=3.10
conda activate opencompass

cd /root
git clone -b 0.3.3 https://github.com/open-compass/opencompass
cd opencompass
pip install -e .
pip install -r requirements.txt
pip install huggingface_hub==0.25.2

pip install importlib-metadata

一定要注意激活对应环境,确保接下来安装包的位置位于环境中(本人在这里血泪教训)。

2.评测 API 模型

如果你想要评测通过 API 访问的大语言模型,整个过程其实很简单。首先你需要获取模型的 API 密钥(API Key)和接口地址。以 OpenAI 的 GPT 模型为例,你只需要在 OpenAI 官网申请一个 API Key,然后在评测配置文件中设置好这个密钥和相应的模型参数就可以开始评测了。评测过程中,评测框架会自动向模型服务发送测试用例,获取模型的回复并进行打分分析。整个过程你不需要准备任何模型文件,也不用担心本地计算资源是否足够,只要确保网络连接正常即可。

考虑到 openai 的 API 服务暂时在国内无法直接使用,我们这里以评测 internlm 模型为例,介绍如何评测 API 模型。

  1. 打开网站浦语官方地址 书生·浦语 获得 api key 和 api 服务地址 (也可以从第三方平台 硅基流动 获取), 在终端中运行:export INTERNLM_API_KEY=xxxxxxxxxxxxxxxxxxxxxxx # 填入你申请的 API Key
  2. 配置模型: 在终端中运行 cd /root/opencompass/ 和 touch opencompass/configs/models/openai/puyu_api.py, 然后打开文件, 贴入以下代码:

    import os
    from opencompass.models import OpenAISDK
    internlm_url = 'https://internlm-chat.intern-ai.org.cn/puyu/api/v1/' # 你前面获得的 api 服务地址
    internlm_api_key = os.getenv('INTERNLM_API_KEY')

    models = [
        dict(
            # abbr='internlm2.5-latest',
            type=OpenAISDK,
            path='internlm2.5-latest', # 请求服务时的 model name
            # 换成自己申请的APIkey
            key=internlm_api_key, # API key
            openai_api_base=internlm_url, # 服务地址
            rpm_verbose=True, # 是否打印请求速率
            query_per_second=0.16, # 服务请求速率
            max_out_len=1024, # 最大输出长度
            max_seq_len=4096, # 最大输入长度
            temperature=0.01, # 生成温度
            batch_size=1, # 批处理大小
            retry=3, # 重试次数
        )
    ]

  3. 配置数据集: 在终端中运行 cd /root/opencompass/ 和 touch opencompass/configs/datasets/demo/demo_cmmlu_chat_gen.py, 然后打开文件, 贴入以下代码:

    from mmengine import read_base

    with read_base():
        from ..cmmlu.cmmlu_gen_c13365 import cmmlu_datasets


    # 每个数据集只取前2个样本进行评测
    for d in cmmlu_datasets:
        d['abbr'] = 'demo_' + d['abbr']
        d['reader_cfg']['test_range'] = '[0:1]' # 这里每个数据集只取1个样本, 方便快速评测.

  4. 完成模型配置后需要在终端中运行: python run.py --models puyu_api.py --datasets demo_cmmlu_chat_gen.py --debug. 预计运行10分钟后, 得到结果:

注意:一定要确保环境成功激活并且安装包位于正确的路径下,否则无法成功run.py运行脚本,需要重新下载安装包。

Logo

开源鸿蒙跨平台开发社区汇聚开发者与厂商,共建“一次开发,多端部署”的开源生态,致力于降低跨端开发门槛,推动万物智联创新。

更多推荐