从CSV到JSON：gh_mirrors/co/collection数据格式全攻略

The Museum of Modern Art (MoMA) collection data项目提供了纽约现代艺术博物馆的珍贵藏品数据，包含艺术家和艺术品的详细信息。本指南将帮助你轻松掌握项目中CSV与JSON两种格式数据的特点、转换方法及应用场景，让你快速上手使用这些宝贵的文化数据资源。## 认识MoMA数据：CSV与JSON双格式解析MoMA数据集包含两个核心数据文件：艺术家数据和艺

gitblog_00094

497人浏览 · 2026-02-20 03:11:52

gitblog_00094 · 2026-02-20 03:11:52 发布

从CSV到JSON：gh_mirrors/co/collection数据格式全攻略

【免费下载链接】collection The Museum of Modern Art (MoMA) collection data 项目地址: https://gitcode.com/gh_mirrors/co/collection

The Museum of Modern Art (MoMA) collection data项目提供了纽约现代艺术博物馆的珍贵藏品数据，包含艺术家和艺术品的详细信息。本指南将帮助你轻松掌握项目中CSV与JSON两种格式数据的特点、转换方法及应用场景，让你快速上手使用这些宝贵的文化数据资源。

认识MoMA数据：CSV与JSON双格式解析

MoMA数据集包含两个核心数据文件：艺术家数据和艺术品数据，均提供CSV和JSON两种格式，方便不同场景下的使用需求。

数据概览：两种格式的核心价值

Artists.csv：包含15,766位艺术家的基本元数据，包括姓名、国籍、性别、出生年份、死亡年份等关键信息。
Artists.json：与CSV版本内容一致，但采用JSON格式存储，更适合程序处理和API交互。
Artworks.csv：记录了160,120件藏品的详细信息，涵盖标题、艺术家、创作日期、媒介、尺寸及入藏日期等。
Artworks.json：对应CSV版本的JSON格式，提供结构化数据支持。

这些数据采用CC0协议发布到公共领域，任何人都可以自由使用、修改和分发，为艺术研究、教育和创新应用提供了丰富的素材。

CSV格式：表格化数据的经典选择

CSV（逗号分隔值）格式以其简单直观的表格结构成为数据交换的常用格式。以Artists.csv为例，其数据组织方式如下：

Artist ID,Name,Nationality,Gender,Birth Year,Death Year,Wiki QID,Getty ULAN ID
1,"Abbott, Berenice",American,Female,1898,1991,Q106321,500021903
2,"Abbott, Lemuel Francis",British,Male,1760,1803,Q106322,500004299
...

CSV格式的优势在于：

易于使用Excel、Google Sheets等电子表格软件打开和编辑
占用存储空间小，Artists.csv仅1MB左右
适合批量导入数据库或进行简单的数据筛选和排序

JSON格式：结构化数据的现代标准

JSON（JavaScript对象表示法）格式采用键值对结构，更适合程序处理和复杂数据关系表达。Artists.json的基本结构如下：

[
  {
    "Artist ID": 1,
    "Name": "Abbott, Berenice",
    "Nationality": "American",
    "Gender": "Female",
    "Birth Year": 1898,
    "Death Year": 1991,
    "Wiki QID": "Q106321",
    "Getty ULAN ID": "500021903"
  },
  ...
]

JSON格式的优势在于：

支持复杂的嵌套结构和数据类型
便于API接口返回和前端JavaScript处理
自描述性强，数据字段含义清晰

快速上手：获取与使用MoMA数据集

一键获取完整数据集

要开始使用MoMA数据集，首先需要克隆项目仓库：

git clone https://gitcode.com/gh_mirrors/co/collection

克隆完成后，你将在项目根目录下看到所有数据文件：

Artists.csv
Artists.json
Artworks.csv
Artworks.json

选择合适的文件格式

根据你的使用场景选择合适的数据格式：

数据分析与可视化：优先选择CSV格式，可直接用Excel、Python Pandas或R进行处理
应用程序开发：推荐使用JSON格式，便于解析和集成到各类编程语言中
大数据处理：Artworks.csv约72MB，Artworks.json约3.5MB，可根据处理能力选择

实用技巧：CSV与JSON格式转换指南

虽然项目已提供两种格式的文件，但了解格式转换方法能帮助你应对更多数据处理场景。

使用Python实现格式转换

以下是一个简单的Python脚本，可将CSV文件转换为JSON格式：

import csv
import json

def csv_to_json(csv_file_path, json_file_path):
    data = []
    with open(csv_file_path, encoding='utf-8') as csvf:
        csv_reader = csv.DictReader(csvf)
        for row in csv_reader:
            data.append(row)
    
    with open(json_file_path, 'w', encoding='utf-8') as jsonf:
        json.dump(data, jsonf, indent=4)

# 转换艺术家数据
csv_to_json('Artists.csv', 'Artists_converted.json')
# 转换艺术品数据
csv_to_json('Artworks.csv', 'Artworks_converted.json')

处理大型CSV文件的技巧

由于Artworks.csv文件较大（约72MB），处理时可能需要注意内存占用：

分块读取：使用Pandas的chunksize参数分批次处理
筛选必要列：只读取需要的字段，减少内存占用
使用命令行工具：如csvkit或jq进行高效处理

数据应用：MoMA数据集的创意用法

MoMA数据集为艺术爱好者、研究者和开发者提供了丰富的创意空间：

艺术研究与分析

分析不同时期艺术家的国籍分布
研究艺术媒介的演变趋势
探索藏品入藏时间与艺术流派的关系

教育与展览应用

创建交互式艺术家时间线
开发虚拟艺术展览
设计艺术史学习工具

开发创意应用

构建艺术品推荐系统
开发艺术家关系图谱
创建艺术风格识别模型

注意事项：数据使用规范

在使用MoMA数据集时，请遵守以下准则：

图片资源：数据集中不包含艺术品图片，如需使用图片请联系Art Resource（北美地区）或Scala Archives（北美以外地区）获取授权。
数据更新：MoMA会定期更新数据集，建议定期同步最新版本以获取准确信息。
归属声明：请在使用时明确注明数据来源为MoMA，并尽可能引用数字对象标识符：10.5281/zenodo.18670512。
数据完整性：部分记录可能存在信息不完整或未经过馆长审核的情况，使用时请注意数据质量。

总结：释放艺术数据的价值

gh_mirrors/co/collection项目提供的MoMA数据集为艺术研究和创新应用打开了大门。通过本指南，你已经了解了CSV与JSON两种格式的特点、获取方法和使用技巧。无论是进行数据分析、开发应用程序还是开展艺术研究，这些数据都能为你提供丰富的素材和灵感。

现在就克隆项目，开始探索这个包含16万件艺术品和1.5万名艺术家的丰富数据集吧！如有任何问题或发现数据错误，请通过collection@moma.org联系MoMA团队。

【免费下载链接】collection The Museum of Modern Art (MoMA) collection data 项目地址: https://gitcode.com/gh_mirrors/co/collection

开源鸿蒙跨平台开发者社区

开源鸿蒙跨平台开发社区汇聚开发者与厂商，共建“一次开发，多端部署”的开源生态，致力于降低跨端开发门槛，推动万物智联创新。

更多推荐

如何用C++ ORM库ormpp简化数据库操作开发：现代C++17的终极解决方案

在现代C++开发中，数据库操作往往需要编写大量重复的SQL代码和数据转换逻辑，这不仅降低开发效率，还容易引入错误。ormpp作为一款基于C++17标准的现代ORM（对象关系映射）库，通过将数据库表映射为C++对象，让开发者可以用面向对象的方式操作数据库，彻底告别繁琐的SQL拼接和手动数据绑定。本文将带你快速掌握ormpp的核心功能和使用方法，让数据库开发变得简单高效。## 🚀 为什么选择or

开源鸿蒙跨平台开发者社区

Flutter鸿蒙应用开发：应用更新检测功能集成实战（含深色模式适配）

开源鸿蒙跨平台开发者社区

深入理解鸿蒙PC 三方库构建系统中的HPKCHECK文件

在OpenHarmony生态系统中，开发者经常需要使用各种第三方C/C++库来加速开发进程。为了确保这些库在OpenHarmony平台上能够正常工作，需要对其进行适配、编译和测试。今天我们要聊的HPKCHECK文件，就是这个构建系统中专门用于测试验证的重要组件。HPKCHECK是OpenHarmony三方库构建框架lycium中的一个测试脚本文件。简单来说，它的作用就是在真实的OpenHarmon