HarborDB 提供强大的导出功能，可以将查询结果保存为多种格式。无论您需要与同事共享数据、导入到其他应用程序，还是将结果存档以供后续分析，本指南都涵盖了高效、安全地导出数据所需了解的一切。

导出格式概览

HarborDB 支持多种导出格式，每种格式适用于不同的使用场景：

CSV（逗号分隔值）

最适合：电子表格（Excel、Google Sheets）、数据导入/导出、基本数据交换
功能：自定义分隔符、标题行、文本限定符、编码选项
限制：不支持分层数据、数据类型保留有限

JSON（JavaScript 对象表示法）

最适合：Web 应用程序、API、NoSQL 数据库、数据交换
功能：美观打印、紧凑格式、保留数据类型
限制：文件较大、不适合电子表格

Excel（即将推出）

最适合：业务报告、格式化的电子表格、复杂的数据呈现
功能：多个工作表、公式、格式化、图表
状态：计划在将来版本中发布

基本导出流程

步骤 1：准备数据

执行查询或在侧边栏中选择表
查看结果以确保包含要导出的数据
考虑筛选如果只需要特定的行或列

步骤 2：开始导出

有几种方式可以开始导出：

从查询结果导出

点击结果工具栏中的导出按钮（📤）
或右键单击结果网格中的任意位置
从上下文菜单中选择"导出结果"

从表导航导出

在侧边栏中右键单击表
选择"导出数据"
选择导出范围：
- 整个表：所有数据（对于大型表请谨慎使用）
- 前 N 行：有限的样本（建议用于测试）
- 自定义查询：编写特定的 SELECT 语句

键盘快捷键

⌘ + E：快速导出对话框
⌘ + Shift + E：使用上次使用的设置导出

步骤 3：配置导出设置

导出对话框提供配置选项：

常规设置

文件名：自动生成或自定义名称
保存位置：选择文件夹目标
包含标题：将列名作为第一行（CSV）
编码：UTF-8（推荐）、Latin-1 或系统默认

CSV 特定选项

分隔符：逗号、分号、制表符、竖线或自定义字符
文本限定符：单引号、双引号或无
行结束符：macOS/Linux（LF）、Windows（CRLF）或系统默认
NULL 表示：空字符串、"NULL" 或自定义文本

JSON 特定选项

格式：美观（人类可读）或紧凑（最小化）
数组格式：对象数组或具有数据属性的对象
包含元数据：查询执行信息、列类型、时间戳

步骤 4：执行和验证

**点击"导出"**保存文件
监视大型导出的进度
验证文件大小和内容
打开导出的文件确认格式

高级导出技术

导出特定的数据子集

列选择

通过修改查询仅导出特定列：

-- 而不是 SELECT *
SELECT customer_id, email, last_purchase_date
FROM customers
WHERE active = true;

行筛选

使用 WHERE 子句限制导出的数据：

-- 仅导出最近的数据
SELECT * FROM orders
WHERE order_date >= CURRENT_DATE - INTERVAL '30 days';

聚合数据

导出汇总结果：

-- 导出每日销售总额
SELECT
    DATE(order_date) as day,
    COUNT(*) as order_count,
    SUM(total_amount) as daily_revenue
FROM orders
GROUP BY DATE(order_date)
ORDER BY day DESC;

批量导出

对于超出内存限制的大型数据集：

分块导出

-- 以每批 10,000 行导出
SELECT * FROM large_table
ORDER BY id
LIMIT 10000 OFFSET 0;

-- 然后增加 OFFSET 用于下一批
SELECT * FROM large_table
ORDER BY id
LIMIT 10000 OFFSET 10000;

服务器端游标

在首选项 → 性能中启用服务器端游标，以便在不引起内存问题的情况下流式传输大型结果集。

计划导出（高级）

虽然 HarborDB 没有内置的计划功能，但您可以：

将导出查询保存为文件
使用 macOS Automator 运行导出
使用 cron 或 launchd 进行计划（高级用户）
导出到受监控的文件夹以进行自动化处理

格式特定指南

CSV 导出最佳实践

数据准备

清理可能破坏 CSV 解析的特殊字符：

-- 删除或转义文本字段中的逗号
SELECT
    id,
    REPLACE(description, ',', ';') as description,
    amount
FROM products;

处理文本字段中的换行符：

-- 将换行符替换为空格
SELECT
    id,
    REPLACE(REPLACE(notes, CHR(10), ' '), CHR(13), ' ') as notes_clean
FROM customer_notes;

易于导入的 CSV 设置

为了与其他应用程序最大程度兼容：

| 应用程序 | 推荐设置 | | ------------------- | ------------------------------------------------------- | | Excel | 逗号分隔符、双引号限定符、UTF-8 编码 | | Google Sheets | 逗号分隔符、默认编码 | | Python/R Pandas | 逗号分隔符、无文本限定符 | | PostgreSQL COPY | 逗号分隔符、CSV 标题、双引号引用 |

JSON 导出最佳实践

结构化数据导出

-- 导出分层数据
SELECT
    order_id,
    order_date,
    JSON_BUILD_OBJECT(
        'customer_id', c.customer_id,
        'name', c.name,
        'email', c.email
    ) as customer,
    JSON_AGG(
        JSON_BUILD_OBJECT(
            'product_id', p.product_id,
            'name', p.name,
            'quantity', oi.quantity,
            'price', oi.price
        )
    ) as items
FROM orders o
JOIN customers c ON o.customer_id = c.customer_id
JOIN order_items oi ON o.order_id = oi.order_id
JOIN products p ON oi.product_id = p.product_id
GROUP BY o.order_id, o.order_date, c.customer_id, c.name, c.email;

JSON 架构考虑

一致的结构：确保所有行具有相同的键
数据类型：JSON 保留字符串、数字、布尔值、null
嵌套深度：考虑为某些应用程序展平结构

性能优化

大型数据集导出

内存管理

在首选项 → 性能中启用流式模式
增加块大小以加快导出速度（如果有足够的 RAM）
关闭其他应用程序以释放系统资源
监视活动监视器以了解内存使用情况

网络考虑

对于远程数据库导出：

尽可能在服务器上导出（使用 SSH 或远程桌面）
压缩导出（HarborDB 自动压缩大型 JSON）
安排在非高峰时段导出生产数据库
使用 WHERE 子句限制数据传输

导出速度提示

仅选择需要的列（不要使用 SELECT *）
避免在导出查询中进行昂贵的计算
在 WHERE 子句中使用索引列
导出到 SSD以获得更快的磁盘 I/O
暂时禁用导出文件夹上的防病毒实时扫描

安全和隐私

敏感数据处理

数据脱敏

-- 导出时不包含敏感信息
SELECT
    user_id,
    LEFT(email, 3) || '***@***' as email_masked,
    '***' as password_hash,
    created_at
FROM users;

合规性考虑

GDPR/CCPA：删除个人可识别信息（PII）
HIPAA：去标识化受保护的健康信息（PHI）
PCI DSS：切勿导出完整的信用卡号
内部政策：遵循组织的数据处理规则

安全的导出实践

使用 macOS FileVault 或第三方工具加密敏感导出
为导出的文件使用安全的传输方法（SFTP、加密电子邮件）
设置适当的文件权限（敏感文件使用 chmod 600）
自动删除临时导出文件
审计导出日志（在首选项 → 日志中可用）

常见问题故障排除

CSV 问题

"Excel 中列错位"

原因：数据中嵌入了逗号或换行符
解决方案：使用文本限定符或在导出前清理数据

"字符编码问题"

原因：数据中包含非 UTF-8 字符
解决方案：导出时使用带 BOM 的 UTF-8 编码以兼容 Excel

"大型文件导入错误"

原因：Excel 行/列限制（1,048,576 行，16,384 列）
解决方案：拆分数据或使用无限制的 CSV 工具

JSON 问题

"无效的 JSON 语法"

原因：特殊字符未正确转义
解决方案：使用 PostgreSQL JSON 函数清理数据

"大型导出时内存错误"

原因：尝试将整个数据集加载到内存中
解决方案：启用流式导出或分块导出

"嵌套数据太复杂"

原因：深层嵌套的 JSON 难以解析
解决方案：展平结构或简化查询

一般问题

"导出太慢"

可能原因：网络延迟、磁盘速度、查询性能
调试步骤：
1. 首先使用小型数据集测试
2. 检查网络连接
3. 验证磁盘是否有可用空间
4. 优化数据库查询

"导出中缺少数据"

检查：WHERE 子句筛选器、列选择、NULL 处理
验证：行数是否符合预期、是否包含所有列

"权限被拒绝错误"

解决方案：
1. 选择不同的保存位置
2. 检查文件夹权限
3. 以适当的权限运行 HarborDB
4. 暂时禁用安全软件

与其他工具的集成

使用脚本自动化

Shell 脚本示例

#!/bin/bash
# 导出每日报告并通过电子邮件发送
EXPORT_FILE="/Users/$(whoami)/Exports/daily_sales_$(date +%Y%m%d).csv"

# 您需要在此处编写 HarborDB 操作的脚本
# 考虑使用 PostgreSQL 命令行工具进行自动化
pg_dump -t sales -c --inserts your_database > "$EXPORT_FILE"

# 压缩并通过电子邮件发送
gzip "$EXPORT_FILE"
echo "每日销售导出已附加" | mail -s "每日销售报告" \
  -a "$EXPORT_FILE.gz" team@example.com

导入到其他应用程序

Excel/Google Sheets

CSV：通过数据 → 从文本/CSV 直接导入
JSON：使用 Power Query（Excel）或 Apps Script（Sheets）

数据库系统

-- PostgreSQL COPY 命令（从导出的 CSV）
COPY customers FROM '/path/to/export.csv' DELIMITER ',' CSV HEADER;

-- MySQL LOAD DATA
LOAD DATA LOCAL INFILE '/path/to/export.csv'
INTO TABLE customers
FIELDS TERMINATED BY ','
ENCLOSED BY '"'
LINES TERMINATED BY '\n'
IGNORE 1 ROWS;

编程语言

# Python pandas 示例
import pandas as pd

# 读取 HarborDB CSV 导出
df = pd.read_csv('export.csv', encoding='utf-8')
print(f"导入了 {len(df)} 行")

# 或 JSON 导出
df_json = pd.read_json('export.json', orient='records')

最佳实践总结

导出前

首先使用小型数据集测试
验证查询结果是否符合预期
检查可用磁盘空间
考虑数据敏感性和合规性要求

导出过程中

根据使用场景选择适当的格式
使用带有日期的描述性文件名
包含标题/元数据以提高清晰度
监视大型导出的进度

导出后

验证文件完整性（打开并检查样本）
保护敏感文件（如有需要则加密）
清理临时文件
记录导出过程以便可重现

后续步骤

现在您可以有效地导出数据：

查询基础 - 掌握 SQL 查询编写
数据库导航 - 探索数据库结构
性能优化 - 优化导出速度
macOS 集成 - 使用原生 macOS 功能

获取帮助

如果您遇到导出问题：

**查看我们的支持指南**进行故障排除
**访问常见问题解答**了解常见问题
**联系支持**获取个性化帮助

HarborDB 中的数据导出