跳转至

空间复杂度

约 1362 个字 148 行代码 预计阅读时间 9 分钟

「空间复杂度 space complexity」用于衡量算法占用内存空间随着数据量变大时的增长趋势。这个概念与时间复杂度非常类似,只需将“运行时间”替换为“占用内存空间”。

算法相关空间

算法在运行过程中使用的内存空间主要包括以下几种。

  • 输入空间:用于存储算法的输入数据。
  • 暂存空间:用于存储算法在运行过程中的变量、对象、函数上下文等数据。
  • 输出空间:用于存储算法的输出数据。

一般情况下,空间复杂度的统计范围是“暂存空间”加上“输出空间”。

暂存空间可以进一步划分为三个部分。

  • 暂存数据:用于保存算法运行过程中的各种常量、变量、对象等。
  • 栈帧空间:用于保存调用函数的上下文数据。系统在每次调用函数时都会在栈顶部创建一个栈帧,函数返回后,栈帧空间会被释放。
  • 指令空间:用于保存编译后的程序指令,在实际统计中通常忽略不计。

在分析一段程序的空间复杂度时,我们通常统计暂存数据、栈帧空间和输出数据三部分

算法使用的相关空间

/* 函数 */
int func() {
    // 执行某些操作...
    return 0;
}

int algorithm(int n) { // 输入数据
    const int a = 0;   // 暂存数据(常量)
    int b = 0;         // 暂存数据(变量)
    int c = func();    // 栈帧空间(调用函数)
    return a + b + c;  // 输出数据
}

推算方法

空间复杂度的推算方法与时间复杂度大致相同,只需将统计对象从“操作数量”转为“使用空间大小”。

而与时间复杂度不同的是,我们通常只关注最差空间复杂度。这是因为内存空间是一项硬性要求,我们必须确保在所有输入数据下都有足够的内存空间预留。

观察以下代码,最差空间复杂度中的“最差”有两层含义。

  1. 以最差输入数据为准:当 \(n < 10\) 时,空间复杂度为 \(O(1)\) ;但当 \(n > 10\) 时,初始化的数组 nums 占用 \(O(n)\) 空间;因此最差空间复杂度为 \(O(n)\)
  2. 以算法运行中的峰值内存为准:例如,程序在执行最后一行之前,占用 \(O(1)\) 空间;当初始化数组 nums 时,程序占用 \(O(n)\) 空间;因此最差空间复杂度为 \(O(n)\)
void algorithm(int n) {
    int a = 0;               // O(1)
    int b[10000];            // O(1)
    if (n > 10)
        int nums[n] = {0};   // O(n)
}

在递归函数中,需要注意统计栈帧空间。例如在以下代码中:

  • 函数 loop() 在循环中调用了 \(n\)function() ,每轮中的 function() 都返回并释放了栈帧空间,因此空间复杂度仍为 \(O(1)\)
  • 递归函数 recur() 在运行过程中会同时存在 \(n\) 个未返回的 recur() ,从而占用 \(O(n)\) 的栈帧空间。
int func() {
    // 执行某些操作
    return 0;
}
/* 循环 O(1) */
void loop(int n) {
    for (int i = 0; i < n; i++) {
        func();
    }
}
/* 递归 O(n) */
void recur(int n) {
    if (n == 1) return;
    return recur(n - 1);
}

常见类型

设输入数据大小为 \(n\) ,下图展示了常见的空间复杂度类型(从低到高排列)。

\[ \begin{aligned} O(1) < O(\log n) < O(n) < O(n^2) < O(2^n) \newline \text{常数阶} < \text{对数阶} < \text{线性阶} < \text{平方阶} < \text{指数阶} \end{aligned} \]

常见的空间复杂度类型

常数阶 \(O(1)\)

常数阶常见于数量与输入数据大小 \(n\) 无关的常量、变量、对象。

需要注意的是,在循环中初始化变量或调用函数而占用的内存,在进入下一循环后就会被释放,因此不会累积占用空间,空间复杂度仍为 \(O(1)\)

/* 函数 */
int func() {
    // 执行某些操作
    return 0;
}

/* 常数阶 */
void constant(int n) {
    // 常量、变量、对象占用 O(1) 空间
    const int a = 0;
    int b = 0;
    int nums[1000];
    ListNode *node = newListNode(0);
    free(node);
    // 循环中的变量占用 O(1) 空间
    for (int i = 0; i < n; i++) {
        int c = 0;
    }
    // 循环中的函数占用 O(1) 空间
    for (int i = 0; i < n; i++) {
        func();
    }
}

线性阶 \(O(n)\)

线性阶常见于元素数量与 \(n\) 成正比的数组、链表、栈、队列等:

/* 哈希表 */
struct hashTable {
    int key;
    int val;
    UT_hash_handle hh; // 基于 uthash.h 实现
};

typedef struct hashTable hashTable;

/* 线性阶 */
void linear(int n) {
    // 长度为 n 的数组占用 O(n) 空间
    int *nums = malloc(sizeof(int) * n);
    free(nums);

    // 长度为 n 的列表占用 O(n) 空间
    ListNode **nodes = malloc(sizeof(ListNode *) * n);
    for (int i = 0; i < n; i++) {
        nodes[i] = newListNode(i);
    }
    // 内存释放
    for (int i = 0; i < n; i++) {
        free(nodes[i]);
    }
    free(nodes);

    // 长度为 n 的哈希表占用 O(n) 空间
    hashTable *h = NULL;
    for (int i = 0; i < n; i++) {
        hashTable *tmp = malloc(sizeof(hashTable));
        tmp->key = i;
        tmp->val = i;
        HASH_ADD_INT(h, key, tmp);
    }

    // 内存释放
    hashTable *curr, *tmp;
    HASH_ITER(hh, h, curr, tmp) {
        HASH_DEL(h, curr);
        free(curr);
    }
}

如下图所示,此函数的递归深度为 \(n\) ,即同时存在 \(n\) 个未返回的 linear_recur() 函数,使用 \(O(n)\) 大小的栈帧空间:

/* 线性阶(递归实现) */
void linearRecur(int n) {
    printf("递归 n = %d\r\n", n);
    if (n == 1)
        return;
    linearRecur(n - 1);
}

递归函数产生的线性阶空间复杂度

平方阶 \(O(n^2)\)

平方阶常见于矩阵和图,元素数量与 \(n\) 成平方关系:

/* 平方阶 */
void quadratic(int n) {
    // 二维列表占用 O(n^2) 空间
    int **numMatrix = malloc(sizeof(int *) * n);
    for (int i = 0; i < n; i++) {
        int *tmp = malloc(sizeof(int) * n);
        for (int j = 0; j < n; j++) {
            tmp[j] = 0;
        }
        numMatrix[i] = tmp;
    }

    // 内存释放
    for (int i = 0; i < n; i++) {
        free(numMatrix[i]);
    }
    free(numMatrix);
}

如下图所示,该函数的递归深度为 \(n\) ,在每个递归函数中都初始化了一个数组,长度分别为 \(n\)\(n-1\)\(\dots\)\(2\)\(1\) ,平均长度为 \(n / 2\) ,因此总体占用 \(O(n^2)\) 空间:

/* 平方阶(递归实现) */
int quadraticRecur(int n) {
    if (n <= 0)
        return 0;
    int *nums = malloc(sizeof(int) * n);
    printf("递归 n = %d 中的 nums 长度 = %d\r\n", n, n);
    int res = quadraticRecur(n - 1);
    free(nums);
    return res;
}

递归函数产生的平方阶空间复杂度

指数阶 \(O(2^n)\)

指数阶常见于二叉树。观察下图,高度为 \(n\) 的“满二叉树”的节点数量为 \(2^n - 1\) ,占用 \(O(2^n)\) 空间:

/* 指数阶(建立满二叉树) */
TreeNode *buildTree(int n) {
    if (n == 0)
        return NULL;
    TreeNode *root = newTreeNode(0);
    root->left = buildTree(n - 1);
    root->right = buildTree(n - 1);
    return root;
}

满二叉树产生的指数阶空间复杂度

对数阶 \(O(\log n)\)

对数阶常见于分治算法。例如归并排序,输入长度为 \(n\) 的数组,每轮递归将数组从中点划分为两半,形成高度为 \(\log n\) 的递归树,使用 \(O(\log n)\) 栈帧空间。

再例如将数字转化为字符串,输入一个正整数 \(n\) ,它的位数为 \(\log_{10} n + 1\) ,即对应字符串长度为 \(\log_{10} n + 1\) ,因此空间复杂度为 \(O(\log_{10} n + 1) = O(\log n)\)

权衡时间与空间

理想情况下,我们希望算法的时间复杂度和空间复杂度都能达到最优。然而在实际情况中,同时优化时间复杂度和空间复杂度通常是非常困难的。

降低时间复杂度通常需要以提升空间复杂度为代价,反之亦然。我们将牺牲内存空间来提升算法运行速度的思路称为“以空间换时间”;反之,则称为“以时间换空间”。

选择哪种思路取决于我们更看重哪个方面。在大多数情况下,时间比空间更宝贵,因此“以空间换时间”通常是更常用的策略。当然,在数据量很大的情况下,控制空间复杂度也是非常重要的。