哈希表

哈希表是一种非常高效的数据结构，广泛用于存储键值对，并允许在平均情况下以常数时间复杂度进行查找、插入和删除操作。

文章目录

1. 哈希表的基本概念

1.1 哈希函数 (Hash Function)

哈希表的核心是哈希函数，它将一个任意长度的输入（称为键）映射到一个固定大小的输出（称为哈希值或散列值）。哈希函数的目的是尽可能均匀地分布哈希值，以减少冲突。

特点：

确定性: 对于相同的输入，始终产生相同的输出。
高效计算: 计算速度快，便于在实际应用中使用。
均匀分布: 尽量将键映射到哈希表的不同位置，以减少冲突。

1.2 冲突 (Collision)

由于哈希函数的输出空间有限（通常是固定大小的数组），两个不同的键可能被映射到相同的哈希值。这种情况称为冲突（或碰撞）。处理冲突是哈希表设计中的一个重要问题。

2. 哈希表的基本结构

哈希表通常由一个固定大小的数组组成，每个元素称为一个槽位（bucket）。我们通过哈希函数将键映射到数组的某个索引位置，并在该位置存储对应的值。

2.1 开放地址法 (Open Addressing)

开放地址法通过寻找下一个可用的空槽位来处理冲突。常见的策略包括：

线性探测 (Linear Probing) :
- 如果发生冲突，检查数组中下一个位置是否为空，直到找到一个空槽位。
二次探测 (Quadratic Probing) :
- 使用二次函数（如 h(key) + i^2）来计算下一个位置的索引。
双重哈希法 (Double Hashing) :
- 使用两个哈希函数生成步长，逐步查找空槽位。

2.2 链地址法 (Separate Chaining)

链地址法通过在每个槽位中存储一个链表（或其他数据结构）来处理冲突。当多个键映射到同一位置时，它们被组织成一个链表，顺序插入和删除。

3. 哈希表的操作

3.1 查找 (Lookup)

要查找某个键对应的值，哈希表执行以下步骤：

使用哈希函数计算键的哈希值，并确定其在数组中的索引位置。
根据冲突处理方法，检查该位置或相关位置是否存储了所需的键。
如果找到匹配的键，则返回对应的值；否则，表示查找失败。

3.2 插入 (Insertion)

插入操作与查找类似，但涉及将新的键值对存储在哈希表中：

计算哈希值并确定索引位置。
根据冲突处理方法，选择合适的槽位存储键值对。
- 对于开放地址法，寻找下一个空槽位。
- 对于链地址法，在相应链表的末尾添加新的节点。

3.3 删除 (Deletion)

删除操作需要移除特定键值对：

查找该键对应的槽位。
根据冲突处理方法，正确移除键值对。
- 对于开放地址法，可能需要重新安排后续元素以保持顺序。
- 对于链地址法，从链表中删除相应的节点。

4. 哈希表的性能分析

4.1 加载因子 (Load Factor)

加载因子是哈希表中已存储键值对的数量与数组大小的比例。其计算公式为：

$\text{加载因子} = \frac{\text{元素数量}}{\text{数组大小}}$

加载因子直接影响哈希表的性能：

低加载因子: 减少冲突，但浪费空间。
高加载因子: 提升空间利用率，但增加冲突概率。

4.2 时间复杂度

在理想情况下（即没有冲突时），哈希表的操作可以在常数时间内完成： $O(1)$

然而，在实际应用中，由于冲突的存在，时间复杂度会有所增加。平均情况下，时间复杂度仍为 $O(1)$ ，但在最坏情况下可能退化到 $O(n)$ 。

4.3 扩容和收缩 (Rehashing)

随着哈希表的使用，其加载因子可能会逐渐上升或下降。为了维持高效的性能，通常会在适当的时候进行扩容或收缩：

扩容: 当加载因子超过某个阈值（如0.75）时，将数组大小增加，并重新计算所有键的哈希值以分配新的位置。
收缩: 当加载因子低于另一个阈值（如0.25）时，缩小数组大小并重新哈希。

5. 哈希表的应用场景

哈希表因其高效的操作特性，在许多领域都有广泛应用：

缓存 (Caching) : 使用哈希表快速存储和检索频繁访问的数据。
集合操作 (Set Operations) : 检查元素的存在性、合并或交集等操作。
数据库索引: 实现高效的查找和排序功能。
语言特性 (Language Features) : 例如，Python中的字典（dict）就是基于哈希表实现的。

6. 哈希表的实现示例

下面是一个简单的链地址法哈希表的Python实现：

class HashNode:
    def __init__(self, key, value):
        self.key = key
        self.value = value
        self.next = None

class HashMap:
    def __init__(self, size=10):
        self.size = size
        self.table = [None] * self.size

    def _hash_function(self, key):
        return hash(key) % self.size

    def insert(self, key, value):
        index = self._hash_function(key)
        new_node = HashNode(key, value)

        if not self.table[index]:
            self.table[index] = new_node
        else:
            current = self.table[index]
            while True:
                if current.key == key:
                    # Update existing key
                    current.value = value
                    return
                if current.next is None:
                    break
                current = current.next
            current.next = new_node

    def search(self, key):
        index = self._hash_function(key)
        current = self.table[index]

        while current:
            if current.key == key:
                return current.value
            current = current.next
        return None

    def delete(self, key):
        index = self._hash_function(key)
        current = self.table[index]
        previous = None

        while current:
            if current.key == key:
                if previous:
                    previous.next = current.next
                else:
                    self.table[index] = current.next
                return True
            previous = current
            current = current.next
        return False

    def display(self):
        for i, bucket in enumerate(self.table):
            print(f"Bucket {i}: ", end="")
            current = bucket
            while current:
                print(f"{current.key} -> {current.value}", end=" ")
                current = current.next
            print()

# 示例用法
hash_map = HashMap(5)
hash_map.insert("apple", 1)
hash_map.insert("banana", 2)
hash_map.insert("cherry", 3)

print(hash_map.search("banana"))  # 输出: 2

hash_map.delete("banana")
hash_map.display()

解释：

HashNode类: 表示哈希表中的一个节点，包含键、值和指向下一个节点的指针。
HashMap类: 实现哈希表的基本操作，包括插入、查找和删除。
- _hash_function: 计算键的哈希值并映射到数组索引。
- insert: 将键值对插入哈希表中。如果发生冲突，则使用链地址法处理。
- search: 查找指定键对应的值。
- delete: 删除指定键及其对应的值。
- display: 打印当前哈希表的内容。

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30