从 105 秒到 3.4 秒：Go 程序如何极速处理 10 亿行数据

当面对 10 亿行、13GB 文本文件 时，你的第一反应可能是："Go 能行吗？"

一、挑战背景

在本地测试前，先生成一个大文件：

package main

运行后得到一个 measurements.txt，可以直接用于后续测试。

scanner := bufio.NewScanner(file)

观察输入：温度都是 两位整数 + 一位小数，范围有限。我们没必要用通用的浮点解析器（strconv.ParseFloat），可以直接按字节解析：

func parseTemp(b []byte) int {
    // 自定义解析逻辑
}

bufio.Scanner 每次调用会有切片和边界处理开销。改用大 buffer，自己按 \n 分割：

buf := make([]byte, 1<<20) // 1MB

标准库的 map[string] 要做字符串哈希、分配内存，代价高。我们实现自己的哈希表，直接用 []byte 存 key：

type entry struct {
    // 自定义哈希表结构
}

最后一招：利用多核。将文件切分成多个 chunk，多个 goroutine 并行处理，最后合并结果。

numCPU := runtime.NumCPU()

下面是整合所有优化的完整程序（含并行 + 自定义哈希表 + 手写解析）：

package main

在我的机器上：

性能提升近 30 倍！

这就是 Go 的魅力：你既能快速写出清晰可读的代码，又能在需要时挖掘出接近底层的性能潜力。

One Billion Row Challenge (1BRC)

访问地址：https://benhoyt.com/writings/go-1brc/