Go解析CSV/JSON常见问题包括:字段截断需设FieldsPerRecord和TrimPrefix去BOM;类型错乱须手动转换;大文件应流式处理防OOM;路径用filepath.Join适配跨平台;存在性检查需区分错误类型。
encoding/csv 读取 CSV 文件时字段被截断或类型错乱Go 的 csv.Reader 默认不自动处理引号包裹的字段(如含逗号、换行的单元格),也不做类型推断。如果 CSV 含 "John, Jr." 这类字段但没设 FieldsPerRecord 或未调用 ReadAll(),容易只读到 "John 就报错。
reader.Comma = ','(显式声明分隔符,避免 BOM 或空格干扰)reader.Read() 逐行读取时,检查返回错误是否为 io.EOF,而非直接 panicreader.FieldsPerRecord = -1 允许变长行(仅限明确需要)strconv.Atoi 或 strconv.ParseFloat,csv 包不做任何类型转换file, _ := os.Open("data.csv")
defer file.Close()
reader := csv.NewReader(file)
reader.Comma = ','
records, err := reader.ReadAll()
if err != nil {
log.Fatal(err) // 不要忽略 err
}
for _, r := range records {
name := r[0] // 始终是 string
age, _ := strconv.Atoi(r[1]) // 手动转
}
invalid character '' looking for beginning of value
这个错误几乎全是编码问题:文件含 UTF-8 BOM(EF BB BF)或保存为 UTF-16/GBK,而 json.Unmarshal 只接受纯 UTF-8。Go 标准库不自动 strip BOM。
bytes.TrimPrefix(data, []byte("\xef\xbb\xbf")) 清除 UTF-8 BOMos.ReadFile 后丢给 json.Unmarshal,先检查前几个字节
json:"field_name" 标签匹配 key 名,否则反序列化后字段为空*Address),避免空对象被忽略data, _ := os.ReadFile("config.json")
data = bytes.TrimPrefix(data, []byte("\xef\xbb\xbf"))
var cfg struct {
Port int `json:"port"`
Host string `json:"host"`
}
err := json.Unmarshal(data, &cfg)
if err != nil {
log.Fatal(err)
}
csv.ReadAll() 和 json.Unmarshal 都是一次性加载全部内容进内存。100MB CSV 文件可能膨胀到 300MB+ 内存占用,尤其含大量字符串时。
reader.Read() 流式处理,每行处理完立刻释放引用json.Unmarshal 整体解析,改用 json.Decoder 配合 struct 或 map[string]interface{} 逐段解码decoder.Token() 手动跳过无关字段,减少分配bufio.NewReader 缓冲区大小,默认 4KB 可能太小,大文件建议设为 64KB+file, _ := os.Open("big.json")
defer file.Close()
dec := json.NewDecoder(bufio.NewReaderSize(file, 65536))
for dec.More() {
var item map[string]interface{}
if err := dec.Decode(&item); err != nil {
break // 处理单条失败,不中断整个流
}
process(item)
}
硬编码 "./data/file.csv" 在 Windows 下会因路径分隔符导致 os.Open 报 no such file or directory;用 os.Stat 判断文件存在时,没区分“不存在”和“权限不足”也会误判。
filepath.Join("data", "file.csv") 构造路径,自动适配 / 或 \
os.Stat 返回 nil 表示成功,非 nil 错误需用 errors.Is(err, os.ErrNotExist) 显式判断是否存在info.Mode().IsRegular() && info.Mode().Perm()&0400 != 0
{ 或 name,email),避免误读二进制文件文件解析真正的复杂点不在语法,而在边界:编码、内存、路径、权限、字段语义。这些地方不显式处理,跑本地测试永远 OK,一上生产就出 silent fail。