使用hashlib分块读取文件可安全计算哈希值,支持MD5、SHA1、SHA256等算法,避免内存溢出。
在 Python 中,可以使用内置的 hashlib 模块来计算文件的哈希值。常见的哈希算法如 MD5、SHA1、SHA256 都支持。由于文件可能较大,不能一次性全部读入内存,因此需要分块读取并逐步更新哈希对象。
计算文件哈希的核心思路是:
以下是一个通用函数,用于计算任意文件的 SHA256 哈希值:
def calculate_file_hash(filepath, algorithm='sha256'): hash_obj = hashlib.new(algorithm) with open(filepath, 'rb') as f: chunk_size = 8192 while chunk := f.read(chunk_size): hash_obj.update(chunk) return hash_obj.hexdigest()import hashlib
file_path = 'example.txt'
print(calculate_file_hash(file_path))
如果只想用 SHA256,也可以直接使用 hashlib.sha256() 初始化:
def get_sha256(filepat
h):
hash_sha256 = hashlib.sha256()
with open(filepath, 'rb') as f:
for chunk in iter(lambda: f.read(8192), b""):
hash_sha256.update(chunk)
return hash_sha256.hexdigest()
你可以通过传参选择不同哈希算法:
def file_checksum(filepath, algo='md5'): hash_func = getattr(hashlib, algo.lower(), None) if not hash_func: raise ValueError(f"不支持的算法: {algo}")hash_obj = hash_func()
with open(filepath, 'rb') as f:
for chunk in iter(lambda: f.read(4096), b""):
hash_obj.update(chunk)
return hash_obj.hexdigest() print(file_checksum('data.zip', 'md5'))
print(file_checksum('data.zip', 'sha1'))
常见算法包括:md5、sha1、sha256、sha512 等。
基本上就这些。使用 hashlib 分块处理文件,既能准确计算哈希,又避免内存溢出问题。