文件md5校验

发表于2023-03-21|更新于2023-03-21|学习

|浏览量:

从网络上下载大文件时，官网一般都会提供一个MD5、SHA1或SHA256值,这是用来校验文件完整性的。因为从网络上下载大文件具有不确定性，可能会受很多因素影响，比如网络抖动导致文件下载不完成，文件被恶意篡改等，这些问题都会导致最终下载的文件无法正常使用。

针对小文件（＜500MB）

直接以二进读模式（rb）加载进来，然后计算。

import hashlib


def encrypt(fpath: str, algorithm: str) -> str:
    with open(fpath, 'rb') as f:
        return hashlib.new(algorithm, f.read()).hexdigest()


if __name__ == '__main__':
    for algorithm in ('md5', 'sha1', 'sha256'):
        hexdigest = encrypt('test.file', algorithm)
        print(f'{algorithm}: {hexdigest}')

针对大文件（500MB~1GB）

为了更友好地视觉体验，可以增加一个进度条。（进度条用 rich 实现，安装：pip install rich）

import hashlib

import rich.progress


def encrypt(fpath: str, algorithm: str) -> str:
    with rich.progress.open(fpath, 'rb') as f:
        return hashlib.new(algorithm, f.read()).hexdigest()


if __name__ == '__main__':
    for algorithm in ('md5', 'sha1', 'sha256'):
        hexdigest = encrypt('test.file', algorithm)
        print(f'{algorithm}: {hexdigest}')

针对超大文件（＞1GB）

为了避免内存溢出，按块读取并迭代计算。

import hashlib

import rich.progress


def encrypt(fpath: str, algorithm: str) -> str:
    with rich.progress.open(fpath, 'rb') as f:
        hash = hashlib.new(algorithm)
        for chunk in iter(lambda: f.read(2**20), b''):
            hash.update(chunk)
        return hash.hexdigest()


if __name__ == '__main__':
    for algorithm in ('md5', 'sha1', 'sha256'):
        hexdigest = encrypt('ubuntu-22.04-desktop-amd64.iso', algorithm)
        print(f'{algorithm}: {hexdigest}')

Reading... ---------------------------------------- 3.7/3.7 GB 0:00:00
md5: 7621da10af45a031ea9a0d1d7fea9643
Reading... ---------------------------------------- 3.7/3.7 GB 0:00:00
sha1: 8a73a36f38397974d5517b861a68577514ef694e
Reading... ---------------------------------------- 3.7/3.7 GB 0:00:00
sha256: b85286d9855f549ed9895763519f6a295a7698fb9c5c5345811b3eefadfb6f07

文章作者: 望

文章链接: https://m42-orion.github.io/2023/03/21/%E5%B7%A5%E5%85%B7-%E6%96%87%E4%BB%B6md5%E6%A0%A1%E9%AA%8C/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源念念不忘，必有回响！

python 取证 Windows

相关推荐

获取exe文件图标

lnk文件图标需要找到对应的exe文件所在真实路径才能获取图标，不能够直接获取。dll与没有指定图标的exe文件获取图标会报错。 1234567891011121314151617181920212223242526272829303132333435363738import win32guiimport win32uifrom PIL import Imageimport win32com.clientdef pra_lnk(file_path:str): """解析lnk文件""" shell = win32com.client.Dispatch("WScript.Shell") shortcut = shell.CreateShortCut(file_path) return shortcut.Targetpathdef get_ico_from_exe(file_path:str): ...

RAG-什么是chunking

什么是 Chunking？在自然语言处理（NLP）和文本分析领域，Chunking（分块）是一种将文本分割成有意义的、可管理的片段的技术。这些片段通常被称为“块”（chunks），可以是短语、句子、段落或其他有意义的语言单元。Chunking 的目标是从文本中提取出结构化的信息，以便更好地理解和处理语言数据。 Chunking 的基本概念Chunking 的核心思想是将连续的文本分割成更小的、有意义的单元。与简单的分词（tokenization）不同，Chunking 不仅仅是把文本拆分成单词，而是将这些单词组合成更大的语义单元。例如，在句子“The quick brown fox jumps over the lazy dog”中，Chunking 可能会将“The quick brown fox”识别为一个名词短语（NP），而“jumps over the lazy dog”识别为一个动词短语（VP）。 Chunking 的应用场景信息提取：Chunking 可以帮助从文本中提取出关键信息，如人名、地名、日期、组织机构等。例如，在新闻文章中，Chunking...

RAG-python库Chonkie的使用

使用 Python 库 Chonkie 快速上手在自然语言处理（NLP）领域，文本分块（chunking）是一种常见的任务，它将长文本分割成更小的块，以便于后续处理和分析。无论是构建 RAG（Retrieve-Augment-Generate）模型，还是进行大规模文本处理，分块都是一项基础且关键的步骤。然而，现有的许多分块工具要么功能过于复杂，要么过于简陋，难以满足开发者的实际需求。幸运的是，现在有了 Chonkie —— 一个简单易用的 Python 库，它专注于提供高效且灵活的文本分块解决方案。本文将详细介绍如何使用 Chonkie 快速上手文本分块，并通过几个实际示例展示其强大的功能。什么是 Chonkie？Chonkie 是一个轻量级的 Python 库，旨在简化文本分块的过程。它提供了多种分块策略，包括基于句子的分块、递归分块、语义分块和双通道合并分块等，能够满足不同场景下的需求。Chonkie 的设计目标是简单、高效且易于扩展，让开发者能够专注于核心业务逻辑，而不是被复杂的分块逻辑所困扰。安装 Chonkie在开始之前，您需要先安装...

anaconda与python

是什么Python是一种广泛使用的编程语言，它以其简洁的语法和强大的库支持而闻名。然而，Python在科学计算和数据分析领域中的使用受到了一些限制。为了解决这个问题，Anaconda应运而生，它是一个用于科学计算的Python发行版，它包含了Python解释器、大量的科学计算库和工具，以及一个包管理器conda。 Python与Anaconda的关系Python与Anaconda之间的关系非常密切。Anaconda是一个基于Python的发行版，它包含了Python解释器、大量的科学计算库和工具，以及一个包管理器conda。因此，Python是Anaconda的基础，而Anaconda则提供了Python在科学计算和数据分析领域中的强大支持。 Python与Anaconda的区别Python与Anaconda在安装源、安装方式、环境管理和包管理方面有一些区别。Python的官方源是Python Package Index (PyPI)，而Anaconda的官方源是Anaconda Repository。PyPI上的包可能不是官方版本，而Anaconda...

conda与pip的区别conda install 和 pip install 是两种常用的Python包管理工具,它们都可以用来安装和管理Python库。但是,它们在安装源和安装方式上有一些区别。安装源 conda install 使用的是Anaconda的官方源,而pip install 可以指定任意源来安装库。因此,conda install 安装的库通常都是官方版本的库,而pip install 安装的库可能是官方版本的库,也可能是其他版本的库。安装方式 conda install 使用的是Anaconda的包管理器,它会在安装库时自动处理依赖关系,并将其安装到Anaconda的虚拟环境中。因此,使用conda install 安装的库都是独立的,不会影响系统中的其他Python库。而pip install 安装的库则是直接安装到系统Python的site-packages目录中,可能会与其他库发生冲突。影响或问题 (1) 版本冲突由于pip install...

hello world12345678910#FileName: HelloWorld.java public class HelloWorld #如果有 public 类的话，类名必须和文件同名，注意大小写 { #Java 入口程序，程序从此入口 public static void main(String[] args) { #向控制台打印一条语句 System.out.println("Hello,World!"); } } 123456#include <stdio.h> int main() #main 入口函数 { printf("Hello,World!"); #printf 函数打印 return 1; #函数返回值 } 1234567891011#include <iostream> ...