Python构建密码泄露检测器：实用指南与代码实现

2025年6月18日 • 6 min • Mickael Saidi

Capture d'écran d'un vérificateur de fuites de mots de passe en Python

想象一下：多年来，您一直在多个网站上使用同一个密码。一天早上，您收到一条警报，提示您的凭据正在暗网上流传。这种情况并非假设——它每天都会发生在成千上万的用户身上。然而，大多数开发人员并不知道如何主动检查自己的密码是否已被泄露。

与人们可能认为的相反，您无需成为网络安全专家即可创建基本的保护工具。用不到 50 行 Python 代码，您就可以构建一个使用真实泄露数据的密码泄露检查器。本文将逐步指导您创建这样一个工具，解释为什么这种方法比手动检查更有效，以及如何将其集成到您的开发工作流程中。

为什么要扫描文本文件中的明文密码？

在检查密码是否在线泄露之前，首先需要确保它没有以明文形式存储在您的代码或配置文件中。正如 Spiceworks Community 的一位用户所指出的，在文本文件中查找硬编码密码是 IT 团队真正关心的问题。我们将要开发的 Python 脚本可以进行调整，以扫描目录中类似密码的字符串——这是一条经常被忽视的第一道防线。

传统方法是寻找特定模式，但正如 Spiceworks 上的讨论所指出的，这种方法有其局限性。像“P@ssw0rd2025!”这样的密码可能会逃脱基于“password”一词的搜索。这就是为什么我们的工具将首先专注于通过已知泄露数据库进行外部验证。

Have I Been Pwned API：您对抗泄露的盟友

我们检测器的核心将依赖于 Have I Been Pwned (HIBP) API，这是由 Troy Hunt 维护的一项服务，它汇总了数十亿个被泄露的账户。我们不会传输明文密码，而是使用 k-匿名技术：只发送密码 SHA-1 哈希值的前缀，从而保护隐私。然后，API 返回与该前缀匹配的完整哈希列表，我们将在本地与完整哈希进行比较。

这种方法在 DEV Community 的一篇文章中有所描述，代表了在不暴露原始密码的情况下检查泄露的推荐方法。它结合了效率和隐私保护——这两个在安全工具中常常相互矛盾的方面。

代码：一个三部分的 Python 脚本

1. 安装依赖项

我们的脚本只需要 `requests` 库，您可以通过 pip 安装：

pip install requests

2. 安全哈希函数

import hashlib
import requests

def check_password_leak(password):
    # 创建密码的 SHA-1 哈希值
    sha1_hash = hashlib.sha1(password.encode('utf-8')).hexdigest().upper()
    prefix = sha1_hash[:5]
    suffix = sha1_hash[5:]
    
    # 查询 HIBP API
    url = f"https://api.pwnedpasswords.com/range/{prefix}"
    response = requests.get(url)
    
    if response.status_code == 200:
        hashes = (line.split(':') for line in response.text.splitlines())
        for h, count in hashes:
            if h == suffix:
                return True, int(count)
        return False, 0
    else:
        raise Exception("API 请求失败")

3. 简单的用户界面

def main():
    print("=== 密码泄露检查器 ===")
    password = input("请输入要检查的密码：")
    
    try:
        leaked, count = check_password_leak(password)
        if leaked:
            print(f"⚠️  此密码已在 {count} 次数据泄露中被发现。")
            print("建议：请立即更改。")
        else:
            print("✅ 此密码未在已知泄露中发现。")
            print("注意：这并不保证其强度或安全性。")
    except Exception as e:
        print(f"错误：{e}")

if name == "main":
    main()

超越检查：安全生成与存储

检查泄露只是问题的一部分。如果您的密码被泄露，就需要更换——但换成什么呢？正如 Stack Overflow 所指出的，在 Python 3.6+ 上，应使用 `secrets` 模块来生成密码学上安全的密码。以下是一个补充示例：

import secrets
import string

def generate_secure_password(length=16):
    alphabet = string.ascii_letters + string.digits + string.punctuation
    return ''.join(secrets.choice(alphabet) for _ in range(length))

一旦生成新密码，就出现了存储问题。Stack Overflow 上的另一个帖子正好讨论了这个问题：如何在 Python 脚本中安全地存储凭据？解决方案包括本地加密、使用专用密码保险库，以及使用个人访问令牌，如 Microsoft 为 Azure DevOps 描述的文档中所述。

实际应用与局限性

这个基础脚本可以通过多种方式扩展：

自动扫描配置文件以查找硬编码密码（如 Spiceworks Community 中提到的）
将检查集成到 CI/CD 管道中，以便在敏感凭据被意外提交时发出警报
为非技术团队创建一个简单的 Web 界面

然而，它也有重要的局限性。它只针对 HIBP 中已有记录的泄露进行检查。一个弱但尚未泄露的密码会通过测试。这就是为什么 KnowledgeHut 在其网络安全项目列表中包含了密码强度测试项目——这两种方法是互补的。

未来：当深度学习遇上密码安全

研究方面出现了一种引人入胜的方法：使用深度学习来识别文件或代码中的密码。SpecterOps 上介绍的 DeepPass 项目使用深度学习模型来检测各种上下文中的“密码候选者”。虽然比我们的简单脚本更复杂，但这个方向展示了人工智能未来如何自动化危险配置的检测。

结论：将安全作为日常实践

用 Python 构建密码泄露检查器不仅仅是一项技术练习——它是在面对数字风险时采取积极主动的心态。通过了解这些工具的工作原理，您能更好地评估自己实践和项目中的安全性。

这里展示的代码是一个起点。您可以扩展它以处理密码列表、添加基本的强度测试，或将其集成到定期审计中。在一个据 DEV Community 文章称有数十亿凭据在暗网上流传的世界里，这几行 Python 代码可能意味着虚幻的安全与真实保护之间的区别。

从测试您自己的密码开始——结果可能会让您大吃一惊。然后，与您的团队分享这个工具。安全不仅仅是专家的事；它是一种始于可访问工具的集体责任。

进一步阅读

DEV Community - 密码泄露：开发者须知 - 使用 Python 检测密码泄露的教程
Spiceworks Community - 在文本文件中查找硬编码密码 - 关于在文件中查找明文密码的讨论
SpecterOps - DeepPass — 使用深度学习查找密码 - 使用深度学习的先进方法
KnowledgeHut - 顶级网络安全项目 - 实用网络安全项目列表
Stack Overflow - 在 Python 中生成密码 - 生成密码的最佳实践
Stack Overflow - 在 Python 中安全存储用户名和密码 - 安全存储凭据的选项
Microsoft Learn - 使用个人访问令牌 - 关于个人访问令牌的文档