基于 PaddleNLP 的中文敏感数据智能脱敏系统
本文导读:介绍一个开源的中文敏感数据智能脱敏系统,结合 正则匹配 和 深度学习NER 双重识别策略,支持四种脱敏模式,提供 Web 和 Docker 一键部署。 前言在数据驱动的时代,个人隐私保护已成为不可忽视的议题。无论是企业的日志系统、客服对话记录,还是数据分析报告,都可能包含大量敏感信息——手机号、身份证号、银行卡号、姓名等。 《个人信息保护法》和《数据安全法》的实施,对数据脱敏提出了更高要求。传统的正则匹配方案虽然能处理结构化数据(如手机号),但面对「张三给李四转了 5000 元」这类非结构化文本时往往力不从心。 本文将介绍一个我开发的开源项目——敏感数据智能脱敏系统,它结合了正则匹配和**深度学习 NER(命名实体识别)**的优势,实现了对中文文本的智能脱敏处理。 GitHub 项目地址 系统概述核心特性 特性 说明 双重识别 正则匹配结构化数据 + NLP 识别非结构化实体 四种策略 部分脱敏、完全脱敏、占位符替换、哈希脱敏 Web 基于 Gradio 的现代化交互界面 容器化 Docker...
语音转文字不再是难题:ASRService 让音频处理更简单
引言:你是否也遇到过这些困扰?周一早上,你刚参加完一个 2 小时的项目评审会,录音文件静静躺在手机里。你知道必须整理出会议纪要,但想到要反复听录音、手动打字,就感到头疼… 采访了一位行业专家,1 小时的精彩对话需要转成文字稿。你尝试了几个在线服务,要么收费昂贵,要么识别准确率堪忧,还担心敏感内容被上传到云端… 你正在制作一期播客节目,需要为音频生成字幕。手动听写太慢,找人工转录又超出预算… 这些场景是否似曾相识?语音转文字看似简单,实际上却是很多人的效率瓶颈。今天,我要给大家介绍一个开源免费的解决方案 —— ASRService,让音频处理变得轻松简单。 什么是 ASRService?ASRService 就像一个永不疲倦的智能速记员,它可以自动将音频文件转换成文字。 核心特点 开源免费:完全开源,没有调用次数限制,想用多少次就用多少次 本地部署:数据不出本地,完全掌握在自己手里,再也不用担心隐私泄露 中英文支持:基于 OpenAI 的 Whisper 模型,对中英文识别都有不错的效果 高准确率:在安静环境下,中文普通话识别准确率可达 85%...
Prefect 3.x + Faster-Whisper:构建生产级分布式语音识别服务
前言在生产环境中处理大规模音频转录任务时,单机版 OpenAI Whisper 往往面临诸多瓶颈: 扩展性受限:单机处理能力有限,无法应对突发流量 资源利用不足:GPU/CPU 资源无法动态分配,造成浪费 缺乏容错机制:任务失败后无法自动重试,需要人工介入 监控困难:缺乏统一的任务状态管理和可视化监控界面 本文将介绍如何基于 Prefect 3.x 和 Faster-Whisper 构建一个生产级的分布式语音识别服务 ASRService,实现任务编排、水平扩展、失败重试和统一监控等核心能力。 项目地址:https://github.com/daojiAnime/asr-service 一、问题背景:单机 Whisper 的局限性OpenAI Whisper 是当前最流行的开源语音识别模型,但在生产环境中直接使用存在以下问题: 1.1 性能瓶颈原版 Whisper 基于 PyTorch 实现,推理速度较慢。对于一段 10 分钟的音频,large-v3 模型在 CPU 上可能需要耗时数分钟。 1.2...
多智能体系统技术架构文档
Dong8: 面向建筑工程质量管理的多智能体协作系统摘要 (Abstract)本文提出了一种基于多智能体协作的建筑工程质量管理智能系统 Dong8。针对传统建筑质量管理中存在的数据分析效率低、知识检索困难、可视化能力不足等问题,我们设计了一个监督者-执行者(Supervisor-Executor)架构,集成了自然语言处理、混合检索、智能 SQL 生成、代码执行等多项核心技术。系统采用 LangGraph 作为多智能体编排框架,实现了数据分析智能体、知识检索智能体和可视化智能体的协同工作。 关键词:多智能体系统;建筑质量管理;混合检索;自然语言处理;智能 SQL 生成 1. 引言 (Introduction)1.1 研究背景与问题定义建筑工程质量管理是保障工程安全和质量的关键环节。传统质量管理系统主要依赖人工统计和预定义报表,存在以下突出问题: P1: 数据分析效率低下 人工统计耗时长,报表生成效率低 临时性查询需求无法快速响应 缺乏灵活的多维度分析能力 P2: 知识检索困难 技术规范文档查找困难 无法准确定位相关条款 缺乏语义理解能力 P3:...
矩形检测算法技术方案
矩形检测算法技术方案文档1. 项目概述1.1 项目定位基于 FastAPI + OpenCV 的高性能图像矩形区域检测服务,主要用于文档图像中的表格、文本框等矩形区域的自动识别与提取。 1.2 核心功能 快速检测图像中的矩形区域 支持多矩形并行检测 自适应参数调整 高性能并行处理 1.3 技术栈 Web框架: FastAPI 3.x 图像处理: OpenCV (cv2) 数值计算: NumPy 并发处理: ThreadPoolExecutor 配置管理: Pydantic Settings 2. 系统架构设计2.1 整体架构graph TB subgraph "API层 - FastAPI" A[rect_detect.py<br/>路由处理器] end subgraph "数据层 - Pydantic Models" B1[RectDetectRequest<br/>请求参数] ...
🧭 Cursor Rules 一页规范
🧭 Cursor Rules 一页规范 适用于 Cursor 编辑器(.cursor/rules/*.mdc) 目的:让 AI 始终遵循项目约定、编码规范、文档风格。 🗂️ 规则类型与层级 类型 位置 作用范围 说明 User Rules 设置 → Rules 全局 个人偏好、风格、语气 Project Rules .cursor/rules/ 当前项目 项目约定、代码规范 Memories 自动生成 临时 保存 AI 对项目的学习记忆 Legacy (.cursorrules) 项目根目录 旧格式 推荐迁移到 .mdc 📄 .mdc 文件结构1234567---description: 指定规则用途(简洁清晰)globs: src/**/*.ts, tests/**/*.tsalwaysApply: false---- 指导内容 / 编码规范 / 示例 字段说明 description:一句话描述规则用途(AI 判断相关性用) globs:匹配文件路径(仅匹配时生效) alwaysApply:true = 总是启用;false...
Agent多工具超长上下文处理方案
方案原理rag方案rag 示例: https://github.com/run-llama/llama_index/blob/df48f1d83b032aae3ec232013a11401cd26ea184/docs/docs/examples/agent/openai_agent_retrieval.ipynb#L223 https://github.com/HRI-EU/tulip_agent/blob/main/examples/tool_library_search.py https://hri-eu.github.io/tulip_agent/ 工具搜索的原理图flowchart TD A[ToolLibrary] --> B[工具管理] A --> C[向量存储] A --> D[嵌入模型] B --> E[加载工具] B --> F[搜索工具] B --> G[执行工具] B --> H[更新工具] B --> I[删除工具] E...
beartype 运行时入参校验
beartype 和 pydantic 都是 Python 中用于类型检查和数据验证的工具,但它们的设计理念和应用场景有所不同。我们来详细对比一下它们的区别,以便你根据需求选择合适的工具。 🔍 beartype vs pydantic 特性 beartype pydantic 类型检查时机 运行时类型检查 运行时类型验证 + 数据模型构建 使用场景 函数、方法、类的类型检查 数据模型验证、序列化/反序列化 自动装饰 beartype_this_package 自动装饰 不支持自动装饰,每个模型需要手动定义 性能 高效、轻量,函数级别检查 性能较高,但因为有数据模型构建和验证,开销更大 错误提示 详细的参数和返回值错误提示 报错信息详细,支持字段级别的错误提示 复杂类型支持 对复杂类型支持有限 完全支持 Union、List、Dict、嵌套模型等复杂类型 静态代码支持 兼容 Python 原生类型提示(PEP 484) 使用自定义类型提示,与 MyPy 兼容 数据转换 无数据转换功能 自动数据转换(如 str 转...
AI断片了吗?探秘大模型在超长对话中的理解能力
AI断片了吗?探秘大模型在超长对话中的理解能力我们经常需要跟大模型进行反复、冗长的对话,才能令大模型给到我们一个满意的答复。像在写作、代码补全等长上下文的创作场景,需要不断的修正大模型的回答,对未完成内容进行续写,很容易就超出了目前大模型能够支持的上下文长度。 断片原因大模型断片是可以追溯的,这里需要讲解一下大模型的前置知识。关于大模型的 token 长度,这边有一篇文章讲如何构建 GPT 模型https://daojianime.github.io/posts/60917.html,阅读这篇文章可以对 token有更深一步的理解。 token简单来说就是我们跟大模型的对话文字在多维空间的一个表达,这里 token是模型训练、推理中使用的tokenizer将文字转换成的向量,token 数量跟文字数量并不是一一对应的,因为在多维空间的表达经常会将一个词作为一个token这种操作。 在我们理解何为 token 的基础上,我们再看看为什么 token 数有限。 首先在大模型的训练中,动辄是 TB 级的训练语料,需要用到的算力目前都是 H100、A100...
个人免签方案
个人免签方案方案说明介绍个人免签国内主要是解决网银的微信+支付宝支付渠道的对接,这两种方案要进行免签的话,可以通过监听通知消息回写数据库达到转账记录的目的,通过+/-0.1 金额进行多笔订单同时转账场景下确保订单一致性。比较符合的就有 V 免签、码支付、彩虹交易等。其中只有 V 免签有良好的开源生态,因此选用 V 免签进行定制化。 方案调研手机监听Android 15 Supported vmq apk PC 监听未开源 PC 端 Linux 虚拟化itchat-uos 架构设计 Api: fastapi + python3.12 SQL DB: Postgres Cache DB: Redis Cron: apscheduler Python Lint: ruff + mypy 设计问题同时多个订单生成,如何区分不同订单支付的通过订单金额不同,以 0.1 步长形成一个梯度去生成订单,同时对 key (price+商户 ID) 使用一个超时异步锁,设置默认 1 分钟超时时间,以订单生成时间字段形成一个锁,每次查询 uid 下最后一个订单,时间超过 1...
