前阵子和一个金融机构的安全负责人交流,他提到他们正在研究把声纹识别用于VIP客户的身份认证。电话一接通,系统自动识别声音,匹配成功就开始办理业务,听起来确实很方便。但我问他一个问题的时候他愣住了:如果有人录了客户的语音,然后用这段录音进行身份验证,系统能识别出来吗?他想了想说,目前的声纹识别系统大多数还不能有效区分真实人声和录音重放。
这就是声纹识别技术面临的核心安全风险。
声纹识别,也叫说话人识别,是通过分析人的声音特征来确认身份的技术。每个人的声道、口腔、鼻腔形状不同,发声习惯、语速、语调也各有差异,这些差异累积起来形成了独特的声音特征。声纹识别技术就是提取这些特征,和预先注册的声纹模板进行比对,如果相似度达到阈值,就认为是同一个人。
这个技术听起来很成熟了对吧?但实际应用中的安全问题比很多人想象的要严重。
第一类风险,录音重放攻击。
这是最直接也最容易实现的攻击方式。只需要有一个目标人的录音,在声纹识别系统前播放这段录音,系统就可能通过验证。录音从哪里来?可以是电话录音、会议的公开音频、社交平台发布的视频语音。现在社交平台上很多高管都有公开讲话的视频,声音质量足够好。拿到这些录音之后,攻击者用一台普通的智能手机或者笔记本电脑在声纹识别设备前播放,就能发起攻击。即使有些系统加入了活体检测,比如要求用户随机说一段文字而不是固定密码,但很多系统并没有这个机制,或者即使有,实现的质量也很差,可以被绕过。
我见过一个真实的测试。测试人员用一段从公开采访中截取的音频来测试某银行的电话声纹识别系统,第一次就通过了,准确率百分之九十几。这个结果让在场的人都冒冷汗。这是公开采访里截取的音频,如果是商务会议或者饭局上偷偷录的音,同样有效。
第二类风险,语音合成攻击,也就是深度伪造语音。
这是更高级的攻击方式。随着深度学习技术的发展,语音合成已经可以达到以假乱真的程度。只需要几分钟甚至几十秒的目标人语音素材,就能训练出一个声音模型,然后合成任何内容的语音。你说什么内容,算法就能让合成语音说什么内容,声音和原人几乎一模一样。目前已经有开源的语音合成工具,技术门槛已经降得很低了。一个懂技术的个人就能在自己的电脑上完成语音合成。合成的语音不仅能通过普通人的耳朵判断,也能绕过一部分声纹识别系统的检测。
2023年就发生过一个震惊行业的事件。攻击者使用深度伪造的语音冒充一家英国能源公司的CEO,成功说服德国母公司的CEO转账了22万欧元。这起案件中攻击者模仿了CEO的德语口音和说话习惯,连"请马上处理这笔转账,很紧急"这样的语气都模仿得惟独妙惟肖。这不是科幻电影,这是已经发生的事实。
第三类风险,声纹模板被窃取。
声纹识别系统需要预先注册用户的声纹模板。这些模板以特征向量的形式存储在服务器或者本地数据库中。如果数据库的安全性不够,声纹模板就有可能被窃取。和密码不一样,密码被窃取了可以改,声纹被窃取了没法改。你的声音就是你身体的一部分,除非你的声带受损或者改变了发声习惯,否则声纹特征很难改变。一旦声纹模板被窃取,攻击者就可以基于模板逆向还原出接近原人特征的合成语音,或者针对模板的特征改进攻击方式。这在信息安全领域被称为"不可撤销的生物特征"问题。
第四类风险,环境噪声的影响。
声纹识别在安静环境下的识别率还行,但在噪声环境下性能会显著下降。很多企业考虑将声纹识别用于开放办公环境或者公共场所的身份验证,这些地方的背景噪音大、多人同时说话,声纹识别的准确率会受到影响。更麻烦的是,攻击者可以在背景中混入干扰噪声,降低系统的识别能力,让系统进入降级模式或者触发人工验证环节,然后利用社会工程手段绕过人工验证。
那么声纹识别到底能不能用?我的看法是,可以用,但不能盲目用,要把安全设计做到位。
下面说说防护措施。
第一,多模态融合认证。不要把声纹识别作为唯一认证手段。应该和其他认证方式结合使用,比如人脸识别、指纹识别、一次性密码或者硬件令牌。举个例子,电话银行的场景下,声纹识别可以作为辅助手段加速客户识别,但大额交易必须配合短信验证码或者App确认才能执行。这样的多模态认证显著提高了攻击难度。
第二,活体检测技术必须到位。声纹识别系统必须包含有效的活体检测能力,能区分真人说话和录音重放。常见的活体检测方法包括随机提示验证、高频超声波检测、嘴唇运动分析等。随机提示是要求用户重复一段随机生成的数字序列或者短语,因为合成的音频很难做到实时响应随机内容。高频超声波检测是通过扬声器发射人耳听不见的高频信号,检测麦克风接收到的环境变化,真人说话和播放录音在超声反射特征上是有差异的。这些技术虽然不能百分之百防住所有攻击,但能把攻击门槛提升很多。
第三,声纹模板的存储安全。声纹模板不能以原始特征形式存储,应该做哈希化处理或者加密存储,而且加密密钥要和声纹数据分开保管。同时建议定期更新声纹模板,随着年龄、健康状况的变化,人的声音会缓慢变化,定期更新模板也有助于减少因声学特征变化带来的误拒率。
第四,异常检测和监控。对声纹认证请求进行异常行为分析。比如某个人在一分钟之内连续发起几十次认证请求,或者同一个账号在短时间内从不同的IP地址和地区发起认证,这些都可能是攻击的迹象,应该触发告警和临时锁定机制。
第五,建立反欺诈数据共享机制。同行业之间可以建立声纹欺诈情报共享机制,当某个声纹识别系统检测到深度伪造攻击时,将攻击样本的特征和攻击时间、攻击方式等信息共享给其他机构。这样可以提升整个行业的防护能力。
第六,用户风险告知和备份方案。使用声纹识别系统的机构应该明确告知用户声纹识别的安全风险和局限,同时提供备用的认证方式,防止在声纹识别系统被攻破或者失效时用户无法完成身份验证。
最后我想说的是,任何一种生物特征识别技术都存在安全风险。声纹识别确实有方便快捷的优点,但我们在享受便利的时候,一定不能忽视它带来的风险。如果一个系统的安全性完全建立在对一种单一生物特征的信任上,那这个系统的安全基础是非常脆弱的。
北京企密安信息安全技术有限公司 咨询热线:010-63711822






