阅读提示
建议先通读一遍,再回看题目、开头、过渡和结尾,更容易提炼出可借鉴的写作框架。
现在公共场合摄像头越来越多,但光有画面不够,得能快速找人。比如地铁站里孩子走丢了,或者车站发现可疑人员,靠人力盯屏幕效率太低。我的论文就是研究怎么让计算机更聪明地从不同摄像头里自动识别出同一个人。
先得弄明白这活儿难在哪。同一个人,在不同镜头下姿势会变(有时正面有时背影),光线也不一样(白天晚上、室内外),穿着还可能换(比如加件外套)。更头疼的是不同摄像头拍出来分辨率有高低,画面里还总有别人挡着。早期的办法主要靠手工设计特征,比如衣服颜色、纹理,但一遇到复杂情况就容易抓瞎。
这几年深度学习火了,给这领域带来新思路。我用的是基于局部特征融合的模型。简单说,不光看这个人整体,还把他分成好几块(头、上身、腿等)分别分析,最后把信息拼起来判断。这样即使他背对着镜头,或者只拍到半身,也能靠其他部分的特征来认。我还用了注意力机制,让模型自己学会重点该看哪里(比如一个鲜亮的背包可能比普通的裤子更有辨识度)。
光有模型不行,训练数据很重要。我用的是Market-1501和DukeMTMC-reid这两个业内常用的公开数据集,里面有很多人在不同摄像头下走动的图像。为了模仿真实监控的复杂情况,我自己还做了数据增强,比如调整图片亮度、模拟雨天模糊效果、把人物随机截掉一部分,逼着模型在信息不全的情况下也得学会认人。
实验结果是好的。在Market-1501数据集上,我优化后的模型rank-1准确率(第一次检索就找到正确目标的概率)达到了95.2%,比一些经典方法高了差不多4个百分点。这意味着,在系统里输入一张目标人物的照片,从成千上万张抓拍图中找,第一次跳出来的结果就有95%以上的几率是对的。这在实际破案或寻人里,能省下大量筛查时间。
真用到街上还是会面临挑战。比如大规模部署的计算成本,还有对隐私保护的考量。我的研究算是在现有硬件条件下,朝着“看得更快、认得更准”迈了一步。以后也许能和步态识别、3D建模结合,让人工智能成为公共安全更可靠的帮手。