《移动终端的损坏圆片恢复技术.pdf》由会员分享,可在线阅读,更多相关《移动终端的损坏圆片恢复技术.pdf(26页珍藏版)》请在三个皮匠报告上搜索。
1、移動終端移動終端的的損損壞圖片恢複技術壞圖片恢複技術邹锦沛香港大学计算机科学系动机越来越多的犯罪案件包含JPG文件例如,嫌疑人强迫女孩拍一些裸照x事后他被捕了,但是在他被捕之前,他已经删除了证据(jpg)!问题:我们如何从存储介质中删除的片段重建文件?备注:当然,有其它的应用背景相同的文件可能会分部放在硬盘中(适用于大型文件)例如,S1S2 S10 S11.S30 S31-硬盘分为扇区(例如,每个扇区1024比特)-存储文件的位置被标记在目录中-例如,File 1:S1-S10-S11-S31但是,一旦文件被删除,该链接信息就会从目录中删除!=给定一个扇区,很难辨别它属于哪个文件。XXXS1S
2、2 S10 S11.S30 S31例如,File 1:S1-S30 -S11File 2:S31-S2-S10请注意,属于同一文件的扇区在硬盘中可能不是连续的思考一个问题:如果所有这些链接都丢失,您还可以重建文件吗?也就是说,给定S1,S2,S10,S11,S30,S31,除此之外没有其它信息,我们能做什么?XXXX问题描述假设我们从硬盘中识别出属于jpg文件的一些扇区(但是顺序未知)A3A4.A1A2.A5A6A7B3.frag2frag3frag1.B2B1我们可以重构(重排扇区)jpg图片吗?此处我们假设:(1)所有扇区仍然存在(还没有被覆盖)*;(2)目录信息已经丢失.*可以轻松找到文
3、件头已有方法的限制一个最简单的解决方案:暴力方法-检查扇区的所有排列-查看每个排列的文件N个扇区(N可以是上千)=N!的排列需要考虑:太慢而且不实际它是如何工作的?已有的最佳方案之一:Adroit Photo Forensics(APF)2013http:/digital- Photo Forensic(APF)工具的方法以文件头开始计算下一个扇区的相似度连续不连续=找到一个分段点与剩余扇区对齐以找到最佳匹配连续?基于阈值,概率假设等一个例子:假设是文件头S1S2 S3S4.S5S6(1)解压S1,然后S2,检查S1和S2之间的相似性:假设阈值,然后连接S1,S2。(2)由于下一个不是连续的,
4、我们发现了一个分段点。现在,尝试解压缩S3,S4,S5,S6,计算(S2,S3)(S2,S4)(S2,S5)(S2,S6)之间的相似度.选择最高分(例如(S2,S5),然后连接它们。分段点(3)检查S5和S6之间的相似度,但假设它小于阈值=分段点。尝试解压S3,S4,计算相似度(S5,S3),(S5,S4),例如(S5,S3)更高,就连接它们.分段点原始原始JPEG文件文件:输入入:随机随机顺序的序的8个分段个分段APF恢复的恢复的结果果:我们发现如果分段数量更多(3),那么启发式表现不佳。分段JPEG文件(Garfinkel 2001)JPEG文件%平均大小31,134字节文件数量108,5
5、39有两个分段的文件数量2,9992.76%有三个分段的文件数量4000.36%大于三个分段的文件数量13,97312.87%分段文件的总数17,37216%突出显示其局限性SoD(差异之和,Sum of Difference)R1R0(1)不是很好的相似度度量RGB 值:R0(0,0,0);R1(30,30,30);R2(0,0,90)注意:很明显,R0更像R1,然后是R2,但是SoD不能区分它们!(2)碎片点检测问题使用最佳匹配候选可能并不总是给出正确答案。另一个常用的度量:欧几里得距离(ED)ED=1/n(xi yi)2我们也会展示这个度量并不总是好的。注意:我们不是说ED和SoD总是坏
6、的度量。我们改进的方案我们改进的方案15SoD和ED都集中在边界像素之间的绝对差异。对于具有不同颜色(如树叶)的区域,可能会被错误地识别为碎片点贡献 1:我们提出了解决这个问题的改进措施。+SoDx ED如果这里出现碎片,可能无法连接这些扇区!然而,附近的行显示相似的ED/SoD值0 55将其切成4个分段APF欧几里德距离的一致性(CED)CED=|EDboundary EDnearby|边界下一个扇区0 10贡献2:我们还扩大候选的发现启发式而不是仅仅找到“下一个”最佳候选,我们保持m个最好的下一个候选,对于这些m个候选中的每一个,我们找到下一个候选,然后使用这个向前看的步骤重新确认这些m中
7、的哪一个是正确的。一个粗略的例子:假设S1是文件头S1S2 S3S4.S5S6(1)解压S1,然后S2,检查S1和S2之间的相似度(我们使用CED):假设阈值,连接S1,S2。(2)然后,我们发现了一个分段点。现在,尝试解压S3,S4,S5,S6,计算(S2,S3)(S2,S4)(S2,S5)(S2,S6)之间的相似度。选择最高分(例如(S2,S5),我们还没有连接他们,但考虑最高的分数。例如m=2(可能是S5,S3)分段点(3)考虑S5和S3的下一个扇区,例如(S2,S5,S6)vs(S2,S3,S4):(S2,S3,S4)的总体得分较高,然后将S2与S3连接。实验实验(1)CED vs S
8、oD and ED-图像从数码相机下载/拍摄。-CED,SoD,ED用于连接相邻行。-一个错误匹配(FM)=如果两个相邻的行没有最高相似性度量。.CED EDSoD100(3648x2048)图像1,829115,142 128,8050.89%56.22%62.89%59100100#FMFM rate#files w FM(2)Carving 性能187张(87张顺序图片+100张碎片图片)图片由数码相机随机生成文件数我们的方法APF8787877978650Sequential2 fragments3 fragments4 fragments6 fragments对
9、于碎片文件,我们的方法可以恢复97个文件,而APF可以恢复78个文件。我们分析了三个失败案例:2个是由于一个小片段(对于CED不够大),另一个是由于图片颜色的剧烈变化。结论结论*我们提出一个新的jpg文件carving算法*关键思想包括新的相似性度量(CED)和分段点匹配的首m个最佳匹配。*在我们的实验中,我们的方法的性能显示优于APF。CED EDSoD(a)1000个低分辨率(1024x768)图像132,529381,112 491,77517.26%49.62%64.03%95410001000错误匹配数错误匹配率有错误匹配的文件数*未解决的问题(b)仍然不能处理一些“困难”的情况,例如颜色非常不同/非常相似的颜色。谢谢