视频有效视觉特征提取与实验研究(4)

基于内容的视频检索仍然是一门新兴学科，还有许多关键技术没有被很好的
解决。目前这些关键技术主要包括：
2.5 综合多特征的检索技术
视频信息包括颜色、纹理、运动等多种特征，即使对于同一种特征，也有不
同的表示方法。这些特征从不同的角度表示视频特征，而如何有机地组织这些特
征，使应用能够调用合适的特征和特征表示来支持查询，并按照用户的查询要求
合并各种特征的检索结果，是一个值得研究的问题。综合利用两种和多种视觉特
征，容易达到较高的检索率[3]。
2.6 高层概念和低层特征的关联
人们在日常生活中习惯使用简便的事物概念，例如用词语“树林、汽车、海
滩”等概念表达具体的含义，在查询中，很多情况下也是使用这些概念，它们属
于多媒体数据的高层内容。如果能够建立视频数据底层特征与高层语义概念的关
联，就能够使计算机自动抽取视频数据的语义。对于一般性的特征，建立起这种
关联是非常困难的。但是针对多媒体信息检索而言，可以采用语义模板、机器学
习、神经网络等方法，以及在用户交互的辅助下，突破从底层特征获取语义的壁垒。
2.7 高文索引技术
因为视频内容的特征极其丰富，对于索引能力的要求大大大于常规数据库，
因此需要研究新的索引结构和算法，以支持快速检索。目前，一般采用先减少文
数，然后再用适当的多文索引结构的方法。虽然过去己经取得了一些进展，例如
k-d树、R-树以及改进的索引树结构，但仍然需要研究和探索有效的高文索引方
法，以支持多特征、异构特征、权重、主键特征方面的查询要求。
2.8 用户接口查询
用户的查询接口除了提供示例和描绘查询基本接口之外，应提供丰富的交互
能力，使用户在主动的交互过程中表达对媒体语义的感知，调整查询参数及其组
合，最终获得满意的查询结果。用户的查询接口应该是直观易用的，底层的特征
选择对用户是透明的。这里涉及到如何把用户的查询表达转换为可以执行检索的
特征矢量，如何从交互过程中获取用户的内容感知，以便选择合适的检索特征等问题。
2.9 性能评价
需要有一套能够平衡表达各种场景和事物的标准测试数据来评价检索的效
率和效果。这是一项复杂的工作，要召集领域专家收集大量有代表意义的视频数
据，以便能够测试各种算法的效率:在此基础上，定义标准的性能评价准则，如
检索率、查准率、查全率、响应时间等。这样就可以利用标准的检索性能评价准
则来全面检验算法的性育旨[4]。视频有效视觉特征提取与实验研究(4):http://www.751com.cn/jisuanji/lunwen_6627.html