当前位置：乐教网→文章资讯 → 毕业论文 → 毕业论文提纲 → 本体支持的视频语义概念探测

本体支持的视频语义概念探测

本体支持的视频语义概念探测为http://www.170yx.com整理发布，类型为毕业论文提纲，本站还有更多关于论文提纲格式,毕业论文提纲范文,毕业论文提纲格式,论文提纲格式范文，毕业论文 - 毕业论文提纲的文章。

1 引言视频语义内容分析的目标是抽取视频包含的高层语义内容，为用户提供语义概念的视频浏览、检索服务，语义概念探测是实现这一目标的核心步骤，并成为近期视频语义内容分析领域的重要研究方向。

　　以往的视频概念探测主要采用基于内容的方法，即通过抽取概念具有的低层特征，学习某种关联模型（基于规则的或是基于统计机器学习的），直接的、独立的建立低层特征与概念之间的关联，探测视频概念。

　　基于规则的方法是在抽取特征的基础上，对特征进行简单或者复杂的阈值判定。这种关联模型的缺点是阈值确定难、算法不鲁棒，并且简单的阈值判断难以有效的表征概念具有的特征多样性。因此，目前采用较多的是基于统计机器学习的关联模型，即通过某个机器学习模型学习标注的样本数据中低层特征与视频概念之间的统计概率关联模式，然后采用训练好的机器学习模型对新的样本进行识别，探测视频概念。目前的研究表明，支持向量。

　　和最大熵模型（Maximum Entropy Model，简称MEM）是两类较为有效的用于概念探测的机器学习模型。

　　但是，由于语义鸿沟的存在，低层特征和高层语义的关联并不是一一对应。不同的视频概念可能具有相似的低层特征，相同的视频概念也可能具有完全不同的低层特征，基于内容的独立概念探测方法难以克服这个问题。另一方面，视频中的概念并不是独立出现的，不同的概念总是同时出现在视频帧序列中。显然，不同概念的共现性将增加低层特征模式的复杂性，进而影响独立的概念探测性能。但是，从另外一个角度思考，不同概念间的关系信息也为概念探测提供了重要的上下文信息，例如：包含“汽车”概念的视频片段，具有很大的可能包含有“道路”概念。重要的是如何有效的建模和利用这些信息。

　　针对语义概念探测存在的困难，本文提出了本体支持的视频语义概念探测方法。一方面通过定义中层语义以减小语义鸿沟，建立低层特征与高层语义关联的桥梁；另一方面利用概念间的关系和上下文语境，在概念探测中加入语义线索，提高概念探测器的语义识别能力。查看更多网络营销毕业论文。

　　而本体作为合适的知识建模工具可以有效的描述视频语义内容和建模领域知识，因此利用本体增强概念探测的语义表达和识别能力是必需的也是可行的。

　　2 本体支持的概念探测框架视频内容跨越了低层感知特征、感知特征模式、简单语义概念、复杂语义概念诸多层次，并不是简单的特征层和语义层就能表示的；更为重要的是，这种层次结构建立了视频内容从低层特征到高层语义的内在关联过程，为跨越语义鸿沟提供了有效途径。另一方面，视频语义内容分析的本质就是各个层次内容的分析抽取和各个层次之间关联的建立。

　　基于以上分析，定义感知概念和语义概念如下：

　　定义 1 感知概念 (Perception Concept)感知概念是视频中特征相似、反复出现的感知特征模式的抽象。这里的低层感知特征模式指视频流中具有相同视觉或听觉特征模式的时序或空间分割，例如：具有相同颜色特征的区域、具有相同音频特征的视频片段等，是语义概念在低层感知特征空间中最基本的表征。

　　定义 2 语义概念 (Semantic Concept)语义概念对应视频中的特定时间片段或空间区域。语义概念是用户分析视频内容时关心的基本概念；从低层特征上看，语义概念具有明显的、容易区别的低层感知特征模式，能够表现为一个感知概念或多个感知概念和其关系的组合。

　　在上述概念定义的基础上，提出视频领域知识本体和视频概念扩展本体建模上下文信息和视频低层特征与高层概念的关联关系。

　　定义视频领域知识本体（Video Knowledge Ontology，简称VKO）为一个二元组，表示视频领域知识中的概念的集合和概念间关系的集合。概念表示为一个五元组：名称、标签、关系集、同义词集、描述文本；概念间语义关系包括四类：Kind ? of 关系、Instance ? of关系、Part ? of 关系、Attribute ? of 关系。需要指出的是，在实际知识建模过程中，概念间的关系不限于上述定义几种基本关系，可以根据目标领域的具体情况定义相应的关系。

　　其中，VLO （Video Linguistic Ontology），表示视频概念扩展本体中的语言层本体，即视频内容中的语言级概念和概念间关系的集合。这里的语言级概念对应于视频内容层次结构模型中定义的视频概念。 www.170yx.com哦

　　VPO（Video Perception Ontology），表示视频概念扩展本体中的感知概念层本体，即视频内容中感知特征层中蕴含的感知特征模式和其关系的集合。

　　语义概念的探测应该从两个方面进行考虑。一方面是发现概念具有的低层特征模型，称为特征匹配。感知概念的抽象和定义建立了低层特征和视频概念两个层次之间的中间语义，避免直接建立低层特征和视频概念间的关联，减小语义鸿沟问题带来的影响。从低层特征角度看感知概念是低层特征模式的抽象，具有特征稳定性和一致性；从高层语义角度看，视频概念总是表现为若干感知概念的组合，因此感知概念也具有一定的语义。因此，首先抽取视频概念关联的感知概念，然后从感知概念中抽取低层特征训练统计机器学习模型，识别语义概念。

　　另一方面是建模并利用上下文信息增强概念探测方法的语义理解和识别能力，称为上下文信息匹配。提出的视频概念扩展本体的语言层定义了概念之间的关系，同时“概念描述”、“同义词集”、“关联概念”等概念描述属性完整、准确的描述了概念包含的上下文信息。

　　同时，利用VOCR 和语音识别技术可以从视频片段中抽取文本信息，这些文本信息中出现的概念术语为语义概念探测提供了语义线索，能够增强概念探测的准确率。本文提出的本体支持的概念探测方法。

　　视频概念探测主要分为三个部分：上下文信息匹配、特征匹配和匹配结果融合。在上下文信息匹配中，一方面通过VOCR 和语音识别技术从视频片段提取文本信息，另一方面通过视频概念扩展本体的定义获取待探测概念的描述和与其关联的概念，则二者的相关程度暗示了待探测概念出现的可能，上下文信息匹配将定量计算这种相关程度。特征匹配根据低层感知特征相似性计算视频片段中包含视频概念的可能性，首先通过视频概念扩展本体的定义获取待探测概念包含的感知概念，然后抽取视觉对象特征训练概念分类器，计算视觉对象匹配程度，同时统计视频片段包含其他感知概念的情况，计算其他感知概念匹配结果。最后，通过一种融和策略，对匹配结果进行融合，融合结果表示概念探测结果。

　　3 上下文信息匹配语义概念具有的上下文信息包括两个方面，一是概念本身的描述所蕴含的上下文信息。

　　本文在视频概念扩展本体中定义概念描述包括两个部分，一是对概念的内在性质、外在属性的详细阐述，可以帮助人们更好的理解概念；二是概念具有的同义词集，即表达同一概念的不同语言术语。例如可以将概念“爆炸”描述为：在巨大响声过后出现火光和浓烟。根据上述概念描述，如果在文本信息中探测到响声、烟、火等术语，则表明很可能该段文本对应的视频片段包含有“爆炸”概念。又如概念“美国总统”可以使用不同的语言术语表达，如“乔治.布什”、“美国国家元首”等等，如果在文本信息中探测到某个概念具有的同义词术语，则表明该段文本对应的视频可能包含有该概念，而且同义词出现的数量和频度在一定程度上反映出该概念出现的可能性大小。

　　另一方面的上下文信息表现为概念间的关系。视频概念扩展本体中定义了两类概念间关系，一类是语义关系，主要包括Kind-of，Instance-of 和Part-of 三类父子层次关系；另一类是概念共现关系，定义为不同的概念在视频中同时出现的概率大小。容易理解，具有强共现关系的概念趋向于同时出现，因此一个概念的出现可以作为另一个概念探测的有力线索；语义关系表征的是概念间的语义相关性，而从自然语言的特点来看，语义相关的概念的出现具有集中性，因此概念语义关系为概念探测提供有用的上下文信息。

　　3.1 文本匹配文本匹配通过计算概念描述文本与视频片段包含的文本之间的相似性来判断视频片段包含该概念的可能性大小。

　　视频中包含的文本信息一方面来自于视频伴随音轨中的语音信息，另一方面来自于视频中字幕、场景文字的识别，即VOCR。本文采用ScanSoft 公司开发的Nuance 系统[6]（前身为IBM 公司开发的ViaVoice 引擎）作为语音识别工具和人工方法辅助视频伴随音轨文字标注视频中的语音信息；新闻视频中的字幕包含了对视频内容的主要文本描述，因此在本文的研究中只考虑字幕文本的识别而不考虑场景文字的识别。本文采用郭金林等[7]提出的基于压缩域特征的字幕定位与文字识别作为字幕文本识别工具。通过语音识别和VOCR 抽取的文本信息记作vt。采用中科院的开源分词软件ICTCLAS[8]进行中文分词，抽取vt 中包含的词条集1 { }Ni i nt nt = = 。对于英文分词采用人工标注方法处理。

　　概念描述文本通过视频概念扩展本体中的定义获得，包括两个部分：一是概念描述d，d ∈D，D 为本体中所有概念描述集合。另一个是概念同义词集SynonymsList 。对概念描述d 进行分词，从中抽取词条集，与同义词集合并组成概念描述词条集{ } 1Mj j c d c d == 。 www.170yx.com哦

　　常用且效果较好的文本表示模型是向量空间模型[9]。在该模型中，文档空间被看作是由一组正交向量张成的向量空间，即把每一个文档看作是文档向量空间中的一个特征向量，该向量的每一个分量表示对应特征在该文档中的特征权值。对于中文文本而言，由于词条是语义最小的单位，因此一般选词条作为特征。特征通常根据词频和倒文档频率计算。根据文本向量空间模型的一般定义，本文计算视频概念C 描述文本与视频包含的文本之间的匹配程度,进一步，所有名词术语{ } i nt 具有越高的重要度乘积值，说明这两个文本集具有越高的相似度。vt,cd co 度量了两个文本集包含相同名词术语的程度，显然， vt,cd co 值越大，说明两个文本集的相似度越大。

　　通过上述计算，可以度量每一个视频概念与待探测视频片段的文本匹配程度。某个概念计算得到的匹配程度越大，说明该视频片段包含该概念的可能性越大。

　　3.2 本体概念匹配与文本匹配相同，抽取视频包含的文本集vt 和vt 中包含的名词术语集。通过匹配nt 与视频概念扩展本体中的概念定义，可以获得nt 对应的一个概念集合。直观的讲，C 中包含的概念在该段视频中出现的可能性较大。但是如何定量的度量某一个概念在vt 中拥有更重要的“地位”呢？即vt 的内容与该概念更加相关。

　　在文献中，Resnik 提出了一种概念信息内容度量方法，即度量概念与文本内容的相关程度，具有高信息内容的概念具有高的相关程度。这一方法为我们解决度量概念在视频文本vt 中的重要程度（即二者的相关程度）提供了思路。本文提出的概念匹配方法如下：

　　首先，对于概念i c ，通过视频概念扩展本体定义的关系，抽取与i c 相关的本体概念，这里定义“相关”概念为：在本体中与i c 语义距离不超过2 的概念和共现关系集中定义的与i c 具有共现关系的概念。语义距离定义为本体关系图中，两个概念间的最短路径包含的边数。

　　不难理解，对于视频概念而言，其相关概念为其父节点概念、二级父节点概念和所有兄弟节点概念。标记与i c 相关的所有概念的同义词集的合集为( ) i RT c ，则可定义i c 在文本集vt 中的似然度。

　　4 特征匹配特征匹配是从低层特征相似性的角度探测元概念，即建立视频低层感知特征与视频概念之间的关联。

　　感知概念一方面具有一致的、容易学习的低层特征模式；另一方面，视频概念扩展本体定义的概念与感知概念间的关系赋予了感知概念一定的语义。相对于从视频中单纯抽取的低层感知特征而言，抽取感知概念具有的低层特征模式更能够表征元概念与低层特征的内在关联规律。视频概念是视频概念扩展本体中定义的语义粒度最小的概念，主要通过视觉特征表现。因此，本文讨论的特征匹配主要基于感知概念中的视觉对象概念。

　　视频主要通过视觉通道承载和传递信息，视频中包含的概念总可以描述为若干个视觉对象的组合，通过视觉对象这一中层语义得到的低层特征，对于概念具有更好的区分能力，即有效的消除了低层特征与高层语义关联的不确定性。

　　基于上述思想，本文根据视频概念扩展本体定义的语义概念与感知概念之间的包含关系，抽取与概念相关的视觉对象概念。选择标注过视觉对象概念的视频数据作为训练数据集，抽取相同视觉对象概念的颜色、纹理、位置特征，训练视觉对象概念对应的视频概念分类器，选择SVM 构造分类器。这里需要指出的是，一个视频概念可能包含若干个视觉对象概念，则每一个视觉对象概念都对应一个概念分类器，不同的视觉对象刻画了概念的不同属性特征，通过对多个视觉对象概念对应的概念分类器的探测结果进行融合，得到最终的概念探测结果。

　　4.1 视觉对象的特征抽取本文分别抽取视觉对象的颜色、纹理和位置特征如下：

　　1. 7 维的HSV 颜色均值和主颜色(Dominant Color)；2. 8 维一个尺度，0° , 45° ,90° ,135°四个方向的Gabor 纹理特征；3. 构造视觉对象外接矩形，抽取2 维的对象矩形中心点位置特征，8 维的对象矩形顶点位置特征。

　　4.2 SVM 分类器构造抽取上述视觉对象特征组成特征向量，训练SVM 分类器探测概念。概念探测目标是给出视频片段中是否出现特定概念的判断，同时还要给出这种判断的置信度，即后验概率。而标准的SVM 分类器决策函数是一个符号函数，即根据决策函数的值给出肯定或否定的二值判断，用概率描述就是属于某一类的概率为1，或者不属于某一类的概率为1。因此，构造概念分类器要解决的一个重要问题就是SVM 分类器的概率化输出。

　　目前，关于 SVM 后验概率输出的研究较少，多数学者沿用了Vapnik 的计算方法和思想，研究的重点主要集中在求解二次规划的数学技巧上，或者直接将Vapnik 的计算方法应用到某一个领域得出一些应用成果。关于SVM 后验概率输出的代表性研究是由Platt 提出来的，其主要思想来源于Wuhba 关于RKHS 表示定理的研究。本文采用Platt 提出的方法，获得SVM 概率化输出。

　　对给定概念对应的不同视觉对象概念，抽取特征训练分类器，每一个分类器的输出表示根据该视觉对象判断给定的概念出现的概率。

　　4.3 结果融合对于待探测视频片段，首先抽取其包含的各个视觉对象概念的低层特征。根据视频概念扩展本体定义的语义概念与感知概念间的关联关系，获取每一个视觉对象概念关联的概念。

　　然后选择相应的SVM 分类器进行概念探测。 www.170yx.com哦　　容易理解，对于每一个视频概念，根据其相关的视觉对象概念的不同，可以计算得到若干个该概念出现的概率值，我们通过计算所有概率值的加权和来最终确定视觉特征匹配的程度值。

　　上式中， v N 表示概念C 的训练视频集的视频片段数量， vo N 表示概念C 的训练视频集中包含的视觉对象概念数量， ( , ) i i N VO v 表示i VO 在视频片段i v 中出现的次数。相似的，( ) i p VO 表示i VO 在所有训练数据集中出现的概率。

　　根据训练数据集的统计，可计算出每个视觉对象概念相对于其相关概念的权值，并进行归一化。进而，可以计算得到视觉特征匹配的结果。

　　5 匹配结果融合与概念探测在分别得到上下文信息匹配和特征匹配的结果之后，我们采用线性融合方法对匹配结果进行融合，得到最终的概念探测结果。

　　通过上述融合计算之后，可以得到给定概念与测试视频子镜头的匹配程度，匹配程度值越大，说明该概念与测试视频相关程度越高，进而推断其出现在视频中的可能性越大。

　　显然，通过匹配计算可以得到一个匹配值列表，越靠前的匹配概念在测试视频子镜头中出现的概率越大。因此，可以根据实际需要，综合考虑探测性能要求，选择前若干个匹配概念作为探测结果。

　　6 实验为了评估测试本文提出的本体支持的概念探测方法，我们采集多种来源的电视节目视频，如表1 所示。

　　选择 8350 个子镜头作为训练集，其余的子镜头作为测试集。抽取每个子镜头包含的字幕文本、语音文本和感知概念具有的感知特征向量。需要指出的是，英文文本的分词和名词术语切分本文不作研究，实验中采用人工切分的方法获得。本文构建了面向视频情报分析的“美国台海政策专题”视频概念扩展本体，其中定义了41 个语义概念。以这41 个概念作为标注概念集，对实验数据中每个视频子镜头标注其包含的语义概念。

　　一、本文提出的视频概念扩展本体有效的建模了领域中视频概念的相关描述、关系等上下文信息。同时，语音文本的利用也增强了上下文信息的获取能力。这些上下文信息的利用为探测方法提供了必要的先验知识，减少了概念探测中的不确定性，提高了探测性能。

　　二、一般的基于内容的概念探测方法直接建立低层感知特征与视频概念的关联，本文的方法通过构建感知概念中间层语义来建立低层感知和视频概念的关联。相比低层感知特征，感知概念更准确的描述了视频概念具有的感知特征模式。通过感知概念分层建立低层感知特征到视频概念的关联，缩短了每层之间语义鸿沟造成的关联不确定性，减小了错误判断的可能。

　　三、跨领域概念探测没有对概念的复杂性进行区分，对所有概念采用相同的方法进行探测。这种情况下简单概念可能获得较高的探测AP，而复杂概念的探测结果会相对较差，从而影响整个探测方法的性能评估。本文通过视频概念扩展本体，定义了概念的不同层次关系，语义概念是位于概念层次最底层的概念，其具有的感知特征较为明显，更易于探测识别。

　　7 结论区别于以往基于内容的视频概念探测方法直接的、独立的建立低层特征与概念之间的关联，本文提出了本体支持的视频语义概念探测方法。从低层特征和上下文语义信息两个方面综合考虑语义概念的探测问题。以感知概念作为低层感知特征和语义概念之间的中间语义，避免了直接建立低层特征和语义概念间的关联，减小了语义鸿沟问题带来的影响。同时，利用本体建模的概念间关系和上下文信息，增强概念探测的语义理解和识别能力。实验结果验证了本文提出方法的有效性。

　　未来的研究工作主要包括两个方面，一是如何进一步发现和抽取更具表征能力的低层特征；二是如何有效利用本体的自动推理，增强上下文信息的描述和建模能力。同时，复杂概念探测和跨领域概念探测依然是具有挑战性的问题。

如果觉得本体支持的视频语义概念探测不错，可以推荐给好友哦。

Tags：毕业论文提纲，论文提纲格式,毕业论文提纲范文,毕业论文提纲格式,论文提纲格式范文，毕业论文 - 毕业论文提纲

本体支持的视频语义概念探测

相关资料

文章评论评论内容只代表网友观点，与本站立场无关！