首页  ·  知识 ·  大数据
视频内容语义智能提取技术
呢喃  知乎  机器学习  编辑:Corrine   图片来源:网络
最开始调研的时候,只是想看看业内最先进的方式是什么。但是看下来发现,每一种都只能覆盖一个类目的视频的需求,比如第一种,更适合电视剧或者综艺,如果碰到动漫,就几乎没有作用了。

视频的内容语义提取的技术,整理有以下几种:

1. 提取视频中的商品

应用场景:比如下面的视频,发现视频中正在展示有电视、帽子、相框,那么就可以推送电视、帽子、相框相关的广告。


实现方式:首先人工标注,然后深度学习。

首先看一个人工标注的案例:


来源:特写|人工智能背后的人 - 知乎专栏

深度学习的结果可以看谷歌现在开源的:搜google video intelligence,可能要翻墙。

谷歌基本上把视频中的物体都可以识别出来,已经非常智能。

适用视频类型:有人物和物品的,有品牌的;

适用场景:电商类,商品类广告;

优势:智能。我们现在看电视剧时,会发现电视剧已经用人工做了这事了,比如三生三世的夜华的长发一垂下来,立刻就推出了洗发水的广告。随着热巴火,贴片广告就放成了热巴代言的品牌。

但是,当面对数万的视频,特别是短视频市场还在快速增长时,就需要机器来完成。

劣势:

比较容易识别出名词来,动词比较难;比如能够识别出“篮球”,但是不能识别“打篮球”。(深度学习可以做到,但是谷歌这个开源没有)

能够识别,但不能判断,比如图片质量的好坏,等。

2. 对视频内容的语义进行关键词提取;

1) 对视频的帧截图:

l 有的是截每一帧;

l 有的是镜头转换时再截,如何判断视频的镜头是否转换呢?计算前后两个图片的差距,差的很多,说明镜头换了,需要再截图。

2) 对截图进行语义识别;

3) 将视频的语音转换成文字;

4) 对文字进行语义识别

5) 将上述截图得到的语义和文字得到的语义综合在一起,就是这个视频的语义;

技术的原话是,“视频内容ffmpeg到声音,语音识别变字幕,nlp处理字幕得到词向量和文档相似度。”,上面是我自己看了一些资料理解的。

优势:比如教育类,视频上的文字内容非常多。

劣势:其他类型的视频文字可能就没这么多了,不足以拆解出语义来。

3. 对标题进行关键词提取;

这种属于对纯文本的提取。词本身的重要程序、词所在的位置,标题比内容重要,前面比后面重要,词频,词的整体出现顺序,综合起来。

优势:计算简单,业内对文本的处理非常成熟,各种算法开源包都很方便。确实能提取出内容来,比如下图是秒拍的转发量前50的短视频的标题,可以看到基本都能覆盖视频的主要内容;


劣势:

标题党问题;

还有一些确实是标题无法分辨具体内容;比如说,有一个视频的标题叫:耳朵怀孕了。视频:一个人唱歌。机器可以识别有个人在唱歌,从开始唱到结束。但是机器不理解为什么标题叫耳朵怀孕了。

4. 对内容人工打标签;

分两块:

l 上述第一种处理方式的人工部分。那篇文章写得也很清楚,我就不多写了。

l 人工编目。这个可以看看豆瓣和视频网站怎么做的,就是比它们界面上显示的标签更细一两层。

l 一些人工打上标签后机器也不能自己学习的,或者学习起来比较吃力,比如场景,还是要靠人工打。

5. 总结

最开始调研的时候,只是想看看业内最先进的方式是什么。但是看下来发现,每一种都只能覆盖一个类目的视频的需求,比如第一种,更适合电视剧或者综艺,如果碰到动漫,就几乎没有作用了。

所以在使用的时候,对每一种类目,都深入分析其视频类型,确定哪一种语义提取方式为主,并且多种方式混合的规则是什么。

要从应用场景往回推,才能推出这一类视频需要哪一种语义提取的方式。


本文作者:呢喃 来源:知乎
CIO之家 www.ciozj.com 微信公众号:imciow
    >>频道首页  >>网站首页   纠错  >>投诉
版权声明:CIO之家尊重行业规范,每篇文章都注明有明确的作者和来源;CIO之家的原创文章,请转载时务必注明文章作者和来源;
延伸阅读
也许感兴趣的
我们推荐的
主题最新
看看其它的