简介
直播平台每天都会产生海量的游戏直播视频,同时有很多内容作者从直播视频中剪辑精彩片段,进行二次创作。然而精彩视频剪辑工作,需要人工浏览视频并找出精彩片段,用视频编辑软件进行剪辑,耗费大量时间和精力。
为了解决这个问题,我们尝试用 AI 完成精彩视频剪辑的工作,并借助 TGL腾讯游戏玩家创作联盟 实现视频一键多渠道(看点、企鹅号、今日头条)发布。
DEMO:
此外,剪辑视频带有 AI 识别的标签,比如:武器AK、双人排位、沙漠地图、8倍镜、决赛圈、主播名称等,内容作者可以在 TGL 可按标签检索视频,进行二次创作。
目前已经支持 AI 视频剪辑的游戏有:绝地求生端游、刺激战场、全军出击、穿越火线端游和手游。同时我们接入了虎牙直播,实现了直播视频抓取、AI 视频剪辑、到多渠道自动发布。未来可接各种品类的游戏和赛事的直播 AI 视频剪辑需求、内容素材库的需求,有合作意向的同学可以联系我们。
方法
精彩时刻识别
视频精彩时刻识别的方法有很多,有端到端的方法如 Yao [1],以及基于视频截图的方法如 YOLO、CNN、Fast-RCNN 等。
综合考虑准确率、实现复杂度、效率,我们使用 CNN 卷积神经网络识别游戏截图的方法。
对每个截图,我们用多个 CNN 模型识别固定区域的图像,包括武器、排名、击杀提示、组队情况等:
搞笑场景识别
搞笑场景是一个抽象的概念,这里我们把问题简化成笑声场景识别,即 Audio Event Detection (AED) 问题的简化版本。参考 Hershey [2] 和 Knox [3],使用 MFCC 特征 + CNN 作为笑声场景识别模型。目前该识别模型正在开发中。
游戏视频区域识别
一些主播会以画中画的形式,同时展示游戏视频和主播影像。在这种情况下,需要先识别游戏视频区域的坐标,如下图绿色方框所示,才能够进一步进行精彩时刻的识别。
要完成游戏视频区域识别的任务,可以用机器学习的方法如 CNN 回归模型,也可以用传统视觉算法霍夫曼直线检测。前者的泛化性能好,适用于各种情况,但需要大量的样本;后者基于算法规则,需要对图像进行预处理,不需大量的样本。
综合考虑效率和成本,我们采用视觉算法完成这个任务。简单地说,首先把截图进行膨胀、腐蚀,然后用 Canny 算子的到边缘图片,最后应用霍夫曼直线检测算法得到视频区域。
剪辑和拼接
给定原始视频和精彩时刻、搞笑时刻,我们制定一些剪辑规则,比如剪辑精彩时刻的前10秒后5秒、剪辑吃鸡时刻的前2分钟,然后调用视频处理工具 ffmpeg 进行剪辑。
###TGL一键多渠道发布
借助 TGL腾讯游戏玩家创作联盟,由 AI 剪辑视频后,可以实现视频的一键多渠道(看点、企鹅号、今日头条)发布。
未来工作
- 如何解决少量样本训练模型效果不佳问题
- 拓展更多搞笑场景识别模型
- 自动撰写优质标题
引用
[1] Yao, Ting, Tao Mei, and Yong Rui. “Highlight detection with pairwise deep ranking for first-person video summarization.” (2016). PDF
[2] Hershey, Shawn, et al. “CNN architectures for large-scale audio classification.” Acoustics, Speech and Signal Processing (ICASSP), 2017 IEEE International Conference on. IEEE, 2017. PDF
[3] Knox, Mary Tai, and Nikki Mirghafori. “Automatic laughter detection using neural networks.” Eighth Annual Conference of the International Speech Communication Association. 2007. PDF