菜单
b.基于深度学习的端到端的方法
为了对图像进行问答,Agrawal[4]等人提出了多种视觉问答算法和一个图像问答算法数据集(VQA).文章中的算法主要是基于CNN和LSTM,并且设计并实现了多种改进的方案。这些算法都是先对图像利用VGG-NET抽取出图像特征,之后对问题用了词袋模型、一层的LSTM和两层的LSTM抽取出问题的特征,最后将图像特征和问题特征作为通过词袋模型或者LSTM的输入来得到答案。结果发现两层的LSTM可以达到最好的准确率62.7%
由于直接采用CNN对整幅图像进行特征提取的方式容易忽略了图像的局部细节。所以Kan Chen[6]等提出了一种基于注意力机制地深度学习架构来解决视觉问答问题,该算法先利用LSTM得到问题的关键词,例如“颜色,物体”等,之后在提取图像中包含这些关键词部分,最后将图像局部特征,全局特征和问题特征作为一个分类器的输入来得到答案。此算法相比较其他的未采用注意力模型的算法在物体识别,计数等问题的准确率都有所提高。
有些文本问答系统都会采用大量的自由文本库作为答案的来源,所以图像问题中是不是也可以借助一些自由文本来提高准确率亦是一个问题。Qi Wu[7]等人就设计一种可以利用外部数据的算法提高图像问答系统准确率的方法。该方法首先抽取出图像的特征,生成一段关于这幅图像的文本,然后再依据这个文本去DBPedia这个文本库中查找与这些文本相符合的文本段落,最后将这个相关文本段落,问题,图像生成的文本作为LSTM的输入得答案。结果表明这种方法比其余几种算法的准确率都有提高,达到了69%。
共2页:
上一页
1
2
下一页
上一篇:
标签技术国内外研究现状
下一篇:
行政伦理和行政责任国内外研究现状综述
IIR系统识别国内外研究现状综述
超大规模集成电路技术国内外研究现状
自动闭塞分区优化设计国内外研究现状综述
国内外转载机研究现状及未来趋势
液压试验台的国内外研究现状和发展趋势
高速液压冲击加载系统国内外研究现状
混沌加密通信国内外研究现状综述
中考体育项目与体育教学合理结合的研究
河岸冲刷和泥沙淤积的监测国内外研究现状
大众媒体对公共政策制定的影响
酸性水汽提装置总汽提塔设计+CAD图纸
杂拟谷盗体内共生菌沃尔...
电站锅炉暖风器设计任务书
乳业同业并购式全产业链...
十二层带中心支撑钢结构...
java+mysql车辆管理系统的设计+源代码
当代大学生慈善意识研究+文献综述
主页
计算机
机械
自动化
关闭菜单
栏目
毕业论文
计算机论文
经济论文
生物论文
数学论文
物理论文
机械论文
新闻传播论文
音乐舞蹈论文
法学论文
文学论文
材料科学
日语论文
英语论文
化学论文
自动化
管理论文
艺术论文
会计论文
土木工程
电子通信
食品科学
教学论文
医学论文
体育论文
论文下载
研究现状
任务书
开题报告
外文文献翻译
文献综述
范文
菜单
毕业论文
刷新
分享
收藏
关于
关闭
关闭
分享本页
返回
关闭
暂无收藏
全部清除
关闭菜单
About
751论文网手机版...
主页:
http://www.751com.cn
关闭
返回