菜单
  

    b.基于深度学习的端到端的方法
    为了对图像进行问答,Agrawal[4]等人提出了多种视觉问答算法和一个图像问答算法数据集(VQA).文章中的算法主要是基于CNN和LSTM,并且设计并实现了多种改进的方案。这些算法都是先对图像利用VGG-NET抽取出图像特征,之后对问题用了词袋模型、一层的LSTM和两层的LSTM抽取出问题的特征,最后将图像特征和问题特征作为通过词袋模型或者LSTM的输入来得到答案。结果发现两层的LSTM可以达到最好的准确率62.7%
    由于直接采用CNN对整幅图像进行特征提取的方式容易忽略了图像的局部细节。所以Kan Chen[6]等提出了一种基于注意力机制地深度学习架构来解决视觉问答问题,该算法先利用LSTM得到问题的关键词,例如“颜色,物体”等,之后在提取图像中包含这些关键词部分,最后将图像局部特征,全局特征和问题特征作为一个分类器的输入来得到答案。此算法相比较其他的未采用注意力模型的算法在物体识别,计数等问题的准确率都有所提高。
    有些文本问答系统都会采用大量的自由文本库作为答案的来源,所以图像问题中是不是也可以借助一些自由文本来提高准确率亦是一个问题。Qi Wu[7]等人就设计一种可以利用外部数据的算法提高图像问答系统准确率的方法。该方法首先抽取出图像的特征,生成一段关于这幅图像的文本,然后再依据这个文本去DBPedia这个文本库中查找与这些文本相符合的文本段落,最后将这个相关文本段落,问题,图像生成的文本作为LSTM的输入得答案。结果表明这种方法比其余几种算法的准确率都有提高,达到了69%。
  1. 上一篇:标签技术国内外研究现状
  2. 下一篇:行政伦理和行政责任国内外研究现状综述
  1. IIR系统识别国内外研究现状综述

  2. 超大规模集成电路技术国内外研究现状

  3. 自动闭塞分区优化设计国内外研究现状综述

  4. 国内外转载机研究现状及未来趋势

  5. 液压试验台的国内外研究现状和发展趋势

  6. 高速液压冲击加载系统国内外研究现状

  7. 混沌加密通信国内外研究现状综述

  8. 中考体育项目与体育教学合理结合的研究

  9. 河岸冲刷和泥沙淤积的监测国内外研究现状

  10. 大众媒体对公共政策制定的影响

  11. 酸性水汽提装置总汽提塔设计+CAD图纸

  12. 杂拟谷盗体内共生菌沃尔...

  13. 电站锅炉暖风器设计任务书

  14. 乳业同业并购式全产业链...

  15. 十二层带中心支撑钢结构...

  16. java+mysql车辆管理系统的设计+源代码

  17. 当代大学生慈善意识研究+文献综述

  

About

751论文网手机版...

主页:http://www.751com.cn

关闭返回