首页 > 技术推广 > 推广详情

多模态笔式界面和草图交互编辑关键技术及平台

所属行业:计算机软件技术领域:电子信息发布类型:转让专利成果发布者:马...状态:已发布
发布日期:2024-11-09

随着人工智能技术的进步与多模态交互需求的增加,草图编辑与智能检索平台正在经历快速发展。用户对图像、文本、语音、草图等多种数据形式的处理需求不断增长,驱动了多模态交互平台的创新与应用。当前的技术难点在于实现对草图的精准识别、文本检索的高效匹配,以及场景的智能补全。多模态笔式界面草图交互编辑关键技术及平台旨在提供集成化、多样化的草图编辑和检索功能,提升用户交互体验和编辑效率。平台主要具备以下特色:

一、基于动态图神经网络的草图识别与分割技术,通过草图识别与分割技术,实现草图元素的精准识别与智能分类,提升草图识别的效率与准确性。该技术能根据输入的草图自动分割图像区域,识别出不同的草图结构、类别,支持对结构化草图和场景草图两种形式的草图进行笔画级别的智能编辑,可以根据草图类别自适应地提供结构修改、选择、收起展开等辅助功能,为后续的检索和编辑操作提供识别基础。

二、基于扩散模型的草图文本检索图像视频技术,通过全局-局部注意力机制和扩散模型,将草图与文本数据进行匹配,实现高效精准的图像和视频检索。用户可以通过输入草图和文本组合,快速获得候选检索结果。该技术能够将草图与图像/视频内容之间的相似度进行深度挖掘,从而提供个性化、精确的检索服务。

三、基于对抗网络的场景草图自动补全算法:在绘制过程中存在大量非完整草图,设计人员创作过程的中间草图、物体遮挡等。结合草图补全与草图识别任务,提出一套智能草图补全方案,使用级联模型,重复利用前一阶段的信息进行补全;构建多任务模型,以草图补全为主任务,草图识别为辅助任务。通过对抗网络技术,实现场景草图的自动补全,提升草图编辑的连续性和完整性。该算法基于用户输入的草图信息,自动预测并生成缺失部分,确保草图的连贯性,增强草图内容的丰富性。同时,自动补全功能显著提升了草图编辑效率,减少用户手动操作的需求。

四、基于大模型的多模态智能编辑系统,多模态智能编辑系统是该平台的核心,支持多种输入方式,包括语音、文本、草图、图像等,实现多模态数据的综合处理和分析。平台集成了草图识别、智能检索、自动补全、个性化生成等多种功能,为用户提供了高度个性化和智能化的编辑体验。该系统不仅支持高效的笔式界面交互,还利用大模型的能力实现语音和文本对草图的智能编辑,显著提升了编辑和交互的效率。例如,当用户输入草图和一段描述文本时,系统能够将两者的特征进行匹配,并依据多模态信息精准编辑草图。使得系统能够更好地理解用户的意图,提供更加精确的检索和编辑服务,从而显著提升了用户体验,使操作更加直观和高效。

项目研究团队是一支多通道人机交互、智能交互界面、多模态数据融合及可视分析、人机协同、人机信任、认知计算等领域拥有深厚积累和创新能力的精英团队。项目团队先后承担并完成了多项与本项目相关的国家级重点课题,包括国家重点研发计划、国家自然科学基金重点项目等,相关成果获得2019“牛顿奖”中国奖。长期以来,团队专注于探索前沿技术,致力于解决复杂的多媒体数据处理与交互问题,特别是在手绘草图识别、视频内容分析与可视化、以及情感智能计算等方面取得了显著成果,发表多篇高质量论文于国际著名期刊和会议IEEE TVCG 、IEEE TMM、IEEE  TIP、IEEE TAC、CVPR、ECCV、ICCV、AAAI、IJCAI、IEEE VIS等。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


发布者

马...

推广次数:1次   需求次数:0次