Resume

📧 邮箱：1023010418@njupt.edu.cn 📞 电话：+86 15212147511

个人评价

面试官您好，我是 梁宇恒，南京邮电大学信号与信息处理专业，在智能信息处理与通信技术省高校重点实验室（智通实验室），研究生期间获得研究生学业一等奖学金。

科研方面，主要研究方向为多模态情感识别，所提出方法在2025年第八届CVPRworkshop国际竞赛中获得第六名(全球75支队伍)，论文被收录CVPRworkshop。同时以第一作者身份发表多模态情感识别相关成果论文3篇。

实践方面，有过两段AI算法实习经历，熟悉主流的深度学习框架（PyTorch）、编程语言（Python/C++）、开发工具链（Linux、Shell、Docker），能够独立完成从方法设计、训练优化、微调到部署上线的完整流程。具备良好的问题分析能力、说明文档撰写能力、部门协作能力。

本人衷心热爱人工人工智能领域研究与实践，具备扎实的计算机视觉、多模态大模型、多模态RAG等实践经验，具备从理论研究到工程化落地的能力链。下面是我科研成果与实践项目的详细说明，期待与您进一步沟通。

实习经历

鼎捷数智股份有限公司(南京研发中心)-AI算法工程师 | 2025.05-2025-09

基于大模型的复杂工程图纸解析

框架图

项目简介：开发基于大模型的工程图纸解析系统，利用YOLOv11进行版面检测（识别剖面图、工装图、刻字图/内容、压力曲线图、文本块、表格块、切面图7类元素），并通过微调后的Nanonets-OCR-s模型对各类别进行针对性分析与总结，实现结构化数据提取。
技术栈: Labelme（数据标注） → YOLOv11（版面检测） → Nanonets-OCR-s & Llama Factory（模型微调与OCR分析） → MonkeyOCR（文本/表格提取） → Flask（API部署）。
主要工作：
- 设计端到端工程图纸解析框架，针对复杂场景处理剖面图、工装图、刻字图、压力曲线图、文本块、表格块六类元素。
- 利用Labelme标注数据集，基于YOLOv11训练版面检测模型，通过多次迭代调优，实现mAP50达0.98的高精度识别，显著提升对多类别图纸的鲁棒性。
- 基于 Llama Factory 微调 Nanonets-OCR-s 模型，针对剖面图、工装图、刻字图、压力曲线图进行定制化优化，设计特定提示词，微调后 BLEU-4 达 0.94，ROUGE-1 达 0.9694，显著提升结构化数据提取质量。
- 集成MonkeyOCR处理文本和表格块，自动重建Markdown格式表格，优化整体数据流程并确保兼容性。
项目成果：通过 Flask 开发 API，将解析系统部署至公司 IndepthAI 平台，实现自动化图纸解析与结构化数据输出，处理效率提升30%。
个人收获: 通过技术调研确定路线，对YOLOv11版面检测模型进行多次迭代，掌握复杂图纸处理的实战技巧；同时，在Llama Factory框架下微调Nanonets-OCR-s，设计针对性提示提升总结准确性，积累了大模型在工业OCR领域的应用经验，提升了从问题定义到部署的全链条能力。

多模态 RAG 问答系统

框架图

项目简介：针对上汽公司汽车使用与保养的PDF、Image和Office文档，构建多模态RAG问答系统，以LangChain为基础框架、Qwen2.5-VL为核心LLM，支持交互式文本、表格和图片查询。
技术栈：Unstructured/Marker（文档解析） → Tesseract OCR（图像/表格识别） → Ollama LLM（摘要生成与多模态分析） → LangChain（RAG框架集成） → Chroma（向量存储与检索） → Flask（API部署）。
主要工作：
- 基于Unstructured/Marker解析PDF等文档，抽取文本、表格及图片元素，实现结构化多模态数据处理与统一索引，支持扫描件OCR via Tesseract，确保跨模态元素（如图片+文本）可融合向量表示。
- 利用Ollama LLM（Llama2、Qwen2.5-VL）生成中文摘要：设计针对性提示词处理文本/图片/表格，融合多模态语义表示，为RAG检索提供高质量向量输入。
- 构建Chroma向量库 + MultiVectorRetriever，实现RAG核心机制：基于摘要向量进行相似度检索，回溯原文/路径注入LLM提示，支持跨模态统一问答并优化检索效率；Recall@5达92%，回溯机制将幻觉率降低30%。
项目成果：通过Flask上线部署API，实现端到端系统，能准确查询文档中二维码、表格及图片内容，响应用户问题时结合检索上下文生成自然语言答案。
个人收获: 掌握多模态RAG系统构建全流程，包括信息抽取、摘要生成与向量检索优化，实现跨模态知识融合与高效问答。提升了LLM提示工程、Chroma检索策略调优以及大规模文档处理能力；通过实验评估，积累了量化RAG性能的实践经验，增强了对检索增强生成机制的理解。

深研人工智能(深圳)有限公司-初级算法工程师 | 2024.07-2024.09

基于YOLOv5道路病害检测

项目描述: 基于PyTorch框架和YOLOv5架构，开发道路病害检测系统，自动识别与定位裂缝、坑槽、车辙、隆包、标线模糊五类病害，实现复杂场景下的高精度检测（mAP@0.5达85%），提升道路维护智能化水平。
技术栈：FiftyOne（数据标注与可视化） → PyTorch & YOLOv5（模型训练与优化） → OpenCV（图像预处理）→ Onnx（部署）。
主要工作:
- 使用FiftyOne进行标注与数据管理，构建高质量数据集，完成数据清洗与增强。
- 基于PyTorch搭建YOLOv5模型，优化anchor box适配病害尺度，调整损失函数，通过实验对比超参数，提升检测精度至mAP@0.5 0.86。
- 针对复杂背景（树枝、阴影）的数据，设计预处理策略（OpenCV去噪、色域过滤），并引入数据增强来降低误检率。
个人收获: 掌握了YOLOv5目标检测系统的构建全流程，从数据清洗到模型优化。通过实验对比超参数和预处理策略，提升了复杂场景下的目标检测能力，积累了从数据准备到模型部署的工程实践经验，熟练运用PyTorch和OpenCV处理真实场景问题。

项目经历

国家自然基金项目-多模态情感识别算法(研究生课题) | 2024.09-至今

模型框架

项目描述:构建结合视觉与音频的多模态情感分析框架，有效捕捉视觉模态中的情感线索，同时能够自适应模态之间的融合，增强情感状态的预测。
技术栈：VGGish（音频特征）→ MAE（视觉特征）→ BDCA（自适应模态融合）→ Transform（序列建模）
技术方案：
- 构建基于掩码自编码器（MAE）的分层解耦机制，无需进行大规模面部图像预训练，实现面部特征与情感的语义空间对齐。
- 提出双向动态跨模态交叉注意力（BDCA）融合机制，能自适应不同模态之间的交互，有效实现多模态融合。
成果表现：
- 在效价维(Valence)和唤醒维(Arousal)的一致性相关系数分别达到0.605和0.658，优于目前先进的方法。

CVPR 2025 workshop算法竞赛-基于Mamba的连续情感识别算法 | 2025.01-2025.04

算法描述：针对Valence-Arousal Estimation Challenge任务, 聚焦于多模态情感与行为分析任务。对视频中的人脸序列进行连续效价(Valence)与唤醒度(Arousal)预测，评估指标为 Concordance Correlation Coefficient (CCC)。
技术方案:
- 采用 MAE (Masked Autoencoder) 提取高维视觉特征，并通过部分参数冻结策略增强泛化能力；
- 引入 Temporal Convolutional Network (TCN) 建模短期依赖，捕捉局部动态信息；
- 融合 Mamba (State Space Model) 进行长序列建模，实现全局情感趋势捕捉，同时兼顾计算效率与稳定性；
成果表现:
- 在 Aff-Wild2 数据集上，测试集平均 CCC = 0.458，显著优于官方 Baseline。
- 相比Transform，Mamba的显存占用减少一半，实现轻量化推理能力。
- 全球共有75支队伍参加, 获得第6名的成绩, 提出的方法被CVPR 2025 Workshop收录, 四个月论文被引用4次, 代码仓3个star。

学术成果

📄 Mamba-VA: A Mamba-based Approach for Continuous Emotion Recognition in Valence-Arousal Space
- 第一作者, Computer Vision and Pattern Recognition Workshops(CVPRw)已发表
- 查看论文
- 第八届 ABAW VA Estimation Challenge 提交队伍名称：Charon
- 排行榜
- 代码仓
📄 LightMamba: A Multimodal Audio-Visual Framework for Continuous Emotion Recognition
- 第一作者, 2025 China Automation Congress(CAC)已录用
- 查看论文
📄 Enhancing Audio-Visual Affective Analysis via Bidirectional Dynamic Cross-Modal Attention and Masked Autoencoding
- 第一作者, IEEE International Conference on Automatic Face and Gesture Recognition，在投
- 查看论文

专业技能

计算机基础: 系统掌握计算机组成原理、操作系统、数据结构与算法等核心理论知识。
编程语言：熟练使用Python/C++/C进行算法开发、数据处理及系统编程。
模型框架：熟悉Transform、VIT、Mamba、YOLO、MAE等模型结构。
开发环境：熟悉Linux操作系统、熟练掌握Shell命令，能够在Linux环境中进行高效开发与调试。
RAG开发：熟悉常见Langchain、LlamaIndex等开发框架。
多模态大模型：熟悉基于Llama Factory等微调框架对常见模型（Qwen2.5-vl/Qwen7b）的微调Qloa等
相关证书: 计算机三级(网络技术)、华为HCIP(路由与交换)、华为HCIA(云计算)、英语四级。

从理论到工程，我的目标是让研究走向真实应用。