为依法保障用户对天翼AI眼镜中使用的算法及模型服务的基本原理、目的意图和主要运行机制等的知情权,我们制定本《“天翼AI眼镜”算法及模型公示说明》,帮助用户了解在使用本产品和服务的过程中我们如何通过算法及模型技术向用户提供信息和服务,充分保障用户的合法权益。
一、 多模态算法类
1、 算法名称:TeleMM 算法
1.1 算法基本原理
TeleMM 算法是一种基于 Transformer 架构的多模态智能模型,通过融合视觉与语言模态信息,实对前文及视觉内容的理解,预测并生成契合语境的文本或者解读视觉内容。运用的核心技术包含深度学习中的 Transformer 架构和基于大规模多模态数据的预训练 - 后训练过程。让模型能够深度建模跨模态知识与关联,在视觉 - 语言交互场景中提供精准内容。
1.2 算法运行机制
当用户输入多模态(含视觉、文本)需求后,TeleMM 算法识别文本指令并解析视觉内容,为用户提供跨模态的理解服务,在交互界面呈现内容 。模型依托大规模多模态数据的无监督预训练,学习视觉特征、语言规律及跨模态关联;接着经过有监督微调和强化学习训练,对齐用户指令并适应多模态任务需求,输出适配且优质的结果。
1.3 算法目的意图
TeleMM 算法致力于打破单一模态信息交互局限,提升用户对多模态信息的理解与利用效率,拓展智能交互边界,提供优质图像理解、视觉问答、逻辑推理、创作辅助等服务,助力用户挖掘多模态知识价值,适应复杂多元信息场景。
2、算法名称:TeleFood 算法
2.1 算法基本原理
TeleFood 算法是基于多模态融合架构的物体识别模型,集成了视觉识别与食品营养学知识体系。借助卷积神经网络提取食物图像特征,结合预训练的食品成分与卡路里知识图谱,通过对图像特征和文本知识的关联建模,实现对食物类别及卡路里数值的预测判定。运用的新技术包含多模态特征对齐技术,能精准匹配 视觉 - 营养知识,以及基于大规模食品数据的迁移学习,让模型适配多样食品识别场景。
2.2 算法运行机制
当用户上传食物图像或输入相关描述后,TeleFood 算法先利用视觉模块识别图像中的食物外观、形态等特征,同时文本模块解析可能的描述信息,在识别结果页精准输出食物类别、卡路里数值及营养成分说明。模型基于大规模无监督预训练,学习各类食物的视觉共性、营养成分统计规律;再通过有监督微调,校准食物类别判定、卡路里计算的准确性;最后经多场景强化学习训练,适应不同光照、摆盘等复杂环境。
2.3 算法目的意图
TeleFood 算法旨在提升用户对食物营养信息的获取效率,助力健康饮食管理,通过精准识别食物类别与卡路里,帮助用户合理规划饮食、了解食品营养,推动食品行业数字化、智能化监管与服务升级。
3、算法名称:YOLOv8算法
3.1 算法基本原理
YOLOv8是一种基于深度学习的单阶段目标检测算法,采用先进的卷积神经网络(CNN)架构,通过端到端的方式实现高效的目标定位与分类。其核心思想是将图像划分为网格,每个网格直接预测边界框(Bounding Box)和类别概率,实现实时检测与高精度平衡。YOLOv8在YOLO系列基础上优化了模型结构、训练策略和损失函数,提升了检测速度和准确性。
3.2 算法运行机制
输入图像经过主干网络(如CSPDarknet)提取多尺度特征,通过特征金字塔(FPN/PAN)融合不同层级的语义信息,最后在检测头输出预测框和类别。训练时采用动态标签分配和分布式焦点损失(DFL),增强模型对复杂场景的适应性;推理时支持多尺度输入和后处理(如非极大抑制,NMS),确保高效稳定的检测结果。
3.3 算法目的意图
YOLOv8旨在为实时目标检测任务提供轻量级、高精度的解决方案,适用于物体检测、视频监控、工业质检等场景。通过平衡速度与性能,帮助用户快速处理视觉数据,实现高效的目标识别与定位,推动计算机视觉技术的实际应用落地。
二、 语义算法类
1、算法名称:意图识别大模型算法
1.1 算法基本原理
意图识别大模型算法是一种基于Transformer-decoder结构的大语言模型,其基本原理是通过大文本数据学习词语之间的上下文关系,从而实现“根据前文预测下一个最可能token”的能力。模型在预训练阶段学习了丰富的语言模式与知识表达,形成了强大的语言理解和生成能力。在此基础上,通过有监督微调(SFT)等方式进一步学习了大量的意图标签用于理解用户的意图,形成结构化的输出,形成了强大的意图识别能力。
1.2 算法运行机制
模型首先解析用户的语言输入以识别真实需求与意图,随后预训练语言知识、上下文理解能力生成结构化的文本结果。该模型首先通过大规模无监督的预训练,从海量文本中学习语言的统计规律、语义关系以及通用世界知识,建立起对语言结构和语义的基础理解能力。随后,通过有监督的指令微调(Supervised Fine-tuning),模型在指令-响应数据上进行训练,从而学习如何理解并遵循用户的具体指令,提升其实用性和交互能力。
1.3 算法目的意图
意图识别大模型算法用于旨在从输入文本中提取用户的意图特征。并用于形成对下游任务有益的意图识别结果。以文本为输入,主要包含3部分文本内容,1是指令提示,用于引导大模型需要完成的任务。2是意图槽位体系库,主要来自业务系统需要识别的意图库。3是用户查询,用于展示用户与提供的对话信息。最后意图识别大模型算法将识别到的特征转为后输出特征,输出信息是意图识别的结果,以JSON格式进行结构化输出。文本的内容来自用户的表达和意图定义。
2、 算法名称:闲聊对话大模型算法
2.1 算法基本原理
闲聊对话大模型算法是一种基于Transformer-decoder结构的大语言模型,其基本原理是通过大量文本数据学习词语之间的上下文关系,从而实现“根据前文预测下一个最可能token”的能力。模型在预训练阶段学习了丰富的语言模式与知识表达,形成了强大的语言理解和生成能力。在此基础上,通过监督微调(SFT)等方式进一步优化模型在具体任务中的表现,使其能够更符合人类使用习惯,以对话形式生成连贯、自然、内容恰当的回答。
2.2 算法运行机制
模型首先解析用户的语言输入以识别真实需求与意图,随后预训练语言知识、上下文理解能力生成连贯、符合上下文的文本结果。该模型首先通过大规模无监督的预训练,从海量文本中学习语言的统计规律、语义关系以及通用世界知识,建立起对语言结构和语义的基础理解能力。随后,通过有监督的指令微调(Supervised Fine-tuning),模型在指令-响应数据上进行训练,从而学习如何理解并遵循用户的具体指令,提升其实用性和交互能力。
2.3 算法目的意图
闲聊模型用于与用户开展自然日常对话,为用户提供亲切交流体验。该模型表达风格口语化,能够回应用户关于生活话题、情感倾诉等内容,使对话过程更具类人交流的自然流畅感。同时,模型具备依据上下文延续话题、保障聊天连贯性的能力。
三、 语音算法类
1、算法名称:语音合成
1.1 算法基本原理
闲语音合成算法是一种将输入文本实时转换为自然流畅语音的核心技术。其基本原理是让计算机程序学习人类语音的声学特性与韵律规律,从而能够“根据给定的文本序列合成对应的、具有表现力的语音波形”。
1.2 算法运行机制
语音合成算法首先解析输入的文本信息以识别其语义内容、语法结构与韵律特征,随后利用声学建模与波形生成能力合成流畅、自然的高保真语音。该算法首先通过大规模基于声学特征的预训练,从海量语音数据中学习语音的基本声学属性(如音高、时长、能量频谱)、发音规律以及不同语境下的韵律模式,建立起对语音声学特性和基本韵律表达的基础建模能力。随后,通过有监督的参数调整与微调,算法在包含特定控制目标(如说话人、情感、语速、风格)的语音数据集上进行针对性训练,从而学习如何精确合成并稳健转换用户期望的声学特性,提升其音质表现力与参数可控性。
1.3 算法目的意图
语音合成算法的目的是根据输入文本生成逼真、自然的合成语音输出,为用户提供清晰、流畅、拟人化的听觉体验。该模型的技术方向侧重于高度模拟人类语言的韵律与音质,能够精准控制语音的节奏、语调、情感倾向和重音分布,确保输出结果符合日常口语或特定表达的需要。同时,模型具备处理多样化文本场景(如阅读文章、设备播报、对话辅助及有声内容创作等)的能力,并对上下文(如句法结构、语义重点)保持敏感的解析力,使得合成的语音具备上下文连贯性、表达得体性,并有效传达文本所蕴含的信息和情感色彩,最终提升人机语音交互的自然度与沉浸感。