在人工智能技术的探索之旅中,语音语义识别技术一直起着先驱作用,无论是技术探索还是商业落地都处于前列。 近两年来,随着深度学习技术的进一步深入,其识别精度进一步大幅提高。 为教育、客户服务、电信等以前流传的领域产业升级提供了很大帮助,在车载、家庭、医疗、智能硬件等行业开辟了新的商业应用探索实践。
语音语义技术现在迅速发展到哪个阶段? nlp技术在公司的日常业务中能发挥什么作用? 生活在10亿水平的日子里的微信的应用例子是什么? 滕信云的大量顾客场景,给公司带来了什么样的辅助力? 9月13日,tvp ai技术闭门会语音语义主题邀请了领域大咖啡,为领域寻找了越来越多的解题思路。
微信语音识别理论与实践
在语音识别技术落地过程中,微信是探索比较深入的代表。 现在的微信不仅可以非常简单地把声音转换成副本,还可以识别声音中包含的感情,在转换后的副本中可以用适当的emoji表情来表现感情。
微信智测试语音技术负责人卢科伊老师向参加者介绍了语音识别技术的快速发展过程,说如果我们想更客观地评价技术的今天和明天,就有必要回顾其快速发展过程。
语音识别快速发展的历史回顾
语音识别技术的研究始于上世纪5、60年代,以前传来的语音识别采用了hybrid框架,具备包括音响模型、词典、语言模型三个部分的明显的层次结构。 对于传统的hybrid系统来说,声学模型是其中的重要部分,后续技术的许多改进也是针对声学模型进行的。
2009年以后,语音识别技术迎来了巨大的迅速发展。 业界的主流观点被认为是因为语音识别技术登上了深入学习迅速发展的快车,卢科伊老师说这是重要的理由之一,但不是唯一的理由。 在这个过程中,gpu等硬件设施的迅速发展提供了基础,网络特别是移动网络的迅速发展带来了越来越多的场景,语音识别技术从实验室到广大的民间市场。
在语音识别技术的快速发展过程中,卢科伊先生重点介绍了dnn、tdnn、lstm、transformer等模型的快速发展和性能提高。 年以后,一些科学家开始在hybrid系统以外尝试端到端的系统,与前者相比,输入语音后,输出变成了副本。
“语音识别技术行业没有完美的系统。 hybrid系统采用了灵活性,但整体合身性比不上端到端系统。 端到端系统数据总体建模能力强,但灵活性不及hybrid系统。 ”。
微信智测试平台
“微信智测试平台从年底开始,到年为止一直命名为企业品牌。 当时觉得效果不好,客户想吐槽的时候也没有具体的对手”卢鲤老师开玩笑介绍了微信智测试平台的迅速发展史,这个腾讯自主开发的语音技术平台,至今c 在独立的第三方机构speechio的测试报告中名列前茅。
微信智测试平台是目前大规模服务的制造商中最好的几个,卢科伊老师介绍了微信智测试平台在性能提高方面进行的工作。
首先是tlcblstm互联网。 lstm互联网结构的第一种形式有两种。 一个是单向和双向。 通常,双向lstm的性能比一个方向高10%左右,但双向lstm有在流式场景中不能使用的限制。 tlcblstm是一种处理方式,可以在流场景中使用lstm,同时保持双向10%的性能特性。
除了lstm,微信智测试平台还实现了transformer的互联网结构。 现在,该系统的开发有序进行,卢科伊老师指出这种transformer的结构可以比较有效地利用运行的并行性,无损地应用于流媒体系统。
除了网络结构的改善,语音识别还存在着鲁棒性这一非常重要的问题。 影响鲁棒性的主要因素通常有录音设备、环境影响、原始录音的信号解决等几个种类。 因此,微信智测试平台通过specagument技术,让互联网学习这样的坏数据,提高互联网的适应性。 另外,收集了数百个不同的噪音和房间的混响,除了原始信号以外模拟了不同的场景,利用混合频带训练等方法,强化了语音识别的鲁棒性。
最后,在系统层面,智能检测平台也进行了hybrid和端到端的系统结构,在实验室场景中比较了两者的互补性,进行了一些相关的测试。 具体地说,参照下图。
适用于场景
训练模型,建立系统只是万里长征的第一步,卢科伊老师以智审平台为例,分享了他应该实用考虑的地方。
第一,考虑语音识别的前端。 不同的场景对体验的要求不同,对前端的配置和要求也不同,有可能据此导致认识的损失。
二是网上学习的难度。 通用的语音识别器不能复盖整个场景,成千上万的句子和关键词的在线学习也对算法有很高的要求。
三是方言很难识别。 国内方言种类很多,某种方言下的子类互不相通,顾客需要什么样的方言识别也依然是个问题。
分享结束后,卢科伊老师在qa环节和观众讨论区对客户关注的技术、细节问题作了细致的回答,这里只在纸面上说明。
腾云ai语音语义辅助公司发展迅速
腾云ai语音语义和应用平台产品中心的周超社长向与会者报告了腾讯云在ai落地过程中的实践和思考,他表示腾讯云将来将为行业提供深入各行业的全ai能力处理方案。
公司ai要求盘点
根据目前业界对公司ai能力的调查报告,计算机视觉是目前最受关注的公司ai能力,紧随其后的是智能语音技术、自然语言解决技术的份额。 对ai技术趋势的迅速发展进行分类,从技术触发期、预期膨胀期、泡沫破灭期、启蒙上升期、高原期的曲线可以清楚地看到各ai技术的迅速发展位置。
公司部署ai的理由是最重要的三种配置是降低价值成本、提高效率和创新业务。 根据idc 2019年中国人工智能白皮书,现在公司采用ai后,业务性能得到优异提高的比例不高,ai落地公司的效果大幅提高空。
今年以来,疫情的影响推动了ai落地的应用,腾讯云在疫情期间配合疫情广泛使用的ai能力使人们看到了ai的强大。 在这期间,公司的营业受到了很大的影响,网上化、数字化的趋势加快,在后疫病时代,以降低本插件为目的,网上结合的实践越来越带来了对ai能力的诉求。 而且人工智能作为国家新基础设施战术的七个行业的重要组成部分为公司应用人工智能带来了更大的想象力空。
腾云是公司在引进ai方面面临的困境,碎片化和场景化课题这两大课题,三个问题总结的领域知识门槛,将领域数据转换成ai所需的词汇挑战,业务改造的价格问题。 在这种背景下,腾讯云希望为顾客提供效果好、门槛低、场景化/个性化的ai能力属性,帮助公司快速发展。
腾云ai产品
目前,腾讯云ai语音语义产品架构从基层到产品方案层,分为产品运营平台、基础模型服务、应用paas服务和应用方案四个部分。 在各产品的方向上,腾讯云ai提供了详细的ai能力,公司根据自己的业务场景,选择基础模型服务、paas服务、应用程序等不同级别的产品,降低应用公司ai能力的阈值。
在公司顾客落地的过程中,腾讯云注意到顾客的诉求非常全面,除了采用语音语义能力外,还结合了其他相关能力。 腾云也提出了全ai能力处理方案,将脸、车辆、物体识别、图像ai识别、ocr、生物分解、nlp等全ai能力结合在底层,基于ti matrix云智天枢ai应用平台,深入广泛领域,泛民生、泛金
周超老师以联合办公室场景为例,介绍了腾讯云基于实时语音、图像解决的在线实时多人音频视频会议的例子。 会议记录是会议的刚要,方便人们留下重要的会议副本回顾总结。 随着深入学习的出现,语音识别技术越来越成熟,会议纪要的整理形式也从极其昂贵的人工记录中被更多的语音识别自动转录所取代。 腾云语音语义ai提供语音识别、自然语言解决技术、说话人分离、文案摘要提取等功能,处理会议记录场景中存在的各种痛点。
除了合作场景,腾讯云ai能力在泛娱乐、政务民生、金融、呼叫中心等许多场景中都有非常有代表性的例子。 周超老师说,腾讯云将继续进军各个领域输出场景化的处理方案,为满足顾客的二次开发、定制化的诉求,提供完整的ai基础能力输出。
“腾讯云ai希望建立与合作伙伴共赢的ai生态,在产品合作伙伴生态方面进行共同探索、共同开发,在市场共赢生态方面聚集越来越多的战术合作伙伴、渠道共享合作伙伴、认证合作伙伴。 一起建设ai的新生态,加快ai落地化,应对碎片化、场景化的课题。 ”。
与客户提问的中小企业相比,ai技术人员不足,但需要ai能力,腾讯云如何帮助处理的问题,周超老师也回答得非常详细。 他表示无论是基础ai能力的开放还是处理方案的诉求,都可以用腾讯云的ai产品来处理,欢迎客户试用。
腾云nlp能力在法务行业的应用实践
法大合同智能化负责人刘谦带来了腾讯云ai能力在法务场景中的应用实践,也是非常典型的腾讯云和顾客共同建设ai产品的代表例子。
法律领域的现状和痛点
刘谦老师向与会者介绍了法务组员工的日常,在这种情况下员工员工的员工通常分为合同、合规、咨询、部门申诉、争议处理五大类,其中合同中最多,通常是日常员工的70
刘谦老师对合同审查的痛点总结如下。
合同审查工作量大,响应长。
日常合同审查复印件重复,效率很低
合同审查标准不统一,容易出错。
内部控制系统难以贯彻执行,风险很高
对方的风险很难判断。
合同审查的痛点长期扎根于法律领域,基于人性化服务以前的传统模式。 从源头上来说,法务部门属于职能部门而不是销售部门,天生很多人很少,需要用有限部门的人才预算来处理的是持续增长的法务风防的诉求。 过程中,需要人工解决大量合同的复印件,等待业务的诉求,业务量大,繁杂,效率低。 结果反应延迟了。 一方面是企业业务的迅速发展变化,另一方面是功能部门的被动跟进,过程不通。
在这些领域的现状和痛点下,法大大选择与腾讯云合作,共同开发ai产品,提供顾客价值。
制作联合ai产品
合同审查行业的人工智能自古以来就有很多人谈论,最近五年国内没有特别好的产品例子。 要么缺乏基础能力,要么缺乏领域理解,技术上面临三个主要课题。
首先,数据样本非常有限。 年最高法审判文件在网上公布以来,陆续公开的审判文件达到1亿件以上。 样本量好像很多,如果细分为刑法、民法等大分类和其下的小类,各个类别的数量平均可能只不过几千到几百个。 这在ai的训练集中只能算小样本数。
其次是合同样本差异非常大。 合同数据包括领域、业务类型、每个顾客的差异化因素,以及顾客有意或无意的不规范操作,因此每个合同类型的场景之间的差异非常大。
最后,法务审计的要求非常正确,正确的识别是前提条件,召回率、正确率都是必要的,如果不达到高标准,就有很大的风挡漏洞。
法与腾讯云合作,选择基础使用腾讯云ai的技术支持,法加上在法律领域多年的积累,连接优图实验室、腾讯云ai语义算法团队与法大开发团队合作,最终构建这种法律场景的紧迫ai产品 具体的合作模式包括:
该产品目前满足了三层合同审查的诉求,最终目的是基于业务场景、系统流程和法律know-how为参与合同整个生命周期的多个角色提供7x24智能法律合同审查支持
“现在,实际招聘有助于提高客户平均85%的效率。 合同审查的一环是从以前的时间到现在的六七分钟。 一般常见的合同审查不再需要法务人力支持,业务人员可以自己审查完成,顾客满意度相当高。 ”。
最后,吕琴老师也对评论区的讨论问题作了很好的解答。 由于篇幅限制,这里不赘述。
圆桌论道: ai在产业落地中的难度和难度
鲍捷:人工智能已经有好几次高潮和低谷,但我最初接触人工智能是在1998年,当时是比较医疗图像的应用。 之后在法务、防卫等行业也有工作经验,人工智能可以说从以前开始就与4个行业的医疗、法务、政府、金融相关。 我个人现在在金融方向的ai应用,金融这个行业也非常看好。 人工智能的每个落地方向其实都有一个共同的特征。 核心是三个方面。 一是数据需要边界,二是业务需要边界,三是发生错误是否会导致不可逆的结果。 这也可以在人工智能落地的方向上应用这几个维度的检查,所以l5级的自动驾驶不是我应该追求的方向。 因为没有那三个要素。 但是金融、医疗、工业、政务等方向值得探索,我个人认为现在与流程自动化相关的所有事业,其实都值得探索。
徐增林:学术界对人工智能的关注可能与工业界不同。 我们关注的技术不一定现在就能落地,但有非常大的研究价值。 例如,我们研究的认识启发的神经网络和量子启发的神经网络是目前深度学习依赖大规模数据和大量计算资源的问题的重要方法。 我赞同鲍捷老师关于ai边界的意见。 ai落地确实需要抓住路线和场景。 技术上,现在基于5g和网络基础设施(包括边缘计算和云计算),所以通过人工智能+增强现实算法的组合,技术上可以有一定的突破。 让我们预测一下未来ai爆款产品的行业。 我个人认为可能会出现在医疗健康行业。 将来的ai会越来越了解医生,医生会慢慢ai化。
周超:腾讯云ai帮助各类公司业务落地,首先关注ai入场后可以降低公司的价值成本,第二关注ai交替提高公司效率,第三这个交替本身具备创新性。 在这种粗略评价下,现在腾讯云的ai已经在很多领域,在医疗、教育、政务、文旅、金融、能源等领域的公司中深入落地。 腾云提供的全ai能力的处理方案是应用和落地改善领域、公司的业务流程。 在这个过程中,腾讯云不能全面,提供开放的基础能力,以合作伙伴的深度和共同构建的方法共同探索。
卢科伊:个体认为语音识别技术还不够成熟,简单精度的数字现在本身没有什么意义。 这背后的逻辑其实是两个理由,第一不能涵盖所有场景,第二不能涵盖所有人。 场景采用、人群采用、地区口音方言等因素综合影响,语音识别技术还有很长的路要走。 我们未来努力的方向是涵盖越来越多的场景,涵盖越来越多的人,轻松采用更多的场景、更多的人语音识别这一技术来提高效率。
柳琴:法是在ai产品落地的过程中,最初考虑的产品计划是以合同为中心展开的,试图理解该产品的逻辑和实际痛点后,发现顾客的诉求不断变化,从简单的电子合同签名到管理需求的分析需求,反之 因为我们找到了真正的顾客价值。 与滕信云的合作赋予了我们非常强的模型调整能力和数据解决的正确性,大大提高了产品的效果,顾客也非常信任。 这对法律、业务和企业来说是许多胜利的局面。
圆桌会议上,几位嘉宾对ai创业方向的选择、学术研究方向等议题也作了精彩的论述。 作为正式闭门会主持人的腾讯云ai语音语义和应用平台产品中心专家产品经理王天也提供了对ai落地的未来趋势评价。
结语
人工智能要寻找60年的价值,从实践中追求。
tvp组织这次ai技术闭门会,以计算机视觉、ai语音意义两大热门技术风口为话题,输出行业6小时未保存的经验分享,邀请12名学术界、工业界工作的大咖啡馆技术和商业趋势,ai技术概念
在这个技术交流和商业思维冲突的宴会上,我们看到了计算机视觉的新应用,看到了ai语音意义的快速发展脉络,看到了从灵感到产品落地的创业故事,看到了死亡敲门技术永不言败的探索精神。
时代赋予技术风口,商业赋予技术舞台,开发者赋予技术是无限的可能性。
关于tvp技术闭门会
tvp是云计算最有价值的专家( tencentcloudvaluableprofessional ),是颁发给云计算行业技术人员的奖项。 tvp致力于与领域技术专家建立通信平台,构建云计算技术生态,实现“以技术影响世界”的美好愿景。
tvp技术闭门会是为tvp构建的专用技术闭门研讨会,目的是提供开放、平等、不为人知的交流环境,使tvp们能够比较受欢迎的技术、尖端技术、技术管理等话题进行深入研究
标题:“语音识别技术快速发展史与领域最佳实践全解析”
地址:http://www.shcafe.org/shzxxw/128225.html