About us常见问题

人皆孤独?他们用通义千问开发了一款心理大模型

来源自:常见问题    点击数:1   发布时间:2024-07-22 20:01:48

  12月1日,阿里云举办通义千问发布会,开源通义千问720亿参数模型Qwen-72B、18亿参数模型Qwen-1.8B和音频大模型Qwen-Audio。至此,通义千问共开源18亿、70亿、140亿、720亿参数的4款大语言模型,以及视觉理解、音频理解两款多模态大模型,实现了“全尺寸、全模态”的开源。

  基于开源的大语言模型,用户可在魔搭社区直接体验Qwen系列模型效果,也可通过阿里云灵积平台调用模型API,或基于阿里云百炼平台定制大模型应用。

  颜鑫,华东理工大学“心动实验室”(X-D Lab)成员,一位刚刚毕业的本科生。他所在的团队,现在正专注于社会计算和心理情感领域的AI应用开发。基于开源的通义千问开源模型,他们开发了心理健康、医疗健康、教育及考试三款大模型,并希望实现产品化。

  我是“00后”,就读于华东理工大学自动化专业,今年(2023年)刚刚本科毕业。

  “心动实验室”此前的研究方向包括社会计算与社会智能、群体智能与隐私保护、公共卫生与舆情监测、工业智能与智能系统等,大模型出现后,我们聚焦AI情感计算领域,希望利用大语言模型、自然语言处理、机器学习、联邦学习等技术,开发一些好的应用,抚慰和治愈当代人的心灵。

  我们做了三款垂直领域大模型:心理健康大模型MindChat(漫谈),主要提供心理抚慰、心理测评等服务;医疗健康大模型 Sunsimiao(孙思邈),主要提供一些用药和养生建议;教育/考试大模型 Gradchat(锦鲤),给学生提供就业、升学、出国留学等方面的指导。

  MindChat是一款心理咨询工具, 像个AI心理咨询师,能在温暖、安全、及时、方便的对话环境下,为用户更好的提供心理评估等服务。我们在Qwen基础上,结合心理学专业相关知识,训练与调试了该模型,你们可以通过阿里云魔搭社区体验。

  打工人上班被老板骂了,心里不爽;学生写不出论文,影响毕业……遇到这些事情,都可以去跟MindChat聊聊,还可以语音输入。MindChat会共情用户,通过文字内容和语音语调,分析用户的情感和心理健康状态,给出相应的建议,包括要不要真正的人类专家/心理专家介入。

  现代社会,需要心理咨询或心理陪伴的人很多,中国人不习惯找心理医生,不是自己憋着,就是跟家人朋友倾诉。家人朋友的好处是,能给出实时的反馈。我们大家都希望MindChat成为用户的朋友,能为人们提供安全的、实时反馈的沟通环境。

  目前已有超过20万人次用过我们的大模型,我们累计提供了超过100万次的问答服务。大家问得最多的就是升学、考研、就业、职场之类的压力。我们的感觉是,现代人的心理健康状态都比较低落,有的人很丧,有的人戾气很重。

  这个项目起源于我跟老师在饭桌上的一次对话。我的老师之前在德国发展,长居德国,三四年前为了照顾家里老人,回到了国内。我是一个人在外求学,留爷爷奶奶孤独在家,偶尔会打打电话。但这些都不够,家人还是缺少陪伴。

  孤独可能是这个社会的普遍情绪,科技能不能带来一点帮助呢?用简单易用的界面提供服务,让孤独的人找到情绪出口,保持与社会的连接。所以我们决定开发心理大模型。

  大模型应用落地的驱动力,不应该是“为技术找场景”,而应该是“为场景找技术”。

  心理服务就是这样的场景,它在整个社会有很大的需求空间,而整体供给又很匮乏,优质可靠的心理咨询服务在很多地方都是奢侈品。我们想用大模型技术把这类服务变得普惠。

  我们做这件事最开始是很偶然的,整个小团队从模型微调开始,一点点摸索。但做着做着发现,在解决一些需求点的时候,我们又回归到主业上。比如联邦学习,这是一种针对分布式系统的机器学习技术,能够使用各种隐私技术(如加密技术等),确保参与联邦学习的各方做出有用的计算,同时保证用户数据不被泄露。我们在做模型微调时,就关注信息隐私保护和数据加密,采用分布式架构存储与分析训练数据,很好地保护了用户个人信息。这可能也是场景驱动带来的惊喜吧。

  医疗、心理都是很注重隐私的场景,很多客户都要求私有化部署,所以我们最终选择开源模型。我们从始至终在追踪开源领域大模型的发展,Qwen出现之前,我们试用了一些其他模型,比如ChatGLM、Baichuan、InternLM。

  Qwen-7B和14B推出后,我们快速做了试验,用内部数据和自己的benchmark做了测评。在我们的场景中,通义千问是所有的开源模型里发挥最好的,是目前的最优解。尤其在复杂的逻辑推理方面,通义千问表现出很强的能力。在同样的对焦实验下,当我们用同样的方法、把同样规模的数据应用到各个开源模型,Qwen的效果比其他模型好得多。所以,我们的三款垂直领域大模型主要以Qwen为基座。

  是否可持续。我们没资源从头训练一个基座模型,从市场上选模型的第一个考量就是,它背后的机构能不能给模型很好的背书,能不能持续投入基座模型及其生态建设?为跟风、吃红利而生的大模型不可持续。阿里云是国内“大厂”里唯一开源大模型的组织,能把通义千问72B这么大尺寸的模型都开源出来,说明在开源上是有决心的、能持续投入的。

  是否有生态。我们大家都希望选择主流的、稳定的模型架构,它能最大限度发挥生态的力量,匹配上下游的环境。通义千问开源模型是符合标准要求的。

  是否满足场景需求。心理领域需要温柔、知性、能共情的大模型,教育大模型要有丰富的知识、优秀的计算能力和调用外部工具的能力。不同厂家的模型性格各异,从知识结构来说,有的模型像文科生,千问像理科生。

  从可持续性、生态和场景适配这三个维度判断,通义千问成了当下最优解。此前有一家公司找我们合作,我们只用20万tokens的数据微调了Qwen基座模型,就得到了比另一家用百万级数据微调的模型更好的效果。这证明了通义千问基座模型的能力,也证明了我们有很好的行业know-how。

  至于模型大小,7B、14B等的模型各有适用场景。我们有些心理领域的客户要私有化部署模型,也要控制算力消耗,这时我们推荐 7B。有些客户对模型性能要求更高,我们就优先推荐14B。总之,在性能和成本之间找到最佳平衡。我们也在探索模型的量化、压缩、推理加速等技术,希望未来能让大模型部署到手机等端侧场景。

  我对72B的模型抱有非常大的期待,好奇72B在我们领域中的能力极限值。高校计算资源有限,我们可能不会用这么大参数的模型直接做推理服务,但可能基于Qwen-72B 做些学术探索,包括利用联邦学习算法处理数据。也希望72B的推理成本能得到很好的控制。

  我们团队都是坚定的开源支持者,X-D Lab采取开闭源两条腿走路的策略,一部分模型对外开源,反哺开源社区;另一部分适用于真实场景的模型以闭源API的方式对外提供服务。也是根据场景需求来做匹配。