MedGo是一个专门针对中文医疗领域的大语言模型。该模型通过结合高质量的无监督医疗数据、监督数据以及偏好对齐数据进行训练,旨在提升模型在医疗任务中的通用性和准确性。在公开的 CBLUE 基准测试和人工构建的 ClinicalQA 数据集上,MedGo 都取得了优异的表现。目前该模型已经在上海东方医院成功部署应用(Bo An, 2024)。
在医疗大语言模型的多语言扩展方面,研究者提出了一种新颖的基于语言族专家混合的方法,可以高效地将医疗大语言模型扩展到50种语言。该方法采用了 Post-MoE 架构,在后期层使用稀疏路由,而在其他层保持密集连接。实验结果表明,这种方法在保持可解释性的同时,增强了多语言模型对其他语言的泛化能力(Xidong Wang, 2024)。
CT-LLM 是一个具有 2B 参数规模的大语言模型,其训练数据包含了 1200 亿 tokens,其中中文占 800 亿、英文占 300 亿、代码占 100 亿。该模型优先考虑中文语言,在 CHC-Bench 等中文语言任务上表现出色(Xinrun Du et al., 2024)。
Chinese-Mixtral 是基于 Mixtral-8x7B-v0.1 开发的模型。通过进一步的预训练和指令微调,该模型成功提升了中文理解和生成能力,同时保持了原有的英语能力(Yiming Cui, 2024)。
Hyacinth6B 是一个轻量级的模型,其设计目标是在模型轻量化和性能之间寻找平衡。该模型采用 LoRA 方法进行参数高效微调,旨在充分利用大语言模型的核心能力,同时避免产生巨大的资源开销(Chih Wei Song, 2024)。
LawGPT是首个专门面向中文法律应用的开源大语言模型。该模型包含两个关键组成部分:法律导向的预训练和法律知识驱动的指令微调。在预训练阶段,模型使用大规模中文法律文档进行训练,以整合法律领域知识。在微调阶段,研究团队创建了知识驱动的指令数据集用于法律监督微调,以提升模型在下游法律任务中的表现。实验结果表明,LawGPT的性能超过了开源的 LLaMA 7B 模型(Zhou, 2024)。
TCM-Prompt框架整合了多种预训练语言模型,并结合了模板、分词和语言化方法,使研究人员能够轻松构建和微调特定的中医相关任务模型。该框架支持疾病分类、症候识别和中药推荐等多项任务。研究团队在这些任务上进行了实验,证明了该方法相比基线方法具有更好的效果。研究结果表明,提示工程是一种很有前景的技术,可以提高大语言模型在中医等专业领域的表现,并在数字化、现代化和个性化医疗方面具有潜在的应用价值(Wang, 2024)。
一项基于30000多篇论文的大规模研究显示,大语言模型正在对学术写作产生影响。研究发现,类似「significant」这样的大语言模型风格用词在论文摘要中的使用频率正在增加(Geng, 2024)。
该研究同时分析了1000多个学术演讲,发现大语言模型对口头表达的影响已经开始显现。研究者指出,这种影响在未来可能会进一步增长,这反映出大语言模型对人类社会的隐性影响和连锁效应(Geng, 2024)。