计算机人工智能前沿进展-大语言模型方向-2024-09-18

1. The Application of Large Language Models in Primary Healthcare Services and the Challenges

W YAN, J HU, H ZENG, M LIU, W LIANG - Chinese General Practice, 2024

人工智能大语言模型在基层医疗卫生服务中的应用与挑战

摘要

本文探讨了人工智能大语言模型（LLM）在基层医疗卫生服务中的应用及其面临的挑战。在中国，基层医疗系统面临医疗资源不平衡、医生短缺和慢性病管理等问题。LLM在医疗系统中显示出强大的优势，本文深入探讨了其在基层医疗系统中的应用，并提出了深化LLM应用的建议，以辅助基层医生进行常见病诊疗，推动智能化健康教育和慢性病管理，支持"老少边穷"地区的基层卫生服务，并促进全科医学的发展。文章还讨论了LLM在全科诊疗和基层卫生服务产业化中的潜力，为健康中国建设提供支持。

创新点

多模态信息处理能力：LLM能够处理包括文本、图像、数值等在内的多种类型的医疗健康数据。
泛化能力：与特定任务训练的模型不同，LLM作为通用模型，理论上可以适应各种不同的医疗任务。
高精度和实时性：LLM在医学图像识别、基因序列分析和疾病预测等方面展现出高度精确的结果，并能实时分析新数据。
个性化医疗服务：LLM能够提供个性化的医疗建议，满足不同患者的特殊需求。

算法模型

LLM（Large Language Models）：拥有数十亿至数百亿参数的复杂机器学习模型，能够执行自然语言处理、计算机视觉、语音识别等任务。
GMAI（Generalist Medical Artificial Intelligence）：通用医疗人工智能，能够适应多种医疗任务。
LLaVA-Med：微软开发的新型大型语言模型，能够处理多模态医疗信息。

实验效果

Med-PaLM-2：在USMLE（美国医疗执照考试）中的准确率达到86.5%。
LLaVA-Med：能够分析CT和X光片等医学影像，并推断患者潜在的病理情况。
社区和农村应用：通过辅助诊断系统，提升基层医生的专科技能，提高诊断准确率，减少误诊和漏诊。

推荐阅读指数 ：

★★☆☆☆

推荐理由

跨学科价值：文章涉及医学、公共卫生和人工智能的交叉领域，对于跨学科研究者具有较高的参考价值。
实际应用前景：探讨了LLM在实际基层医疗环境中的应用，对提升医疗服务质量和效率具有指导意义。
挑战与机遇并存：文章不仅展示了LLM的潜力，也诚实地讨论了在实际应用中可能遇到的挑战，为未来的研究方向提供了思路。
政策和战略层面的启示：对于制定相关健康政策和推动医疗改革的决策者来说，提供了有价值的信息和建议。

2. AI and the Increase of Productivity and Labor Inequality in Latin America: Potential Impact of Large Language Models on Latin American Workforce

OA Herrera, L Ripani, ET Ramirez - 2024

人工智能与拉丁美洲生产力和劳动不平等的增加：大型语言模型对拉丁美洲劳动力的潜在影响

摘要

本文评估了大型语言模型（LLMs）对智利、墨西哥和秘鲁劳动力市场的潜在影响。研究采用了Eloundo等人（2023年）的方法，通过详细的指导方针（评分标准）来评估每个工作是否因访问LLM软件而减少完成日常任务所需的时间。研究将此方法适应拉丁美洲的背景，开发了职业信息网络（O*NET）与区域职业分类之间的全面交叉对照表。调整后的数据显示，SINCO-2011和ISCO-2008分类下职业的理论平均任务暴露率分别为27%和23%。研究还发现，女性、受教育程度较高、正式雇员和高收入群体的暴露率更高，这表明采用这种技术可能会增加该地区的劳动不平等。

创新点

将Eloundo等人（2023年）的方法适应拉丁美洲的劳动力市场，开发了O*NET与SINCO-2011和ISCO-2008之间的交叉对照表。
考虑了拉丁美洲各国劳动力市场的独特特征，对任务暴露率进行了调整，以更准确地反映LLMs集成在拉丁美洲环境中的实际影响。
分析了LLMs技术对不同社会经济群体的影响，揭示了技术采用可能加剧劳动不平等的趋势。

算法模型

大型语言模型（LLMs）：使用深度学习技术和大数据来处理和生成具有连贯沟通感的文本。
GPT-4：用于生成任务暴露率的评分标准，与人类评估者的结果进行比较。

实验效果

任务暴露率：在SINCO-2011和ISCO-2008分类下，调整后的任务暴露率分别为27%和23%。
受影响的职业比例：在墨西哥、智利和秘鲁，超过10%任务暴露的工作岗位比例分别为74%、76%和76%。当暴露阈值提高到40%或更高时，受影响的职业比例显著下降。
社会经济条件分析：女性、受教育程度较高、正式雇员和高收入群体的暴露率更高。

结论

研究强调了需要有针对性的政策干预和适应性策略，以确保向AI增强型劳动力市场的过渡能够惠及所有社会经济群体，并最小化干扰。

推荐阅读指数 ：

★★★★☆

推荐理由：这篇论文提供了对拉丁美洲劳动力市场如何受到大型语言模型影响的深入分析，特别是在考虑社会经济差异的情况下。对于政策制定者、经济学家以及对人工智能在全球化背景下影响感兴趣的研究人员来说，这是一篇有价值的资源。论文的方法论创新和对社会经济不平等的探讨，为理解技术进步如何塑造未来工作市场提供了重要见解。

3. Utilizing Large Language Models for Indoor Tour Guidance

Z Jiang, I Huang, X Wang - 2024

利用大型语言模型进行室内导览服务

摘要

本文介绍了一个基于大型语言模型（LLMs）的室内导览系统IndoorRoaming，旨在自动化室内导览中的三个核心任务：路径查找、导览规划和导览问答。该系统利用室内实体图（Indoor Entity Graph）增强LLMs对室内环境的精确理解，集成了状态驱动的动态规划方法（State-Driven Dynamic Planning）以实现交互式和自适应的导览规划，并通过对象标记工作流（Object Labelling Workflow）增强LLMs的多模态能力，使其更有效地处理视觉问答任务。通过对LLMs进行指令调整和微调，以适应系统功能，提供与人类导游相当的室内导览服务。在大型购物中心和博物馆进行了广泛的测试，并通过定量用户研究展示了IndoorRoaming在准确性、生成质量和用户满意度方面的有效性。

创新点

室内实体图：提出了一种新的室内实体图，帮助LLMs准确理解室内环境并生成精确的路径指导。
状态驱动的动态规划方法：为LLMs提供了一种新的方法来执行室内导览规划任务，能够根据游客的输入或偏好动态修改导览路线。
对象标记工作流：设计了一个新工作流，通过对象检测模型动态调整对象标签，提高视觉问答任务中的空间参考准确性。
指令调整和微调：对LLMs进行指令调整和微调，使其能够更好地执行导览任务。

算法模型

Indoor Entity Graph：用于表示室内空间的节点、边和转弯，帮助LLMs理解室内布局。
State-Driven Dynamic Planning (SDDP)：一种基于状态的规划方法，用于动态调整导览计划。
Object Labelling Workflow：结合对象检测模型，用于视觉问答中的空间参考问题。

实验效果

路径查找任务：在准确性、生成质量和响应时间方面得分均在4分以上，显示出室内实体图在空间知识学习和路径查找中的有效性。
导览规划任务：在准确性、生成质量和响应时间方面得分均在4分以上，显示出SDDP方法在交互式导览规划中的优势。
视觉问答任务：生成质量和用户满意度得分均在4分以上，显示出对象标记工作流在视觉问答任务中的有效性。

结论

IndoorRoaming系统在室内导览服务方面表现出色，能够有效执行路径查找、导览规划和导览问答等核心任务。该系统在实际应用中具有很大的潜力，是室内空间建模和推理研究领域的一个重要进展。

推荐阅读指数 ：

★★★★☆

推荐理由：这篇论文提出了一个创新的室内导览系统，通过结合LLMs和特定的算法模型，有效地解决了室内导览中的多个挑战。论文的实验结果表明，该系统在实际应用场景中具有良好的性能和用户接受度。对于从事室内导航、人工智能和人机交互研究的学者和专业人士来说，这篇论文提供了有价值的见解和潜在的应用方向。

4. Vizard: Improving Visual Data Literacy with Large Language Models

RZ Sarfraz, S Haider - Proceedings of the VLDB Endowment. ISSN

Vizard：用大型语言模型提升视觉数据素养

摘要

数据可视化在我们的专业和个人生活中非常普遍，但许多人仍然难以有效使用这些工具并从中提取有意义的见解。尤其在发展中国家，语言障碍和技术技能的限制使得数据可视化素养面临额外挑战。本文介绍了Vizard，这是一个仪表板伴侣工具，使用大型语言模型（LLMs）为用户分析数据可视化，并用他们选择的语言解释其元素，并根据用户行业和职位角色提供基于观察到的趋势的见解和建议。

创新点

Vizard系统：一个可定制的LLM驱动的仪表板伴侣工具，能够分析并解释图形可视化，适用于不同数据可视化素养（DVL）水平的用户。
评估框架：提出了一个新的评估可视化素养的框架，使用程序生成的问题，根据参与者的兴趣和当前的可视化素养水平进行定制。
开源：Vizard代码、资源和框架使用示例向社区开放，以鼓励这一方向的更多研究。

算法模型

大型语言模型（LLMs）：用于分析数据可视化并生成解释文本。
程序生成的问题：根据用户的行业、兴趣和可视化素养水平自动生成问题和测试。

实验效果

用户调查：在发展中国家针对需要日常进行数据分析工作的75名个体进行了调查，发现大多数受访者认为Vizard将有助于他们更好地理解数据。
反馈：超过90%的受访者表示Vizard这样的工具对他们来说非常有价值。

结论

Vizard作为一个新颖的适应性可视化素养教育和评估框架，能够作为一个可定制的仪表板，以用户首选的语言解释复杂图表给不同DVL水平的用户。尽管用户调查给出了积极的反馈，但作者计划在未来的工作中通过进行焦点小组讨论来改进Vizard的用户体验，并进行长期研究以衡量其对用户素养水平的影响。

推荐阅读指数 ：

★★★★☆

推荐理由：这篇论文介绍了一个创新的工具Vizard，它利用最新的LLM技术来提高用户对数据可视化的理解，特别是在发展中国家面临语言和技术障碍的背景下。Vizard的开发考虑了多语言和多模态推理能力，使其在全球范围内具有广泛的应用潜力。论文还提出了一个评估框架，并通过用户调查收集了反馈，为未来在这一领域的研究提供了有价值的见解。对于从事数据可视化、教育技术或全球发展研究的专业人士和学者来说，这篇论文提供了一个有趣的案例研究和潜在的应用方向。

5. Recursive In-Context Learning for Autonomous Prompt Generation in Large Language Models: A Self-Instructed Approach

J Yilar, O Foster, B Woods

通过大型语言模型实现自主提示生成的递归上下文学习：一种自指导方法

摘要

本文介绍了一种新颖的递归上下文学习框架，通过自我指导的提示优化，使模型能够在没有外部指导的情况下动态改进输出。通过多个迭代周期，基于前一次输出的质量调整提示，显著提高了词汇精确度、语义相关性和任务完成准确度。该框架展示了在减少对人工干预的依赖的同时，保持了多次迭代中的高多样性和连贯性。实验结果显示，在技术写作、会话代理和内容摘要化等多个领域中，模型性能均有一致的提高，强化了递归学习在创建更适应性强、效率更高的模型中的潜力。通过使用BLEU、ROUGE和BERTScore等自动化评估指标，模型的性能得到了量化和分析，确认了递归反馈机制在实现高质量提示生成方面的有效性。

创新点

递归上下文学习框架：提出了一种新型的递归学习框架，使大型语言模型（LLMs）能够通过自我指导的过程动态优化提示，从而提高输出质量。
自我指导的提示优化：模型能够基于先前输出的质量自主调整提示，减少了人工干预的需求。
多领域一致性提升：在多个领域（技术写作、对话代理、内容摘要）中显示出性能提升，证明了递归学习框架的广泛适用性。

算法模型

递归上下文学习：通过递归方式不断优化提示和输出，使模型能够自主学习和改进。
自动化评估指标：使用BLEU、ROUGE和BERTScore等指标来量化和分析模型输出的质量。

实验效果

词汇精确度提升：BLEU分数在多个任务中随迭代次数增加而提高，显示出模型在词汇精确度上的显著改进。
语义相关性增强：BERTScore分数的提升表明模型在捕捉提示的深层语义意图方面变得更加有效。
任务特定一致性和完成率提高：自定义评估工具显示，模型在多步任务中的逻辑一致性和任务完成率随着迭代次数的增加而提高。
输出多样性：递归学习过程不仅提高了输出质量，还增强了模型生成多样化响应的能力。

结论

递归上下文学习框架有效地提高了LLMs在多种自然语言处理任务中的提示生成和整体输出质量。通过迭代反馈机制，模型能够逐步提高对任务特定目标的理解，显著改善生成内容的词汇精确度、语义相关性和连贯性。

推荐阅读指数 ：

★★★★☆

推荐理由：这篇论文提出了一种创新的递归学习框架，对于希望在自然语言处理领域内提高模型性能和自主性的研究人员来说，具有很高的参考价值。研究展示了通过自我指导和递归学习显著提升大型语言模型在多个任务上的表现，这对于开发更高效、适应性更强的AI应用具有重要意义。此外，论文还提供了详细的实验数据和分析，有助于读者深入理解该框架的优势和潜在的应用场景。