文章1:《二进制翻译技术综述》
概述:随着信息技术的快速发展,涌现出各种新型处理器体系结构。新的体系结构出现为处理器多样化发展带来机遇的同时也提出了巨大挑战,需要兼容运行已有软件,确保较为丰富的软件生态群。但要在短期内从源码编译构建大量生态软件并非易事,二进制翻译作为一种直接从二进制层面迁移可执行代码技术,支持跨平台软件兼容运行,既扩大了软件生态群,又有效降低了应用程序与硬件之间的耦合度。近年来,二进制翻译技术研究取得了较大进展。为总结现有成果并分析存在的不足,首先介绍二进制翻译技术的分类以及典型的二进制翻译系统,之后从指令翻译方法、关键问题研究、优化技术等方面分别进行分析总结,接着阐述二进制翻译技术的核心应用领域,最后对二进制翻译技术的潜在研究方向进行展望。
作者简介:谢汶兵,博士生,无锡先进技术研究院, 主要研究领域为编译优化、程序分析、二进制翻译。
漆锋滨,博士,正高级工程师,博士生导师,CCF 会士,国家并行计算机工程技术研究中心,主要研究领域为高性能计算、编译优化、并行算法,E-mail: qifb116@sina.com 。
引用:谢汶兵,田雪,等.二进制翻译技术综述[J]. 软件学报,2024,6: 2687-2723.
全文:点击下载
文章2:《结合SVM与XGBoost的链式多路径覆盖测试用例生成》
概述:机器学习方法可很好地与软件测试相结合,增强测试效果,但少有学者将其运用于测试数据生成方面。为进一步提高测试数据生成效率,提出一种结合SVM (support vector machine)和XGBoost (extreme gradient boosting)的链式模型,并基于此模型借助遗传算法实现多路径测试数据生成。首先,利用一定样本训练若干个用于预测路径节点状态的子模型(SVM和XGBoost),通过子模型的预测精度值筛选最优子模型,并根据路径节点顺序将其依次链接,形成一个链式模型C-SVMXGBoost (chained SVM and XGBoost)。在利用遗传算法生成测试用例时,使用训练好的链式模型代替插桩法获取测试数据覆盖路径(预测路径),寻找预测路径与目标路径相似的路径集,对存在相似路径集的预测路径进行插桩验证,获取精确路径,计算适应度值。在交叉变异过程中引入样本集中路径层级深度较大的优秀测试用例进行重用,生成覆盖目标路径的测试数据。最后,保留进化生成中产生的适应度较高的个体,更新链式模型C-SVMXGBoost,进一步提高测试效率。实验表明, C-SVMXGBoost较其他各对比链式模型更适合解决路径预测问题,可提高测试效率。并且通过与已有经典方法相比,所提方法在覆盖率上提高可达15%,平均进化代数也有所降低,在较大规模程序上其降低百分比可达65%。
作者简介:钱忠胜,博士,江西财经大学信息管理学院教授,博士生导师,CCF 专业会员,主要研究领域为软件工程、机器学习、智能化软件,E-mail: changesme@163.com 。
俞情媛,江西财经大学信息管理学院博士生,CCF 学生会员,主要研究领域为软件工程、机器学习。
引用:钱忠胜,俞情媛,等. 结合SVM与XGBoost的链式多路径覆盖测试用例生成[J]. 软件学报,2024,6: 2795-2820.
全文:点击下载
文章3:《中文医疗文本中的嵌套实体识别方法》
概述:实体识别是信息抽取的关键技术。相较于普通文本,中文医疗文本的实体识别任务往往面对大量的嵌套实体。以往识别实体的方法往往忽视了医疗文本本身所特有的实体嵌套规则而直接采用序列标注方法,为此,提出一种融合实体嵌套规则的中文实体识别方法。所提方法在训练过程中将实体的识别任务转化为实体的边界识别与边界首尾关系识别的联合训练任务,在解码过程中结合从实际医疗文本中所总结出来的实体嵌套规则对解码结果进行过滤,从而使得识别结果能够符合实际文本中内外层实体嵌套组合的组成规律。在公开的医疗文本实体识别的实验上取得良好的效果。数据集上的实验表明,所提方法在嵌套类型实体识别性能上显著优于已有的方法,在整体准确率方面比最先进的方法提高0.5%。
作者简介:闫璟辉,博士,北京交通大学计算机与信息工程学院,主要研究领域为知识抽取、自然语言处理。
宗成庆,博士,研究员,博士生导师,CCF 会士,北京交通大学计算机与信息工程学院,模式识别国家重点研究室 (中国科学院自动化研究所),主要研究领域为机器翻译、自然语言处理,E-mail: cqzong@nlpr.ia.ac.cn。
引用:闫璟辉, 宗成庆, 徐金安. 中文医疗文本中的嵌套实体识别方法[J] . 软件学报,2024,6: 2923-2935.
全文:点击下载