2023年7月
专题:跨域数据管理

作者:杜小勇, 柴云鹏
择要:2023年2月,中共中心、国务院印发《数字中国培植整体布局方案》,指出培植数字中国是数字时期推进中国式当代化的主要引擎,加快数字中国培植,对全面培植社会主义当代化国家、全面推进中华民族伟大复兴具有主要意义和深远影响;要做到数字根本举动步伐高效连通,数据资源规模和质量加快提升,数据要素代价有效开释,大力推动数字经济发展,政务数字化智能化提升,加强数字文化、数字社会和数字生态文明培植。数据已经成为第五生产要素,数据的代价将得到进一步的开释。在这样的背景下,数据管理技能也面临前所未有的巨大寻衅。数据管理正在从面向业务和限于单域的伶仃做事模式,发展为面向流利交易和跨域共享的协同做事模式,即进入了跨域数据管理时期。跨域为数据管理带来了全新的寻衅,例如跨空间域引入了网络时延显著增大和不愿定性网络的问题,跨统领域引入了异构数据模型领悟与统一管理的问题,跨信赖域引入了数据安全与隐私保护的问题,同时,跨域也使数据共享、数据质量等数据管理问题更加突出,与数据管理密不可分。
基于此,本刊以“跨域数据管理”为主题进行征文,以推动学术界和家当界面向国家数字中国重大计策需求开展研究,积极办理跨域数据管理的关键寻衅。专题终极任命8篇文章,内容覆盖了数据管理、数据管理、跨域运用等主题。
原文链接:https://www.infocomm-journal.com/bdr/article/2023/2096-0271/2096-0271-9-4-00001.shtml
跨空间域数据管理分布式共识算法:现状、寻衅和展望
作者:李伟明, 李彤, 张大方, 戴隆超, 柴云鹏
择要:随着数字经济的飞速发展,以及“全国一体化数据中央”和“东数西算”等根本举动步伐的不断完善,数据要素流利的大趋势使数据做事逐步由面向单一空间域的数据管理转变为面向跨空间域的数据管理。跨域数据管理须要通过分布式共识算法使数据同等。然而,已有的分布式共识算法仅考虑单数据中央的情形,没有考虑跨数据中央之间的网络通信的不愿定性,从而在跨空间域场景下面临日志同步时延大、系统吞吐量拙劣等问题。系统地梳理了跨空间域下的分布式共识算法的现状以及面临的新寻衅,并针对办理这些寻衅的技能路线进行了展望。
原文链接:https://www.infocomm-journal.com/bdr/article/2023/2096-0271/2096-0271-9-4-00003.shtml
Harp:面向跨空间域的分布式事务优化算法
作者:庄琪钰, 李彤, 卢卫, 杜小勇
择要:近数据打算范式驱动了银行、券商在全国或环球范围内培植多个数据中央。在传统的业务模式中,事务聚焦单个数据中央的数据访问。随着业务模式的变革,跨数据中央的分布式事务成为常态,例如,银行账户之间的转账、游戏账户之间的装备交流等,而这些账户的数据存储在不同区域的数据中央上。分布式事务处理须要两阶段提交协议来担保各参与节点子事务提交的原子性。在跨空间域场景下,节点之间的网络时延更长且存在差异性,传统的事务处理技能须要拓展,以担保系统能够供应较高的吞吐量。在剖析了跨域事务存在的问题和优化空间后,提出了一种新的分布式事务处理算法Harp。Harp在担保可串行化隔离级别的条件下,根据网络时延的差异,将部分子事务延迟实行,减少了事务的锁争用时长,提升系统并发度和吞吐量。实验表明,在YCSB负载下,Harp的性能比传统算法提升了1.39倍。
原文链接:https://www.infocomm-journal.com/bdr/article/2023/2096-0271/2096-0271-9-4-00016.shtml
跨信赖域的联邦k-支配Skyline查询算法
作者:史烨轩, 童咏昕, 周昊, 容许, 吕卫锋
择要:k-支配Skyline查询是一种主流的Skyline查询变种,其在多目标决策与推举领域有着广泛的运用。随着这些运用规模不断扩大,在由多个参与方组成的数据联邦中进行跨域k-支配Skyline查询的需求日益兴旺。然而,由于数据联邦中的参与方之间彼此不互信,进行跨信赖域的查询打算需引入大量安全操作,效率较低。为此提出了一种基于跨域隐私向量聚合的算法,从而实现高效的联邦k-支配Skyline查询,并利用一种密文压缩技能进一步优化查询效率,末了通过充分的实验验证了所提方案的优胜性。
原文链接:https://www.infocomm-journal.com/bdr/article/2023/2096-0271/2096-0271-9-4-00032.shtml
基于数据工具的跨域情报可信共享
作者:彭泰, 孙晶, 陈旭涧, 周纤, 叶宇铭, 白晓颖
择要:情报数据作为一种高代价的数据资产,被存储在不同平台,被不同主体所持有,具有高分散性和低可用性特点。由于构造形态与存储办法不同,多源异构情报数据难以实现高效汇聚共享,多主体特工报信息领悟和综合剖析利用存在较大困难。因此亟须在跨域情报主体间建立安全可信的共享互操作机制,在知够数据确权、安全审计等管理哀求的同时,实现情报信息的深度挖掘。针对跨域情报数据可信共享需求与运用特点,提出基于数据工具的情报管理方法,并采取数字工具体系架构及区块链可信访问掌握技能构建跨域情报数据可信共享系统,实现多源异构情报数据的视图统一和跨域可信共享,为情报数据领悟汇聚、情报信息智能剖析供应技能支撑,充分挖掘情报信息的巨大潜力。
原文链接:https://www.infocomm-journal.com/bdr/article/2023/2096-0271/2096-0271-9-4-00044.shtml
人工参与的迭代式数据洗濯方法研究
作者:刘一达, 丁小欧, 王宏志, 杨东华
择要:数据采集技能的进步导致了数据集规模的飞速上涨,由于数据的大规模和高繁芜性引起了严重的数据质量问题,数据洗濯是数据活动中必要且主要的环节。为了在担保洗濯准确率的情形下有效地降落人工标注本钱,提出了一种人工参与的迭代式的数据洗濯方法(IDCHI)。该方法在检测模块中提出了数据选择优化方法,使分类器在初始阶段就拥有较高的准确度;并进一步提出了待人工标注数据选择方法,有效地降落人工标注的数据量。实验结果表明该方法可有效且高效地洗濯缺点数据。
原文链接:https://www.infocomm-journal.com/bdr/article/2023/2096-0271/2096-0271-9-4-00059.shtml
基于多源异构时空数据领悟的交通流量预测模型
作者:安洋, 孙健玮, 李倩, 宫永顺
择要:交通流量预测问题具有多源异构性,未来时候的流量不仅与之前时候的流量干系,同时也受城市区域间关系、景象情形、兴趣点(point of interest,POI)等异构时空数据的影响。针对此问题,提出一种基于多源异构时空数据领悟的交通流量预测模型MHF-STNet。首先利用聚类方法得到城市区域不同的流量模式,并利用拼接、权重相加、把稳力机制等多种办法领悟交通流量、城市区域间的位置关系、景象、POI、事情日、假期多个模态的时空数据,利用深度学习方法对异构数据统一建模,预测未来时候的交通流量。在北京出租车、纽约出租车和纽约自行车3个流量数据集上进行实验,与经典的交通流量预测模型比较,MHFSTNet的预测准确度有所提升。结果验证了MHF-STNet对异构时空数据统一建模的有效性。
原文链接:https://www.infocomm-journal.com/bdr/article/2023/2096-0271/2096-0271-9-4-00069.shtml
跨域数据授权运营研究及运用
作者:张纪林, 顾小卫, 张亦钊, 郑小林, 陈超超
择要:随着大数据和云打算的发展,数据管理正在冲破“数据孤岛”,从面向单域的伶仃做事发展到跨域的数据共享与协同做事。基于公共数据授权运营框架,给出了跨域数据授权运营全链路构造,并磋商了跨域数据加工过程中数据隐私和效率的寻衅。针对这些寻衅,提出了集中式和隐私打算两种数据加工模式,能够在保护数据隐私的同时提高数据加工效率。末了,给出了一个实际场景下跨域数据授权运营平台的运用案例。
原文链接:https://www.infocomm-journal.com/bdr/article/2023/2096-0271/2096-0271-9-4-00083.shtml
Argus:基于多源数据驱动的工控安全态势感知系统
作者:朱天晨, 赵军, 李博, 李建欣
择要:工业掌握(工控)系统是国家工业制造与民用根本举动步伐的“大脑”,近年来安全风险日益突出,已成为网络安全中的重点防护目标。针对工控安全数据分散、威胁感知滞后的问题,设计了多源数据驱动的工控安全态势感知系统Argus,提出了工控安全感知链,研发了无状态极速设备扫描、威胁情报精准提取、可疑攻击行为检测等工控安全态势自主感知技能,实现了多通道、立体式工控安全监测与态势感知。实验结果显示,比较传统工控安全态势感知方法,Argus系统的感知精度提升超过10%,效率提升两个数量级,并可前摄性地预警、缓解潜在安全风险。
原文链接:https://www.infocomm-journal.com/bdr/article/2023/2096-0271/2096-0271-9-4-00098.shtml
研究
基于数据市场类型的数据定价模型研究作者:任洪润, 朱扬勇
择要:市场是产品价格形成的过程,不同市场的价格形成办法是不一样的,产品定价模型是对市场形成产品价格过程的一种抽象。当前,数据的市场需求已经形成,但有效的数据市场尚未形成,数据定价还在探索阶段。现有的数据定价模型大部分是针对某些特天命据交易场景设计的,而不是针对特天命据市场类型设计的。考虑数据市场的经济学市场类型,从经济学视角将当前数据市场划分为卖方垄断市场、买方垄断市场、寡头垄断市场、中央化完备竞争市场以及去中央化完备竞争市场5种数据市场类型,将现有的数据定价模型归纳到相应的数据市场类型中。通过剖析数据市场类型与数据定价模型的依存关系,提出数据定价的“市场类型原则”,为数据要素市场培植及数据定价供应理论辅导。
原文链接:https://www.infocomm-journal.com/bdr/article/2023/2096-0271/2096-0271-9-4-00116.shtml
基于不雅观测数据的韶光序列因果推断综述
作者:曾泽凡, 陈思雅, 龙洗, 金光
择要:数据存储量的扩大和打算能力的提升为基于不雅观测数据推断韶光序列的因果关系开辟了新路子。在韶光序列因果推断的基本性子和研究现状的根本上,系统梳理了5种基于不雅观测数据的韶光序列因果推断方法,即Granger因果剖析方法、基于信息论的方法、因果网络构造学习算法、基于构造因果模型的方法和基于非线性状态空间模型的方法。然后,根据不同运用处景的数据特点,结合方法的功能和适配性,对基于不雅观测数据的韶光序列因果推断方法在经济金融、医疗和生物学、地球系统科学和其他工程领域的范例运用进行了简要先容。末了,结合韶光序列因果推断的重难点问题,比较5种方法的优缺陷,剖析下一步研究重点,展望未来的研究方向。
原文链接:https://www.infocomm-journal.com/bdr/article/2023/2096-0271/2096-0271-9-4-00139.shtml
基于概率分布差异的医学命名实体识别方法
作者:刘聪, 吕雪峰, 王宏林, 王晓伟, 陆瑾, 孙顺, 胡松奇
择要:医学命名实体识别是从医学文本中抽取出指代特定观点的医学实体,是医学信息抽取的根本性任务。当前主流的医学命名实体识别算法普遍基于深度学习技能,须要大量高质量的标注样本进行模型演习。然而医学领域的样本标注本钱很高,严重限定了模型性能的提升。为了降落模型对标注样本的需求,一种主要的方法是基于主动学习思想,设计合理的样本采样策略,自动选取高代价样本优先标注,从而使模型提前收敛。现有算法普遍基于样本长度、样本识别的概率等特色来设计采样策略,忽略了样本种别分布这一深层次特色,导致命名实体识别召回率较低。提出了一种基于概率分布差异的主动学习算法,通过打算样本间的概率分布差异来评估样本的标注代价,并在标注样本更新时动态优化模型。在真实的医学检讨文本上的实验表明,比较已有算法,达到同等的模型性能,该算法所须要的标注数据可缩减10%以上;在相同标注样本量的情形下,本算法F1值提高5%以上。
原文链接:https://www.infocomm-journal.com/bdr/article/2023/2096-0271/2096-0271-9-4-00159.shtml
论坛
PARIS原则:开放协作环境下科学数据的可用性作者:沈志宏, 张晓林, 郑晓欢
择要:科学数据利用的需求日益急迫,且在“第四范式”“领悟科学”等新型科研范式带来的开放协作环境下,呈现出跨边界、端到端、动态性和协作化的特色。作为“数据仓储时期”的产物,FAIR、TRUST原则已无法为开放协作环境下科学数据的高效利用供应深入的辅导。详细剖析了科学数据利用的范例场景,提出开放协作环境下促进科学数据利用的PARIS原则:可处理(processable)、可问答(askable)、可信赖(reliable)、可联合(incorporable)与可供给(suppliable),并重点剖析了PARIS原则对科学数据可用性的促进浸染。末了,磋商了实现PARIS原则可参考的技能路径。作为FAIR、TRUST原则的有益扩展,期望PARIS原则能有效提升科学数据的可用性。
原文链接:https://www.infocomm-journal.com/bdr/article/2023/2096-0271/2096-0271-9-4-00172.shtml
学术科普
漫威电影中的聪慧医疗作者:王元卓, 江旭晖, 陆源
原文链接:https://www.infocomm-journal.com/bdr/article/2023/2096-0271/2096-0271-9-4-00189.shtml
--------END-------
联系我们:
Tel: 010-81055490
010-81055448
E-mail:bdr@bjxintong.com.cn
http://www.infocomm-journal.com/bdr
http://www.j-bigdataresearch.com.cn/
转载、互助:010-81055307
大数据期刊
《大数据(Big Data Research,BDR)》双月刊是由中华公民共和国工业和信息化部主管,公民邮电出版社主理,中国打算机学会大数据专家委员会学术辅导,北京信通传媒有限任务公司出版的期刊,已成功入选中国科技核心期刊、中国打算机学会会刊、中国打算机学会推举中文科技期刊,以及信息通信领域高质量科技期刊分级目录、打算领域高质量科技期刊分级目录,并多次被评为国家哲学社会科学文献中央学术期刊数据库“综合性人文社会科学”学科最受欢迎期刊。










