Total:49

  • Complex
  • Title
  • Author
  • Keyword
  • Abstract
  • Scholars
Search
Sort by:
Default
  • Default
  • Title
  • Year
  • WOS Cited Count
  • Impact factor
  • Ascending
  • Descending
< Page ,Total 5 >
国家科技重大专项“超算与强智能终端的智能计算单元”课题顺利通过综合绩效评价 CSCD
期刊论文 | 2021 , 21 (07) , 96 | 信息网络安全
Abstract&Keyword Cite

Abstract :

<正>6月22日,国家核高基科技重大专项"超算协处理器与强智能终端的智能计算单元"的课题综合绩效评价会议在北京万寿宾馆召开。该课题由西安交通大学牵头,联合中国人民解放军国防科技大学、江南计算技术研究所、清华大学无锡应用技术研究院、东南大学共同承担。会议采用现场检查的方式进行。综合绩效评价专家组组长为北京华弘集成电路设计有限责任公司总工程师李云岗,副组长为北京神舟航天软件技术有限公司高级经济师李春梅,专家组成员包括中国科学院自动化研究所王东琳等11位专家、项目管理机构主管贾梦培、

Keyword :

国家科技重大专项 协处理器 智能计算 智能终端 综合绩效评价

Cite:

Copy from the list or Export to your reference management。

GB/T 7714 . 国家科技重大专项“超算与强智能终端的智能计算单元”课题顺利通过综合绩效评价 [J]. | 信息网络安全 , 2021 , 21 (07) : 96 .
MLA "国家科技重大专项“超算与强智能终端的智能计算单元”课题顺利通过综合绩效评价" . | 信息网络安全 21 . 07 (2021) : 96 .
APA . 国家科技重大专项“超算与强智能终端的智能计算单元”课题顺利通过综合绩效评价 . | 信息网络安全 , 2021 , 21 (07) , 96 .
Export to NoteExpress RIS BibTex
面向大型异构计算机系统的 URANS求解器 设计与优化 学位论文库
学位论文 | 2019 | Mentor:董小社
Abstract&Keyword Cite

Abstract :

随着流体机械基础并行算法的研究,传统的单核处理器已经不能很好地满足先进 流体机械研发的技术需求,而高性能计算机的迅速发展为之提供了解决方案。如何结 合高性能计算机的系统架构特点,充分利用高性能计算机的计算资源并深度挖掘应用 的并行性,是对流体机械真实流动进行精细模拟的关键所在。本文针对流体机械的数 值模拟问题,结合了一款具有代表性的 URANS求解器,设计实现了 URANS求解器并 行化程序及,并针对求解器在不同平台上的资源分配问题进行了研究。 本文首先针对流体机械的 Rotor 35物理模型结合 URANS求解器进行了求解 器程 序的设计,并对程序进行了单核级优化,优化包括存储布局优化和指令优化两部分,存 储布局优化对程序的存储效率、访存性能进行优化;指令优化对指令流水性能和目标 代码进行了优化。随后,本文针对大型异构计算机系统的特点,对求解器软件的并行性 进行了研究,针对同构系统设计实现了多级并行策略,该策略包括节点级的粗粒度并 行和节点内的细粒度并行,并对粗粒度并行的通信模式和细粒度并行的任务划分策略 进行研究优化;针对异构计算机系统,本文设计了一套能充分发挥异构机器计算特性 的热点加速并行方案,该方案能实现主协处理器并行,本文将该方案 实现在 CPU+GPU异构平台上并对 GPU上的核函数进行了优化,验证本文方法的有效性。最后,本文考 虑到计算平台的差异性,设计了一套针对求解器的资源分配方案,使求解器能在不同 计算平台上动态的选择并行方案并分配合适的资源数,达到对计算资源的最大利用。 为验证本文设计求解器的正确性以及提出方案的有效性,本文在 Tianhe-1A和 Tianhe-2A超算平台上进行了测试。根据测试结果可以看出,本文实现的求解器程序具 有有效性,单核级优化结果良好,各项性能指标以及程序执行时间空间上均大幅提升; 并行化在保证程序正确性的基础 上增加了程序的并行度,充分利用了高性能计算机的 计算资源;资源分配模块能正确选择并行模式并较好的为求解器分配资源,保证求解器在不同平台上运行时均能发挥较好性能。

Keyword :

URANS 异构系统 并行优化 资源分配

Cite:

Copy from the list or Export to your reference management。

GB/T 7714 刘闯 . 面向大型异构计算机系统的 URANS求解器 设计与优化 [D]. , .
MLA 刘闯 . "面向大型异构计算机系统的 URANS求解器 设计与优化" . , .
APA 刘闯 . 面向大型异构计算机系统的 URANS求解器 设计与优化 . , .
Export to NoteExpress RIS BibTex
面向Intel MIC架构的轴流压气机转子并行数值模拟设计与优化 学位论文库
学位论文 | 2019 | Mentor:张兴军
Abstract&Keyword Cite

Abstract :

随着流体机械优化设计研究的不断深入,以及计算流体力学(CFD)数值方法的不断突破,流体机械数值模拟的计算规模变得越来越大,传统计算模式已经不能满足此问题的需要。基于高性能计算的并行数值模拟是一种理想的途径。本文结合国家重点研发计划课题,基于流体机械的物理特性,将Intel MIC(many integrated core)用做异构并行中的协处理加速部件,研究并实现针对MIC架构特点的并行计算模型。 本文针对流体机械应用特点与MIC异构系统提出MIC-THPCM(MIC Three-layers Heterogeneous Parallel Computing Model)并行计算模型。该模型依据应用物理模型的并行特性将任务划分到节点,在节点内部任务采用线程并行,并通过MIC协处理器加速节点内的计算热点。进一步的,本文针对轴流压气机转子实例,结合异构系统的MPI + OpenMP + Offload三层编程模型对MIC-THPCM模型进行了优化与实现。其中,基于MIC硬件特性的程序计算热点并行优化通过分析热点的数据依赖与并行特性,从多线程、向量化、数据传输、访存等方面对热点展开并行优化。MIC-THPCM模型充分考虑了流体机械的物理层次结构与异构系统的多层硬件架构,结合数据并行化、任务并行化,深入挖掘应用物理模型、计算模型、以及异构系统架构的并行性,发挥了不同并行粒度的优势,在提升计算效率的同时有效使用异构系统计算资源。 最后,本文对MIC-THPCM模型的性能进行了测试分析,结果表明模型可在保证流体机械模拟正确性的前提下,达到了较优的系统计算性能。实验还说明含有MIC加速卡的异构系统可以为程序性能带来有效提升,该模型具有高效性。同时,MIC-THPCM模型可根据应用的计算规模在同构或混合异构计算平台按需进行扩展,具有良好的计算效率与较强的适应性与可扩展性。

Keyword :

MIC协处理器 并行计算模型 流体机械 异构系统

Cite:

Copy from the list or Export to your reference management。

GB/T 7714 雷雨 . 面向Intel MIC架构的轴流压气机转子并行数值模拟设计与优化 [D]. , .
MLA 雷雨 . "面向Intel MIC架构的轴流压气机转子并行数值模拟设计与优化" . , .
APA 雷雨 . 面向Intel MIC架构的轴流压气机转子并行数值模拟设计与优化 . , .
Export to NoteExpress RIS BibTex
一种基于应用处理器片上总线控制的文件系统写加速方法 incoPat
专利 | 2019-12-19 | CN201911319133.4
Abstract&Keyword Cite

Abstract :

本发明公开了一种基于应用处理器片上总线控制的文件系统写加速方法,包括以下步骤:调用文件系统的open()函数创建文件,获得文件句柄;调用文件系统的write()函数向文件中写入传感器数据,文件系统按固定文件大小向存储器中写入数据,其中,单次写入按Page大小进行,写入过程中文件系统仅生成Page的Tags信息,驱动层将Page的Tags信息拷贝至控制器的缓冲区;当处理器获得数据写开始信号时,则开始监听片上总线的数据;协处理器获取片上总线Page并暂存,然后将外设数据缓冲区内的数据按固定大小替换Page数据区,并向存储器发送替换后的Page;当剩余写入文件大小小于等于0时,则文件写入结束;文件系统调用close()函数关闭该文件,该方法能够加速文件系统的存储性能。

Cite:

Copy from the list or Export to your reference management。

GB/T 7714 梅魁志 , 龚良旭 , 黄瀚霆 et al. 一种基于应用处理器片上总线控制的文件系统写加速方法 : CN201911319133.4[P]. | 2019-12-19 .
MLA 梅魁志 et al. "一种基于应用处理器片上总线控制的文件系统写加速方法" : CN201911319133.4. | 2019-12-19 .
APA 梅魁志 , 龚良旭 , 黄瀚霆 , 程军 , 朱印涛 , 李亚飞 et al. 一种基于应用处理器片上总线控制的文件系统写加速方法 : CN201911319133.4. | 2019-12-19 .
Export to NoteExpress RIS BibTex
面向高能物理的事例数据处理算子库设计与实现 学位论文库
学位论文 | 2019 | Mentor:侯迪
Abstract&Keyword Cite

Abstract :

在高能物理领域中,高能物理对撞机所产生的物理实验数据量正呈指数级不断增长,物理学家们在获取大量实验数据的同时也面临着如何高效准确地检索与分析数据的难题。随着科学大数据的发展,如何将事例数据的采集、存储、查询、分析和展示更好地应用到科学大数据管理系统中变得尤为重要。科学大数据管理系统EventDB应运而生,该系统可以有效解决事例数据处理效率低以及分站点资源利用率低的问题。由于高能物理中传统的计算模式依赖于数据的远程筛选与复制传输,带来了巨大的资源浪费与带宽消耗,所以本文在EventDB系统的基础之上设计实现了一套事例数据操作工具。 本文的主要工作在于设计实现了面向高能物理的事例数据处理算子库工具。首先论文对算子库进行了概要设计,主要包括架构设计和功能设计;然后以算子库的整体设计为依据对事例数据进行描述,主要包括依据ASN.1语法记法对事例数据进行定义以及根据ROOT工具对事例数据操作进行抽象和定义;最后以算子库的功能模块为线索,分别对应用接口模块、事例数据检索模块和事例数据操作模块进行详细的分析设计与实现。其中,事例数据操作模块是算子库工具的核心功能,它具体到事例数据的基础操作、复杂操作和组合操作,使用Hbase的协处理器技术实现事例数据操作的并行化,以此提高事例数据操作的效率,满足科学大数据管理系统的需求。 在论文的最后,对算子库进行了功能性测试和非功能性测试,测试结果证明面向高能物理的事例数据处理算子库满足EventDB系统的需求,并且在事例数据操作的效率和易用性方面得到了提高,对高能物理科学大数据管理系统的发展提供了帮助。

Keyword :

Hbase协处理器 高能物理 事例分析 算子库

Cite:

Copy from the list or Export to your reference management。

GB/T 7714 杜姿蓉 . 面向高能物理的事例数据处理算子库设计与实现 [D]. , .
MLA 杜姿蓉 . "面向高能物理的事例数据处理算子库设计与实现" . , .
APA 杜姿蓉 . 面向高能物理的事例数据处理算子库设计与实现 . , .
Export to NoteExpress RIS BibTex
一种基于MIC的显式R-K时间推进加速方法 incoPat
专利 | 2018-09-12 | CN201811062479.6
Abstract&Keyword Cite

Abstract :

本发明公开了一种基于MIC协处理器的显式R‑K时间推进加速方法,主要步骤包括:找出CFD计算程序中显式R‑K时间推进算法的计算密集热点,分析串行计算热点的数据流向,确定热点计算部分相对于完整程序的输入、输出数据以及热点自定义数据;完成热点计算前CPU端计算后,将热点输入数据offload至MIC端并进行MIC端热点计算;针对MIC硬件特性及热点程序并行特性,从多线程、向量化、访存、数据传输等方面展开MIC端热点程序的优化加速;依据性能测试结果,确定是否要进行深层次优化。本发明可快速高效的对显示R‑K时间推进法做基于MIC协处理器的优化加速,可同时发挥MIC计算特性与热点程序并行特性,是一种通用的、切实可行的MIIC协处理器加速方法。

Cite:

Copy from the list or Export to your reference management。

GB/T 7714 张兴军 , 雷雨 , 董小社 et al. 一种基于MIC的显式R-K时间推进加速方法 : CN201811062479.6[P]. | 2018-09-12 .
MLA 张兴军 et al. "一种基于MIC的显式R-K时间推进加速方法" : CN201811062479.6. | 2018-09-12 .
APA 张兴军 , 雷雨 , 董小社 , 李靖波 , 赵文强 , 周剑锋 et al. 一种基于MIC的显式R-K时间推进加速方法 : CN201811062479.6. | 2018-09-12 .
Export to NoteExpress RIS BibTex
一种可编程卷积神经网络IP核 incoPat
专利 | 2017-02-13 | CN201710076837.8
Abstract&Keyword Cite

Abstract :

本发明公开了一种可编程卷积神经网络协处理器IP核,其目的是在数字芯片(FPGA或ASIC)上实现对卷积神经网络的运算加速。其具体架构包含了全局控制器、I/O控制器、多缓存体系、卷积单元、池化单元、填充单元、全连接单元、内部互联逻辑以及为该协处理器IP设计的指令集。所提出的硬件结构支持不同规模的卷积神经网络完整流程;充分利用硬件级并行,设计多级缓存体系,达到了高性能、低功耗特性;通过指令控制运算流程,具有可编程性与可配置性,易于部署在不同的应用场景中。

Cite:

Copy from the list or Export to your reference management。

GB/T 7714 梁峰 , 高震霆 , 杨少飞 et al. 一种可编程卷积神经网络IP核 : CN201710076837.8[P]. | 2017-02-13 .
MLA 梁峰 et al. "一种可编程卷积神经网络IP核" : CN201710076837.8. | 2017-02-13 .
APA 梁峰 , 高震霆 , 杨少飞 , 买廷瑞 . 一种可编程卷积神经网络IP核 : CN201710076837.8. | 2017-02-13 .
Export to NoteExpress RIS BibTex
基于ZYNQ-7000的数字相机压缩与传输系统的设计与实现 学位论文库
学位论文 | 2017 | Mentor:王飞
Abstract&Keyword Cite

Abstract :

随着科技的发展,人们对图像检测、图像处理的要求越来越高。很多场景下不但要求处理过程准确高效,而且还要求实时处理。而基于计算机的方法大多不能满足以上要求。同时随着计算机视觉理论的发展与处理器的性能的不断提升,使得高性能智能相机的设计实现成为可能。智能相机可以将原来只能在计算机上处理的工作在相机内部直接处理。这样的系统不但性能优异,而且集成度高,体积小,可以在不同场景中使用。 本文基于ZYNQ-7000处理器设计了一套智能相机的压缩传输系统。包括JPEG图像压缩,AXI数据交互,通信协议设计等工作。主要工作如下:首先设计实现了一套基于ZYNQ处理器内部的FPGA协处理器的双流水线并行JPEG图像实时压缩编码系统。使用并行编码最后合并输出的方式实现了标准JPEG压缩流程,具有并行计算实时性高的特性。本设计使用Modelsim进行仿真,在Z706处理平台上进行了验证,最后对压缩后的结果进行了分析。结果显示,满足设计要求,可以达到实时传输的要求。然后设计实现了一套基于AXI总线的传输协议。实现了ARM处理器与协处理器FPGA之间的通信,解决了可能出现的数据阻塞,图像丢帧,以及通信错误等问题,保证了系统的稳定性。其次本文在ARM部分移植了Linux操作系统。通过对操作系统的优化和剪裁在保证系统稳定性的同时精简了系统功能。最后本设计在ARM处理器实现了基于以太网接口UDP传输协议。主要解决了图像传输过程中遇到的丢帧,数据传输错误等问题。实际测试后可以发现后端系统可以正确的连续接收处理后的图像,长时间的观测后显示图像接收正常,达到设计指标,符合实际使用要求。 本文通过计算、仿真并在实际平台上进行了验证,证明了对基于ZYNQ-7000处理器的智能相机压缩传输系统的有效性。在实际测试中图像输出帧频可以达到14fps,具有很大的优势。相比于传统的设计结构与开发流程具有结构简练、开发难度低、开发周期短、系统效率高等特点。为智能相机的应用起到了推动作用。

Keyword :

FPGA ZYNQ-7000 嵌入式系统 异构处理器 智能相机

Cite:

Copy from the list or Export to your reference management。

GB/T 7714 贾良宇 . 基于ZYNQ-7000的数字相机压缩与传输系统的设计与实现 [D]. , .
MLA 贾良宇 . "基于ZYNQ-7000的数字相机压缩与传输系统的设计与实现" . , .
APA 贾良宇 . 基于ZYNQ-7000的数字相机压缩与传输系统的设计与实现 . , .
Export to NoteExpress RIS BibTex
向量化技术在循环分块优化中的应用研究 学位论文库
学位论文 | 2017 | Mentor:伍卫国
Abstract&Keyword Cite

Abstract :

随着SIMD扩展部件在微处理器和协处理器中的发展,向量寄存器的位数逐渐增加,使得向量化技术在开发嵌套循环程序的细粒度并行方面得到有效提高。循环分块技术是一种被广泛采用的循环变换技术,能够改善程序局部性和开发程序粗粒度并行性。循环分块时的分块因子选择对分块后程序的性能影响很大。已有的分块因子选择算法没有量化分析分块因子对循环程序向量化的影响,尤其是当循环程序访问的数组大小不是向量寄存器大小的倍数时,不同的分块因子产生不同数量的不对齐数据,造成循环程序向量化的收益差别很大。另外,分块后的嵌套循环程序,不仅程序结构变得复杂,数组引用下标和循环边界也更加复杂,抑制了编译器自动向量化功能的发挥。 本文提出了一种量化分析嵌套循环向量化收益和程序局部性收益的分块因子选择算法。该算法针对分块后的程序在向量化时存在大量不对齐数据访问的问题,量化分析了分块因子对程序向量化收益的影响,在确保向量化收益最大的前提下来确定可向量化循环层的分块因子,然后以块内程序局部性最优为目标来确定其他循环层的分块因子。另外,针对分块后的嵌套循环程序,本文提出了一种基于多面体模型的可向量化循环层发掘算法,该算法采用多面体模型来预测重构代码的结构和计算依赖距离,当依赖距离不会破坏向量化后代码执行的正确性时,在重构代码的可向量化循环层外加入向量化制导语句,指导编译器进行自动向量化。 本文在Intel Xeon服务器上进行实验,所有基准测试程序均采用ICC编译器生成可执行代码。实现结果表明,当基准测试程序的嵌套循环访问矩阵的规模较大且不是向量寄存器大小的倍数时,本文提出的分块因子选择算法相较于SICA算法和TTS算法性能提高了17.2%和4.8%,平均加速比为19.81,且具有良好的可扩展性。另外,对于PLuTo无法进行向量化的基准测试程序,本文提出的向量化发掘算法能够找出潜在的可向量化循环层,优化后的代码可实现平均12.14的加速比。

Keyword :

分块因子选择 嵌套循环 向量化 循环分块

Cite:

Copy from the list or Export to your reference management。

GB/T 7714 柴晓菲 . 向量化技术在循环分块优化中的应用研究 [D]. , .
MLA 柴晓菲 . "向量化技术在循环分块优化中的应用研究" . , .
APA 柴晓菲 . 向量化技术在循环分块优化中的应用研究 . , .
Export to NoteExpress RIS BibTex
基于FPGA的卷积神经网络设计 学位论文库
学位论文 | 2017 | Mentor:梁峰
Abstract&Keyword Cite

Abstract :

深度学习是一种卓有成效的机器学习方法。然而,为了得到更高层次的抽象表达,深度神经网络结构日趋复杂,训练与预测过程需要大量数据、巨额浮点计算资源以及更高的访存带宽。仅利用通用处理器平台进行深度学习计算任务的效率低、功耗大,难以支持日益普遍的嵌入式系统与终端应用场景。 本课题完成一种基于FPGA的卷积神经网络协处理器的设计,目的是在FPGA上实现对深度学习中的卷积神经网络的运算加速,其意义在于探索未来深度学习以及更为广泛的人工智能行业发展所需的基础嵌入式平台的需求。 首先,本文系统介绍了深度学习相关概念与基础,详述神经网络与卷积神经网络的模型结构与算法。在此基础上,回顾了业界在算法层面对深度学习计算的优化研究,并通过分析不同硬件平台的体系结构,介绍了异构计算概念及其在深度学习加速中的应用。 其次,本文的核心部分详细阐述了卷积神经网络协处理器架构设计思路及各单元模块实现方案。通过结合卷积神经网络的计算模式与特点,建立与硬件实现相关的计算模型,进行控制、计算、存储等模块以及一个简单指令系统的设计与对应逻辑电路结构的描述。 最后,本文提出了针对所述协处理器的全面验证与评估方案,分别进行了功能仿真验证与FPGA硬件验证,并以多种经典网络模型作为测试标准,通过与CPU及GPU的性能比较进行了协处理器的性能评估。验证结果表明了协处理器系统设计的正确性,而评估结果表明协处理器架构设计满足了预期性能。

Keyword :

卷积神经网络 可编程逻辑阵列 深度学习 异构加速

Cite:

Copy from the list or Export to your reference management。

GB/T 7714 高震霆 . 基于FPGA的卷积神经网络设计 [D]. , .
MLA 高震霆 . "基于FPGA的卷积神经网络设计" . , .
APA 高震霆 . 基于FPGA的卷积神经网络设计 . , .
Export to NoteExpress RIS BibTex
10| 20| 50 per page
< Page ,Total 5 >

Export

Results:

Selected

to

Format:
FAQ| About| Online/Total:2082/215805373
Address:XI'AN JIAOTONG UNIVERSITY LIBRARY(No.28, Xianning West Road, Xi'an, Shaanxi Post Code:710049) Contact Us:029-82667865
Copyright:XI'AN JIAOTONG UNIVERSITY LIBRARY Technical Support:Beijing Aegean Software Co., Ltd.