并行语言与编译技术的现状及发展趋势

并行语言与编译技术的现状及发展趋势

一、并行语言及编译技术现状和发展趋势(论文文献综述)

尤达[1](2021)在《网络时代美国创剧人研究》文中研究表明美国创剧人,英文为the creator of American TV soaps,sitcoms and series,原指提供故事创意或者完成试播集剧本向各大电视网推销的人,在实际生产中演变为美剧的创作主体,即具有创作剧本能力的执行制片人。从历史观之,电视时代的创剧人在美剧生产过程中流露出普遍性特点,由此形成的群体特征深刻影响着创剧人自身的演变:从身份的确立到群体的形成,再到阶层的固化。网络时代的创剧人致力于群体特征的变革,以此打破阶层的桎梏。立足创剧人文本的内容与形式观之,所谓“变革”与以往并非只是理念上的区分,在实践场域的分野十分明晰。创剧人既对美剧成规化生产模式进行大胆革新,又依据“自我”的觉感与体认进行个性化创造。更为重要的是,创剧人调和了成规与个性间的对立关系,在文本的内容选择上追求“他者互文”与“自我表现”的紧密结合,表现形式上注重制作范式与创作风格的高度统一,由此在作品中反映出多元且精彩的主题,满足受众不断增长和变化的娱乐需求。这便使得创剧人不再只是播出机构定义下一味媚俗的符号客体,而是被赋予对超越性的追求。本文从历史与现实的维度探讨美国创剧人群体的演变;从文本的内容选择与表现形式上深入考察网络时代创剧人的变革举措,指出其群体特征的两个维度;进而分析这两个维度的相互关系与共同作用;最后基于媒介场域的变化探讨群体特征发生变革的外在成因,从创剧人心理探讨变革的内在动因。如此,形成了对网络时代美国创剧人从表象到本质的考察。揆诸现实,这一研究的目的在于面对美剧在全球范围内卓越的传播力,从创作主体维度探寻美剧的成功之道,以求能在去芜存菁中有效“吸收外来”,为国产电视剧的发展带来启示意义。

施佳琪[2](2021)在《面向可重构结构的CNN算法行为分析与编译优化技术研究》文中进行了进一步梳理人工智能技术的快速发展,对我国经济向高端制造业和高科技领域转型起到了重大推动作用。然而,诸如卷积神经网络(Convolutional Neural Networks,CNN)等人工智能领域典型算法越来越呈现出计算密集性和访存密集性等高密集特性,给计算芯片处理能力带来巨大挑战。可重构结构同时具有通用处理器的高灵活性和专用硬件的高能效,成为应对高密集型应用处理的有效手段。但是,可重构处理器目前仍然面临编程难度大、可重构结构优势难以充分发挥等“编程墙”问题。因此,本文基于可重构结构下CNN算法的行为分析,提出一种面向可重构结构的领域专用高效编译优化方法。(1)为挖掘CNN算法中的并行信息,深入分析基于可重构结构的CNN算法行为模式。首先,使用底层虚拟机(Low Level Virtual Machine,LLVM)编译工具分析CNN算法结构信息。然后,借助算法结构信息,构建多面体模型来描述CNN算法的软件特征。最后,结合可重构结构硬件特性,构建可重构结构下CNN算法的特征向量。实验结果表明,基于4和16个处理单元(Processing Element,PE)的阵列,依据行为分析获取特征划分的CNN算法能达到传统划分加速比的99.31%和99.61%,基于CNN算法的行为模式分析可以有效挖掘其并行信息。(2)针对可重构结构下线程划分方法需要利用专家经验,且划分策略处理单一的问题,提出一种基于并行知识的线程划分方法。首先,使用可重构结构下CNN算法的特征向量,针对专家调优划分的最优程序构建程序样本集。然后,通过支持向量机学习其中蕴含的并行知识,包括程序能否并行、最大支持划分的PE数目、最大划分数目下PE的映射范围等。最后,利用并行知识指导可重构结构下CNN算法的并行划分。实验结果表明,采用4和16个PE,使用基于并行知识的线程划分方法,CNN算法加速比的均值分别是1.27和4.65,基于并行知识的线程划分方法能有效实现将CNN算法并行划分。(3)针对线程划分过程中未充分考虑数据局部性导致并行效率较低问题,提出一种基于模糊聚类的线程组合优化方法。首先,基于可重构结构下算法映射方案,构建组合优化性能评估函数。然后,采用k-means的聚类方法将性能评估函数作为聚类条件,将已有线程根据硬件资源进行聚类。最后,分析聚类后的线程之间的数据依赖关系,调整线程的映射范围,减少数据在PE之间的移动次数。实验结果表明,采用4和16个PE,与线程划分方法相比,线程组合优化方法加速比分别提升35.25%和35.62%,基于模糊聚类的线程组合优化方法能够提升CNN算法的并行效率。(4)针对可重构结构处理器面临编程困难问题,设计并实现一种自动化编译方法。首先,将PE按功能划分为数据提取、数据分配、数据汇总、数据处理。其中数据提取、分配和汇总由特定PE完成。通过计算模式-汇编指令组的映射规则实现数据处理。然后,分析CNN算法的计算过程,提取计算模式。最后。根据计算模式设计高效的汇编指令组,以实现自动化编译。实验结果表明,自动化编译方法能够达到人工划分下CNN算法执行时间的52.32%,自动化编译方法能实现高级语言到汇编指令的转换,降低可重构下CNN算法的编程难度。在LLVM9.0编译器和基于BEE4开发平台设计的可重构阵列处理器上,本文对提出的编译优化方法进行实现。实验结果表明,面向可重构结构的领域专用高效编译优化方法,能将高级语言转化为可重构阵列处理器支持的汇编指令,与LLVM和OpenMP并行编程工具在16个PE上处理Lnet-5网络进行比较,加速比分别提升了 2.84%和3.63%。综上,本文提出面向可重构结构的领域专用高效编译优化方法,为探索编译系统和可重构结构协同的高效能、自动化推测并行技术提供了新渠道,并为提高计算、数据密集型应用在可重构结构下的并行性能提供了新思路。

张重洲[3](2021)在《高昌国佛教寺院经济研究》文中研究表明高昌国是丝绸之路上的重要节点,佛教势力的发展及寺院经济兴衰问题,一直是吐鲁番佛教史和经济史研究的热点问题。本文通过研究认为,高昌国建政及对初期佛教的政策,奠定了佛教发展和寺院经济的基本走向。佛教地理决定了寺院经济的根本发展模式和路径,但高昌国佛教经济体制与国家政治体制、经济体制之间,呈现出相近及相悖的两种趋势。高昌国的寺院经济以佛教主导,同时包含有多种宗教下的经济成分,其在高昌国内兴衰与发展均有一定的必然性因素支撑。高昌国的寺院经济是以佛教寺院和僧尼寺户为主体,围绕这两个主体所产生的各项经济活动,形成了以土地经营为核心的基本经济形态,寺田在性质、数量、来源等方面均与世俗社会保持一致,经营门类和方式也大致相当。寺院经济具有宗教性、社会性、封闭性、地域性四个较为明显的特征。寺院内部财务收、支平衡,兼营多种经营门类,有完整且成熟的“常住”管理制度与财务核算方法。国家设置有专门的僧务机构,形成了僧官阶层,两种制度和体系共同运行管理寺院财产。此外,还通过《僧尼籍》来管理寺院僧尼及其附属人口,按照一定标准征收赋税劳役,其征收标准随着经济体制而发生改变。寺院内部僧尼群体间地位高低和财产分化明显,存在“中层僧尼”群体,普遍在寺院之外还从事着各自的经济活动,与豪门望族往来密切,深入到基层社会的日常生活中,贯穿社会发展的始终。高度的世俗化产生了强烈的社会效益,尼僧群体、货币支付、国家体制、社会动荡等诸问题均与寺院经济的发展密切相关,均加剧并最终导致了社会形态和寺院经济的固化。唐西州建立后,寺院经济并没有发生“衰落”,而是逐步在改革中转型重构,最终逐渐适应新政权的改革并完成自我革新。总体而言,高昌国寺院经济自身是一个闭环的完整链条,其发展经历了从萌芽到兴盛,最终至衰落的全过程,形成了特有的经济体系,构成了复杂的社会共同体。

李颖颖[4](2021)在《面向异构系统的多面体编译优化关键技术研究》文中进行了进一步梳理计算技术的不断更新使计算机体系结构的发展日新月异,计算机体系结构经历着从同构计算模式到异构计算模式的转变,不同处理器厂商之间在体系结构和编程模型方面的巨大差异给计算系统的应用推广带来巨大挑战。利用编译技术自动将串行程序转换为异构并行程序是解决这个问题的一种有效手段。基于多面体模型的编译技术被认为是程序自动并行化领域的一个研究热点。本文以充分利用目标体系结构的硬件特征为目的,对面向异构系统进行多面体编译优化的关键技术展开研究,主要研究成果有:(1)以提升程序并行性和数据局部性为目标,本文研究了多面体编译优化的原理及流程,分析了多面体模型的主要特点,给出了利用多面体模型进行编译优化的主要途径。与传统的幺模矩阵模型相比,多面体模型具有更广泛的应用范围、更强大的表示能力和更全面的优化空间,同时也存在抽象层次高、实现难度大等问题。为了全面深入的了解多面体模型,本文分析了多面体模型的原理和基于多面体模型的编译流程,深入研究了多面体模型最核心的调度变换算法,给出了利用多面体模型提升程序并行性和数据局部性的主要方法。(2)为了发掘数据局部性和提升块间并行性,本文提出一种面向通用多核同构架构的循环分块算法。循环分块是提升多级缓存数据局部性最有效的循环变换技术。多面体模型实现了简单的平行四边形分块,但这种分块方法无法有效进行分块之间的并行。为了解决循环分块的块间并行问题,衍生出分裂分块、钻石分块、六角形分块等复杂的分块形状。其中,钻石分块、六角形分块已经在多面体编译器中得到实现,但分裂分块由于设计复杂,目前尚无有效的算法和实现。本文设计了一种基于平行四边形的分裂分块算法,避免了传统分裂分块依赖非仿射表达式的问题,并在PPCG编译器中对该算法进行了实现。实验对不同类型的stencil计算进行测试,结果表明,PPCG编译器采用本文提出的算法生成的Open MP并行代码相较于当前效果最好的钻石分块算法生成的代码有2%的性能提升;相较于stencil领域专用编译器Pochoir生成的代码有91%的性能提升。(3)为了生成面向异构系统的并行代码,同时降低同步开销,本文提出一种面向GPU架构的循环分块算法。钻石分块仅实现CPU上的代码生成,六角形分块仅支持面向GPU架构的代码生成,当面向不同架构时,为了达到最优的性能,需要采用不同的循环分块算法;同时,复杂分块形状提升块间并行性必然以额外的同步开销为代价,频繁的同步大大降低了程序整体性能。本文在面向CPU架构分裂分块算法的基础上,在PPCG编译器实现了分块后循环层到GPU硬件层的映射,同时实现同步最小化功能。与钻石分块相比,本文提出的算法支持各个维度分块大小不同的情况;与六角形分块相比,本文提出的算法能够处理多条语句、符号常量循环边界等多种复杂情况。实验对不同类型的stencil计算进行测试,结果表明,PPCG采用本文提出的算法生成的CUDA代码相较于当前应用最广泛的六角形分块生成的代码有64%的性能提升。(4)为了充分利用大规模并行资源,本文提出一种面向硬件并行规模的循环多维并行识别方法。随着现代处理器架构核心数目的不断增长,传统的单维并行识别方法难以提供足够的并行度,本文提出面向硬件并行规模的循环多维并行识别方法。根据并行层迭代次数和目标平台硬件资源数之间的关系,动态识别嵌套循环的多个维度为并行层,将多个并行维度的迭代空间合并后再作任务划分,以达到充分利用目标平台硬件资源的目的。该方法在PPCG中进行实现,通过对矩阵乘法、laplace方程等核心计算程序进行测试,结果表明,本文提出的方法相较于现有单维并行方法,在SW26010异构众核处理器上性能提升最高达1.8倍,在Nvidia Tesla V100平台性能提升最高达5.2倍。本文采用多面体编译优化技术实现程序自动并行化,能够同时支持Open MP、CUDA和Open CL并行代码的自动生成。通过有效地发掘循环并行性和数据局部性,有效提升了并行代码的执行效率。

何若愚[5](2021)在《基于PTX指令的GPU死循环恶意程序检测技术研究与实现》文中进行了进一步梳理目前GPGPU编程技术在人工智能、深度学习等领域取得了广泛的应用,以NVIDIA公司推出的CUDA框架为代表的GPGPU编程框架可将GPU强大的并行运算能力应用于非图形任务,而GPU逐渐开放的计算能力在众多领域中的应用也随之带来了相关安全隐患,但业界目前仍主要关注如何挖掘GPU潜在安全问题,对已知问题的防护研究较少。本文提出了一种针对GPU端PTX指令代码死循环结构的检测评估方法,并编程实现了方法原型工具,用于探测基于CUDA框架编写的GPU代码是否存在死循环结构进而引发操作系统失去响应的风险。此外,在研究过程中还针对GPU端内存数据残留问题,本文设计了一种对API调用特征的检测方法用以评估代码中是否存在此类问题,作为死循环结构检测的先行研究工作而推出并取得了较好的成果。两种检测方法的工具原型均采用了LLVM编译器项目提供的Pass模块开发能力进行实现,经测试本文方法具有较好的准确性与有效性,可为后续GPU代码安全研究提供基础。

周丽威[6](2020)在《百年中学生物教科书价值取向研究 ——基于有机哲学价值论的审思》文中进行了进一步梳理教科书建设是育人育才的重要依托,小课本大启蒙已经成为教科书研究领域的共识。教科书不仅是知识载体,更是价值载体。习近平关于“教科书是国家事权”的重要论断为我国教科书的建设和发展指明了方向。当前新时代教科书建设面临大众化、全球化等诸多困境,教科书建设必须积极回应时代挑战,为培养德智体美劳全面发展的中国特色社会主义建设者和接班人提供坚实基础。因此,如何将习近平新时代中国特色社会主义思想有机地融入教科书建设,如何保持我国教科书建设方向的正确性等重要问题亟须各学科加强教科书价值取向方面的研究。目前,语文、政治等科目的中小学教科书的价值溯源工作取得了一定的进展,而中学生物教科书价值取向嬗变研究尚处于缺位状态。习近平主席在哲学社会科学工作座谈会上的讲话上强调广泛借鉴国内外优秀文化成果。近年来,怀特海有机哲学日益受到学界关注。“怀特海全集翻译与研究”成为2020年国家社科基金重点项目选题之一,世界着名的生态经济学家、美国国家人文与科学院院士小约翰·柯布认为有机哲学是解决哲学乃至社会科学问题的突破口。再者,我国着名学者王南湜提到“将怀特海与马克思有机结合”有重大理论意义和现实意义。鉴于怀特海有机哲学价值理论深刻的洞见性,其对教科书理论有重大的指导意义,对生物教科书价值取向的选择、确定和改进具有理论指导作用。本研究主要以文献法、内容分析法、历史比较法为研究方法。通过文献法,对百年中学生物教科书出版概况进行梳理,提炼不同时期教科书出版总体特征。通过内容分析法,依据构建的生物教科书价值取向分析框架,从教科书内容、教科书呈现方式、课程标准、教科书编写主体四个维度,探寻不同时期教科书的价值取向。运用历史比较法,对百年中学生物教科书的发展历程做纵向梳理和横向比较,概括其嬗变特点和存在问题,并进一步指出有机哲学视阈下生物教科书价值取向的编写旨趣。百年中学生物教科书价值取向经历了偏重结构主义取向的教科书、侧重实用主义取向的教科书和走向多元取向的教科书三个阶段。我国现代意义上的中学生物教科书,始于清朝末年,是西学东渐的产物。在急于求成的应用心理下,教科书被赋予了“救世”的价值。这一时期国人主要将西方教科书的结构“舶来”,呈现出“依葫芦画瓢”的结构主义取向;之后,生物学经历了短暂的学科大发展,特别是实用主义在我国大行其道的时期,生物教科书的体验性、实用性理念被提出;自新中国成立到新课改前夕,生物教科书发展历经波折,从仿苏的一元取向到兼收并蓄各方文化,生物教科书也进行了一纲多本式的形态学和知识论的改变。纵观我国百年中学生物教科书价值取向变迁历程,呈现出典型的从本质到多元的发展特点:在课程目标取向上,从知识取向到素养取向;在生物教科书内容取向上,从博物到生物学;在生物教科书编写主体取向上,专业性、学术性日益凸显;在教科书呈现方式取向上,由教材取向转向学材取向;在坚持的宏观理念上,政治取向贯穿始终。从目标、内容、编写者取向、呈现方式以及理念上均体现出了本质到多元的路向。通过文本分析,发现百年中学生物教科书价值取向主要有以下问题:本质主义视阈下对结构的过度强调;反本质层面过于强调科学的浪漫精神;在二者融合的视角下看,本质和反本质的均质化造成取向的平均主义。最后,本研究从有机哲学视阈对生物教科书价值取向进行前瞻,提出有机哲学价值取向的多种可能路径:在目标建构上,生物教科书要凸显生物圈命运共同体;在编写思维上,有机哲学价值取向的生物教科书要注重关系性思维;在课程理解上,有机哲学价值取向的生物教科书要融合逻辑理解和审美理解;在课程愿景上,有机哲学价值取向的生物教科书要回归五彩缤纷的生活。在此基础上,指出生物教科书的编写需要注重整体性维度、生态性维度、生活性维度和教育性维度。厘清百年中学生物教科书价值取向嬗变的历程、特征及问题,不仅需要一种历史学视角的经验总结,更需要一种本体意义上的透视,从价值取向的视角进行一种有机哲学式的审思既能助益我国教科书理论的丰富和发展,也能为生物教科书价值取向理论的完善注入新的活力。

丁立德[7](2020)在《支持国产计算平台的深度学习加速技术研究》文中研究表明深度学习作为人工智能技术中的重要组成部分,在各类行业中有着广泛的应用场景,而计算装备的国产化,在当前的国际形势下具有十分重要的战略意义。国产计算平台下的深度学习目前缺乏可用的计算加速设备,导致应用推广较为困难。针对此问题,本文深入研究了深度学习中训练与推理两个过程,实现了两种支持国产计算平台的深度学习的加速技术:国产计算平台的GPU加速技术和国产FPGA卷积神经网络优化技术。这两项技术对于支撑国产计算平台上的深度学习应用具有重大意义。本文主要的工作如下:第一,通过阅读文献资料,了解深度学习在国产计算平台上的加速环境与加速硬件的现状及存在的问题,明确了两种加速技术的实现途径。第二,研究主流GPU通用运算平台的技术结构,针对国产计算平台的特点,选择合适的GPU,通过交叉编译、内核模块替换与系统环境变量设置等技术途径,实现了从源码级别构建支持国产计算平台的GPU通用运算环境。第三,针对国产FPGA逻辑资源不足与深度学习计算需求之间的矛盾,通过矩阵压缩与数据量化两种方法对深度学习中的卷积神经网络进行优化处理,在国产FPGA上实现了对VGG卷积神经网络的优化。实验表明,在国产计算平台上使用GPU加速技术和国产FPGA加速技术,二者的计算效率相较国产CPU分别提升了 48倍与284倍,成功地实现了深度学习的加速计算,推进了深度学习在国产计算平台上广泛应用的进程。

张硕[8](2020)在《基于FPGA的多路CNN并行计算体系结构研究》文中认为卷积神经网络(Convolutional Neural Network,CNN)是人工神经网络的一个重要分支,是近几年随着深度学习概念的提出,才开始广受关注的一种机器学习方法,是一种以卷积运算为核心的神经网络。不同于传统的基于预定义规则的特征提取方法,CNN可以直接从大规模输入图像中“学习”不同特定目标的特征,而不需人工干预,现已广泛应用于目标检测、模式识别、机器视觉、以及大数据视频处理等领域。随着物联网和嵌入式技术的日渐成熟,让终端具有智能的数据判断能力,和智能化的数据采集和实时决策能力,已成为一种趋势,即,智能边缘计算。智能边缘计算中的核心问题就是将智能处理功能迁移到终端。而基于神经网络的机器学习技术,正是使嵌入式设备具有数据识别和智能处理能力的方法。然而,神经网络更高的计算复杂度和计算参数规模将给嵌入式设备带来新的挑战。而现场可编程逻辑门阵列(Field Programmable Gate Array,FPGA),具有高密度并行计算能力和低功耗的特点,正好适合于嵌入式设备对于新型智能化的应用需求,以及在功耗、体积和成本方面的需求,也正是当下深度神经网络计算和优化的主要实验平台。然而,现有的优化研究主要是针对单路CNN模型的优化。而未来,在FPGA集成度不断增大,CNN网络模型不断优化的前提下,在一个FPGA系统中实现多路CNN模型的并行运算,可能会是一种趋势。面向未来嵌入式领域多路CNN模型的并行计算需求,本文深入研究FPGA内部资源的并行计算能力,从最基础的二进制乘法理论为研究的着手点,以多项式代数乘法为分析方法,对FPGA最低层的DSP(Digital Signal Processor)乘法器资源、逻辑资源和存储资源进行并行优化研究。然后结合CNN的计算和数据存储特征展开基于FPGA的多路CNN的并行计算方法研究。最终提出一种高性能、低功耗的多路CNN并行系统设计和实现方法。具体内容如下:(1)针对单个DSP乘法器在低精度乘法计算中的低吞吐量问题,提出了一种基于单个DSP的多路乘法并行计算方法,有效的提高了单DSP乘法器整数或半精度浮点数的乘法计算的吞吐量。该方法以二进制乘法、多项式代数乘法理论为依据,主要是利用DSP乘法器的输入位宽不均匀特性,采用在高位输入中预留空精度位的方法,实现单时钟周期多路乘法的并行计算,包括低精度整数和半精度浮点数的并行计算。针对并行乘法计算过程中部分积求和产生的溢出位问题,提出了一种基于集合理论的求解方法。而后,基于此求解方法,提出了一种面向单个DSP乘法器的多路乘法并行参数搜索算法和并行参数优化模型,实现了对不同乘法有效位的最优并行参数搜索,并验证了该算法和优化模型的有效性。(2)针对现有CNN模型参数量化方法计算误差高,识别精度明显降低的问题,提出了一种双路CNN网络并行计算结构,该结构通过设计一种高效的浮点参数量化方法,支持在单个算法IP中的双路CNN模型的并行计算,通过双路模型的对比识别,可以明显提高FPGA中CNN模型的识别准确率。该量化方法还能够提高系统的计算性能,同时降低系统的资源使用。不同于其它优化方法,本文针对多路CNN的并行计算,以16位半精度浮点数为原型,采用8位精度量化的尾数有效位,支持在单个DSP乘法器上的双路CNN网络参数的并行计算。此外,又提出了一种基于指数分段的半精度浮点数规格化方法,实现同定点数之间的快速格式转换,使模型支持以标准半精度浮点数进行参数训练和输入,不需要额外的数据格式转换操作。采用以上量化方法的CNN模型几乎具有同原浮点模型相同的识别准确度。再有,因为在一个算法IP中同时支持双路不同CNN模型的对比识别,该方法还能够实现比单路原浮点CNN模型更高的识别准确度。(3)针对多路CNN系统DDR参数访问带宽的限制问题,提出了一种多路CNN算法IP的数据共享策略,该策略通过设计一种基于通道广播的参数共享方法,有效的提高了多路CNN算法IP的数据传输效率。该数据共享策略面向DDR存储系统和多路相同CNN算法IP之间的数据搬运,其中,CNN算法IP的网络参数一样。在这种情况下,本文创新性的提出一种基于通道广播的数据共享策略,通过设计并实现一种可配置多路复用DMA IP,利用FPGA中的逻辑资源,将单路DMA数据广播到多路CNN算法IP中,缓解DDR数据访问带宽的瓶颈问题,有效的提高了多路CNN并行系统的数据传输效率。(4)基于以上三个研究内容,提出了一种多路CNN算法IP的并行系统设计框架。主要解决了双并行CNN模型的训练,参数精度量化和并行计算,IP封装和系统集成,以及软件驱动和应用接口等,FPGA软硬系统设计和集成方法的问题。实验表明,本文提出的多路CNN算法IP的并行计算方法,比传统的独享DMA方式,具有更低的系统资源使用率和功耗,同时基于通道广播的参数共享方法可以明显提高多路CNN系统的数据传输效率和系统识别性能。以上研究工作包括多路CNN的并行计算,参数量化和数据共享策略,涵盖了FPGA底层计算资源到多路CNN算法IP整个系统的优化设计和集成方法,希望能够为未来基于FPGA的多路CNN并行优化方法的研究提供支撑和参考。

张杰鹏[9](2020)在《用于高性能计算程序经验性能建模的主动学习方法研究》文中研究说明高性能计算(HPC,High Performance Computing)在天文地球物理、大气海洋环境等众多领域具有广泛的应用,而性能是高性能计算程序的关键。HPC程序通常包含一些可以调节的参数,例如并行核数、算法选择等,研究表明,经过性能调优的程序可以达到10甚至100倍的性能加速。然而HPC程序的参数和性能往往呈现出复杂的非线性函数,因此性能调优变得异常困难。经验性能建模(EPM,Empirical Performance Modeling)可以很好地拟合这种复杂的关系,实现高效的启发式参数搜索。然而,经验性能建模需要大量的样本作为训练数据,再加上HPC程序通常占用大量的计算资源,并且运行时间较长,例如几个小时甚至几个月,这些因素导致了 EPM高昂的计算和时间开销。为了减少建模开销,已有工作提出了一种基于主动学习的建模方法PBUS(Performance Biased Uncertainty Sampling),它首先采样出可能的高性能样本,然后采用主动学习算法选择其中不确定性最高的样本,进而减少数据冗余。相对于随机均匀采样,PBUS在一定程度上减少了所需的样本数据,但是本文的实验显示,PBUS将性能和不确定性两种因素前后分离处理的做法存在一些缺陷,可能导致数据冗余问题变得更加严重,因此仍然具有较大的改进空间。为解决已有方法存在的数据冗余问题,本文提出了一种新的主动学习方法,它充分地利用已有的样本信息,能够高效地探索参数空间中的高性能样本,即在利用已知信息(Exploitation)和探索未知空间(Exploration)之间能够作出更好的平衡。具体地,本文在主动学习算法中设计了一种性能加权的不确定性采样策略(PWU,Performance Weighted Uncertainty),用来识别具有高不确定性或高性能的样本。一方面高不确定性的样本可以减少数据之间的信息冗余,另一方面高性能样本的标注开销较小,因此PWU选择的样本可以减少所需的训练数据以及避免高开销的样本标注。另外,PWU策略将不确定性和性能两种因素结合在一起,避免了 PBUS方法中可能存在的缺陷。为了验证这种方法的有效性,我们使用随机森林模型,为来自SPAPT套件的12个计算核程序以及两个典型的科学计算并行应用(Kripke、Hypre)建立经验性能模型。实验结果表明,采用本文提出的方法,在保持相同预测精度的前提下,相比于PBUS方法,采用PWU策略的建模开销加速比最大达到21倍,平均达到3倍之多。具体地,无论对于不同的目标程序,还是不同的建模需求,PWU建立的性能模型的预测结果都更加稳定,说明PWU具有较强的鲁棒性。另外,本文还进行了基于PWU经验性能模型的性能调优实验,实验结果表明,采用PWU策略建立的性能模型,不仅提高了调优的效率,而且提升了调优的质量。综上,PWU成功克服了已有方法的缺陷,显着减少了可能存在的数据冗余,在建模效率、模型质量、方法鲁棒性等方面都具有一定的优势。

唐佩佳[10](2020)在《基于标记的跨平台并行编程框架设计与实现》文中指出随着并行计算技术的发展和普及,业界存有大量的串行应用程序需要迫切改造为并行程序,来提高数据处理能力。而串行程序并行化面临两个基本问题:(1)并行编程的高成本问题。并行编程需要专业的并行编程能力和丰富的工程经验,开发并行程序需要大量的工程成本和时间。(2)并行平台的多样性问题。随着各种并行硬件平台和并行编程模型数量的增加,并呈现出多样化,需要具备快速生成所需目标并行平台的并行程序的能力。针对上述两个问题,需要通过高效易用的并行编程框架来辅助并行编程。为此,本文设计并实现了一种基于标记语言的三层并行编程框架,主要的思路和方法是:(1)并行编程框架结构设计。设计了三层框架结构,分别是串行程序层、并行中间代码层、目标并行编程语言程序层。通过对串行代码进行语言标记来实现有并行语义的并行中间代码层,再对并行中间代码层进行代码解析来实现可执行的目标并行编程语言程序层,其中并行中间代码层实际是多种并行平台编程模型的一种抽象,与具体并行平台无关。(2)并行机制与标记语言设计。通过对多种并行编程模型(共享存储并行模型、分布式存储并行模型、多任务操作系统并行模型和GPU并行模型)下的数据并行任务进行抽象,建立了基于数据并行的标准任务模型,包括三个计算阶段:数据划分和分发、数据计算、数据收集和规约。设计了一套并行标记方法用于表达与平台无关的并行语义,来辅助并行编程框架进行代码解析,代码解析系统将带有标记的串行程序转化为用户指定平台的并行程序,实现串行程序跨平台并行化。(3)辅助支撑系统设计。设计了性能标记方法用于程序性能参数的自动寻优,这些寻优参数为线程数和进程数、任务负载量等,寻优系统提升了并行程序的性能。此外,还包括用户搭建跨平台并行计算环境和设置并行条件等。本文框架适用于多种软件平台(Windows、Linux、VxWorks)和硬件平台(X86和PowerPC)下的以计算为主的流数据处理任务。最后,将并行编程框架应用于某工程数据处理项目。项目应用反映了框架可以产生用户指定并行平台的并行程序,且计算结果与对应串行程序结果一致;并且评估了框架在共享存储平台和分布存储平台下产生的并行程序的性能,其加速比与人工编写的并行程序相当。

二、并行语言及编译技术现状和发展趋势(论文开题报告)

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

三、并行语言及编译技术现状和发展趋势(论文提纲范文)

(1)网络时代美国创剧人研究(论文提纲范文)

中文摘要
英文摘要
绪论
    第一节 研究缘起
    第二节 文献综述
    第三节 研究对象
    第四节 研究思路和方法
第一章 身份与阶层:美国创剧人群体的演变
    第一节 电视时代创剧人的身份界定(1928-1963)
        一、创剧人身份的探索:从发明家到电视人
        二、创剧人身份的确立:首席编剧与执行制片人
    第二节 电视时代创剧人的阶层分析(1964-1998)
        一、创剧人群体的形成:三大剧种创剧人群体
        二、创剧人阶层的出现:三大阶层创剧人分布
    第三节 网络时代创剧人的阶层突破(1999-2019)
        一、模型构建:多源异构数据下的第一阶层创剧人画像
        二、画像分析:从第一阶层创剧人到创剧人“职业群体”
第二章 他者与自我:网络时代创剧人文本的内容选择
    第一节 他者互文:临摹现实文本下的客观写实
        一、效仿现实生活:从真人真事中取材
        二、互文经典作品:从文学与影视中取材
    第二节 自我表现:“三重自我建构”下的主观抒情
        一、对“个体自我”的探寻
        二、对“关系自我”的定位
        三、对“集体自我”的认知
    第三节 紧密结合:创剧人文本内容层面的群体特征
        一、他者故事中自我的汇入
        二、自我镜像中他者的虚构
第三章 制作与创作:网络时代创剧人文本的表现形式
    第一节 制作范式:视听电影化与叙事文学性
        一、电影化影像策略:质感营造与“景观”制造
        二、文学性叙事策略:叙事结构与叙事线索
    第二节 创作风格:视听个性化与叙事风格化
        一、个性化的长镜头与蒙太奇
        二、风格化的“话语”建构
    第三节 高度统一:创剧人文本形式层面的群体特征
        一、制作范式中个性的凸显
        二、创作风格中成规的体现
第四章 互构与升华:群体特征两个维度的相互关系与共同作用
    第一节 相互关系:成规与个性的互构
        一、同源性:相近起源与发展
        二、同构性:相互建塑和形构
        三、共生性:互相依存与协作
    第二节 共同作用:多元且精彩的主题
        一、世界观的引导:个人信仰与哲学思辨
        二、人生观的认同:女性主义、反同性歧视和反种族歧视
        三、价值观的迎合:反英雄、非英雄与集体无意识
第五章 环境与心理:网络时代创剧人群体特征的成因
    第一节 外在环境之变:媒介场域架构下的特征成因
        一、网络时代媒介场域的架构变化
        二、媒介与受众博弈下的底层逻辑
    第二节 内在心理动因:“人类动机理论”下的特征成因
        一、自我求生:生活困难者的生理需要
        二、自我救赎:面临威胁者的安全需要
        三、自我倾诉:身份认同困惑者的归属需要与情感缺失者的情感需要
        四、自我证明:事业受挫者的尊重需要
        五、自我实现:美国创剧人的终极追求
结语
    第一节 从传播到效仿:美剧强大的影响力
    第二节 在分辨中学习:现状、启示与反思
附录
参考文献
在校期间取得的成果
致谢

(2)面向可重构结构的CNN算法行为分析与编译优化技术研究(论文提纲范文)

摘要
ABSTRACT
1 绪论
    1.1 课题来源、研究背景及意义
        1.1.1 课题来源
        1.1.2 研究背景及意义
    1.2 国内外研究现状与发展趋势
        1.2.1 CNN算法并行优化研究现状与发展趋势
        1.2.2 可重构编译优化研究现状与发展趋势
    1.3 论文的研究内容
    1.4 论文的组织结构
2 可重构结构下CNN算法行为模式分析
    2.1 行为模式分析基本思想及方案
        2.1.1 基本思想
        2.1.2 设计方案
    2.2 基于LLVM的 CNN算法软件特征提取
        2.2.1 LLVM中变量及结构信息表示
        2.2.2 CNN算法结构提取及多面体模型构建
        2.2.3 CNN算法软件特征提取
        2.2.4 CNN算法软件特征有效性检验
    2.3 可重构结构下CNN算法的特征向量提取
        2.3.1 计算特征的表示与提取
        2.3.2 访存特征的表示与提取
        2.3.3 CNN算法特征向量有效性检验
    2.4 行为模式分析功能仿真及性能分析
        2.4.1 实验环境与实验方案
        2.4.2 CNN算法软件特征和特征向量提取与分析
        2.4.3 基于特征向量和传统划分方法下CNN算法的加速比对比
    2.5 本章小结
3 可重构结构下基于并行知识的线程划分方法研究
    3.1 线程划分方法基本思想及方案
        3.1.1 基本思想
        3.1.2 设计方案
    3.2 基于并行知识的线程划分方法实现
        3.2.1 构建线程样本集
        3.2.2 基于并行知识的线程划分
    3.3 线程划分方法的功能仿真及性能分析
        3.3.1 实验环境与实验方案
        3.3.2 线程划分方法仿真验证
        3.3.3 不同划分方法下的CNN算法加速比对比及性能分析
    3.4 本章小结
4 可重构结构下基于模糊聚类的线程组合优化方法研究
    4.1 线程组合优化的基本思想及方案
        4.1.1 基本思想
        4.1.2 设计方案
    4.2 基于模糊聚类的线程组合优化方法的实现
        4.2.1 构建线程组合优化性能评估函数
        4.2.2 基于模糊聚类的线程组合
    4.3 线程组合优化方法功能仿真及性能分析
        4.3.1 实验环境与实验方案
        4.3.2 线程组合优化方法仿真验证
        4.3.3 CNN算法加速比对比及性能分析
    4.4 本章小结
5 可重构结构下CNN算法自动化编译方法设计与实现
    5.1 自动化编译实现的基本思想及方案
        5.1.1 基本思想
        5.1.2 设计方案
    5.2 CNN算法自动化编译方法实现
        5.2.1 CNN算法计算模式提取
        5.2.2 CNN算法汇编指令组构造
        5.2.3 基于任务划分的自动化编译
    5.3 自动化编译实现的功能验证及性能分析
        5.3.1 实验环境与实验方案
        5.3.2 自动化编译方法功能仿真
        5.3.3 自动化编译方法FPGA测试
        5.3.4 自动化编译方法并行效率分析
        5.3.5 优化前后CNN算法并行性能对比
        5.3.6 不同并行编译框架下CNN算法执行时间对比
    5.4 本章小结
6 总结与展望
    6.1 总结
    6.2 展望
致谢
参考文献
附录 攻读学位期间的研究成果

(3)高昌国佛教寺院经济研究(论文提纲范文)

中文摘要
Abstract
凡例
绪论
    第一节 选题缘由及意义
    第二节 研究史概述
    第三节 研究重难点及创新之处
    第四节 研究思路与方法
第一章 高昌国佛教及寺院经济的结构
    第一节 高昌建国前后对佛教的政策
    第二节 寺院经济与佛教地理
    第三节 寺院经济的概念及与其他宗教
    小结
第二章 高昌国佛教寺院的经营模式及财务收支
    第一节 高昌国寺院的基本经济模式
    第二节 寺院日常收入
    第三节 寺院日常支出——对《高昌乙酉、丙戌岁某寺条列月用解斗帐历》再探讨
    小结
第三章 高昌国的僧官、僧众和寺户
    第一节 僧官阶层的执掌及管理
    第二节 国家政权对僧众的管理及其赋税劳役
    第三节 寺户制度及依附人口
    小结
第四章 高昌国僧尼的经济活动与日常生活
    第一节 僧尼个人的私有经济
    第二节 释门群体与豪门望族间的往来
    第三节 佛教僧尼的宗教活动与社会角色
    小结
第五章 高昌国寺院经济的转型和衰落
    第一节 多维视野下的寺院经济与高昌社会
    第二节 高昌国寺院经济的转型
    第三节 高昌国寺院经济衰落再探讨
    小结
结语
参考文献
在校期间研究成果
致谢

(4)面向异构系统的多面体编译优化关键技术研究(论文提纲范文)

摘要
Abstract
第一章 绪论
    1.1 并行体系结构的发展历程
    1.2 面向异构系统多面体编译优化技术的研究现状
    1.3 研究内容及意义
        1.3.1 课题来源
        1.3.2 研究内容
        1.3.3 研究意义
        1.3.4 课题应用
    1.4 论文组织结构
第二章 基于多面体模型的编译优化技术
    2.1 多面体模型的表示
        2.1.1 Presburger关系
        2.1.2 多面体模型的基本要素
    2.2 编译流程
    2.3 提升程序并行性
        2.3.1 数据流分析
        2.3.2 调度算法
        2.3.3 代码生成
    2.4 发掘数据局部性
        2.4.1 循环分块
        2.4.2 数组压缩
    2.5 调度树
    2.6 小结
第三章 面向通用多核CPU架构分裂分块算法的设计与实现
    3.1 研究背景
        3.1.1 循环倾斜
        3.1.2 循环分块
        3.1.3 其它分块形状的块间并行
        3.1.4 研究动机
    3.2 面向CPU架构分裂分块算法的设计
        3.2.1 分裂分块算法的设计
        3.2.2 分裂产生每个阶段的边界表达式
    3.3 面向CPU架构分裂分块算法的实现
        3.3.1 多面体模型表示
        3.3.2 多维stencil计算的分裂分块
        3.3.3 多个语句的分裂分块
    3.4 实验结果与分析
        3.4.1 环境配置和测试用例
        3.4.2 CPU上的性能测试
    3.5 小结
第四章 面向GPU架构分裂分块算法的设计与实现
    4.1 研究动机
    4.2 GPU架构
    4.3 面向GPU架构分裂分块算法的实现
        4.3.1 GPU硬件映射
        4.3.2 最小化同步
        4.3.3 代码生成
        4.3.4 GPU的共享内存
    4.4 分裂分块技术的适用范围
        4.4.1 对比其他分块技术
        4.4.2 适用范围
    4.5 实验结果与分析
        4.5.1 环境配置和测试用例
        4.5.2 CPU上的性能测试
        4.5.3 GPU上的性能测试
        4.5.4 编译时长测试
    4.6 相关工作
    4.7 小结
第五章 面向硬件并行规模的循环多维并行识别方法
    5.1 研究动机
    5.2 目标平台
        5.2.1 SW26010 异构众核处理器
        5.2.2 Open ACC编程模型
    5.3 并行识别问题分析
    5.4 面向硬件并行规模的循环多维并行识别方法
    5.5 实验结果与分析
    5.6 相关工作
    5.7 小结
第六章 总结与展望
    6.1 论文的主要工作
    6.2 下一步的研究计划
致谢
参考文献
作者简历

(5)基于PTX指令的GPU死循环恶意程序检测技术研究与实现(论文提纲范文)

摘要
ABSTRACT
第一章 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
        1.2.1 缺少内存清零机制导致信息泄露
        1.2.2 针对GPU内存区数据的旁路(Side Channel)攻击
        1.2.3 GPU内存缓冲区溢出攻击
        1.2.4 针对GPU的拒绝服务攻击
        1.2.5 恶意程序攻击
        1.2.6 小结
    1.3 论文主要工作
        1.3.1 设计检测方法并实现工具原型测试效果
        1.3.2 检测方法实现平台的技术选型
        1.3.3 明确可以在代码层次排查的安全问题
    1.4 论文章节安排
第二章 CUDA编程与LLVM Pass模块开发知识简介
    2.1 CUDA框架与PTX指令简述
    2.2 LLVM Pass模块开发知识简述
    2.3 本章小结
第三章 基于PTX指令的GPU死循环恶意程序检测设计
    3.1 检测方法设计
        3.1.1 本课题检测的目标循环结构
        3.1.2 依据变化趋势评估死循环风险的方法原理
    3.2 工具原型实现
        3.2.1 工程设计概要
        3.2.2 工具工作流程简述
        3.2.3 工程实现难点简述
    3.3 本章小结
第四章 基于API调用特征的GPU代码缺陷检测设计
    4.1 检测方法设计
        4.1.1 CUDA Runtime提供的内存管理API
        4.1.2 内存管理API的调用匹配检测设计
    4.2 工具原型实现
        4.2.1 工程设计概要
        4.2.2 工具工作流程简述
        4.2.3 工程实现难点
    4.3 本章小结
第五章 实验与结果分析
    5.1 死循环检测实验设计的测试实验
        5.1.1 测试集代码选取
        5.1.2 基准数据采集
        5.1.3 实验组测试
        5.1.4 结果分析
    5.2 API调用特征检测实验设计的测试实验
        5.2.1 测试集代码选取
        5.2.2 基准数据采集
        5.2.3 对照组测试
        5.2.4 实验组测试
        5.2.5 结果分析
    5.3 本章小结
第六章 总结与展望
    6.1 课题总结
    6.2 未来展望
参考文献
致谢
攻读学位期间发表的学术论文目录

(6)百年中学生物教科书价值取向研究 ——基于有机哲学价值论的审思(论文提纲范文)

摘要
Abstract
绪论
    一、研究缘起
        (一)事关国家事权的教科书建设需要加强价值取向方面的研究
        (二)生物教科书价值取向研究有助于某些社会及教育问题的解决
        (三)百年中学生物教科书价值取向嬗变的研究缺位
        (四)有机哲学价值论能为生物教科书价值审视提供一种新视阈
    二、研究目的与意义
        (一)研究目的
        (二)研究意义
    三、概念界定
        (一)教科书与生物教科书
        (二)价值取向
        (三)中学
    四、研究设计
        (一)时间范围
        (二)研究思路
        (三)研究方法
        (四)分析框架
    五、创新之处
第一章 文献综述
    一、教科书研究文献综述
        (一)教科书研究综述
        (二)生物教科书研究综述
    二、有机哲学价值论研究综述
        (一)文献检索概览
        (二)有机哲学价值理论研究综述
    三、研究现状反思
        (一)生物教科书研究的理论基础还有待挖掘
        (二)生物教科书价值取向研究迫在眉睫
        (三)对生物教科书的事实之思掩盖了价值之辨
        (四)有机哲学对于生物教科书研究有着强烈的可借鉴性
第二章 有机哲学价值理论
    一、价值理论生发背景及核心概念说明
        (一)价值理论生发的背景
        (二)核心概念说明
    二、价值的内涵
        (一)价值的本质:事件的内在实在性
        (二)价值的拓展:自然机体也具有自身的价值
    三、有机哲学价值论的核心范畴及构成
        (一)基本原理
        (二)事实与价值
        (三)模式理论
        (四)情感理论
        (五)有机哲学的价值构成或命题
    四、有机哲学知识价值论
        (一)知识的整体性
        (二)“认识”包含三个因素:主体、资料和主体形式
        (三)三种知觉方式:因果效验、直接表象、符号指称
        (四)科学与美不可分离
        (五)注重智慧生成
第三章 偏重结构主义取向的生物教科书(1902-1911)
    一、结构主义及结构主义取向的内涵
        (一)结构主义
        (二)结构主义取向的内涵
    二、结构主义取向生物教科书的表征
        (一)结构主义取向生物教科书特点分析
        (二)结构主义取向生物教科书的价值表征
    三、本时期生物教科书出版概况及总体特征
        (一)本时期生物学课程设置概况
        (二)本时期生物教科书出版总体特征
    四、对结构主义取向生物教科书的总结
第四章 侧重实用主义取向的生物教科书(1912-1948)
    一、实用主义及实用主义取向的内涵
        (一)实用主义
        (二)实用主义取向的内涵
    二、实用主义取向生物教科书的表征
        (一)实用主义取向生物教科书特点分析
        (二)实用主义取向生物教科书的价值表征
    三、本时期生物教科书出版概况及总体特征
        (一)本时期生物学课程设置概况
        (二)生物教科书的出版概况及总体特征
    四、对实用主义取向生物教科书的总结
第五章 走向多元取向的生物教科书(1949-2003)
    一、多元取向的总体特征
        (一)多元取向的内涵
        (二)多元取向的特征
    二、多元取向生物教科书的表征
        (一)多元取向生物教科书特点分析
        (二)多元取向生物教科书的价值表征
    三、本时期生物教科书出版概况及总体特征
        (一)本时期生物学课程设置概况及特点
        (二)生物教科书出版概况及总体特征
    四、对多元取向生物教科书的总结
第六章 百年中学生物教科书价值取向的有机哲学审视
    一、价值取向嬗变的特点:从本质到多元
        (一)课程目标:从知识取向到素养取向
        (二)生物教科书内容:从博物到生物学
        (三)生物教科书编写主体:专业性、学术性日益凸显
        (四)教科书呈现方式:由教材取向转向学材取向
        (五)政治取向贯穿始终
    二、价值取向的问题:基于本质主义与反本质主义的一种考察
        (一)偏重结构主义取向的生物教科书易于形成“呆滞的知识”
        (二)侧重实用主义取向的生物教科书过于强调科学的浪漫精神
        (三)多元取向的生物教科书过于均质化,忽略对比的和谐
第七章 有机哲学视阈下生物教科书价值取向的编写旨趣
    一、有机哲学价值取向的生物教科书应凸显命运共同体
        (一)整体宇宙观视阈下的生物圈命运共同体
        (二)生物教科书编写的整体性维度
    二、有机哲学价值取向的生物教科书要重视关系性力量
        (一)生态观上的担当:关系力量思维下的共享生态观
        (二)生物教科书编写的生态性维度
    三、有机哲学价值取向的生物教科书需融合逻辑理解和审美理解
        (一)有机哲学与生物学在生活观上的创新
        (二)生物教科书编写的生活性维度
    四、有机哲学价值取向的生物教科书要回归五彩缤纷的生活
        (一)有机思维下的智慧生成
        (二)教科书编写的教育性维度
结语
参考文献
附录
    附录1 清末中学生物教科书出版概况
    附录2 民国时期生物教科书编着者的学科背景
    附录3 民国时期中学生物教科书出版概况
    附录4 民国时期教科书作者及其出版教科书的统计
    附录5 1949 年以来人教版生物教科书知识内容框架梳理
    附录6 1949 年以来人教版生物教科书梳理表
    附录7 义务教育初中《生物》教科书出版概况
    附录8 教科书文本汇总表
攻读学位期间完成的学术成果
致谢

(7)支持国产计算平台的深度学习加速技术研究(论文提纲范文)

摘要
abstract
注释表
缩略词
第一章 绪论
    1.1 论文背景及研究意义
    1.2 深度学习加速技术发展和现状
        1.2.1 国外深度学习加速技术现状
        1.2.2 国内深度学习加速技术现状
    1.3 研究内容及创新点
        1.3.1 研究内容
        1.3.2 创新点
    1.4 本文的内容安排
第二章 相关理论与技术
    2.1 深度学习常用加速硬件介绍
    2.2 卷积神经网络
    2.3 ROCm平台简介
    2.4 奇异值矩阵分解(SVD)
第三章 国产计算平台的GPU加速技术
    3.1 GPU软件支撑环境结构
        3.1.1 异构计算可移植接口
        3.1.2 异构计算运行时库
        3.1.3 深度学习函数库
    3.2 国产计算平台上GPU驱动移植
    3.3 国产计算平台架构以及模块依赖问题的解决
        3.3.1 架构兼容性问题
        3.3.2 模块内与模块间依赖的问题
    3.4 Caffe在AMD GPU上支持问题的解决
第四章 国产FPGA卷积神经网络优化技术
    4.1 卷积神经网络复杂度分析
        4.1.1 空间复杂度分析
        4.1.2 时间复杂度分析
    4.2 卷积神经网络复杂度优化
        4.2.1 空间复杂度优化方法——矩阵压缩
        4.2.2 时间复杂度优化方法——数据量化
    4.3 卷积神经网络国产FPGA调试流程
第五章 实验验证与分析
    5.1 国产计算平台的GPU加速技术测试验证
        5.1.1 实验环境
        5.1.2 深度学习模型训练测试
        5.1.3 深度学习模型推理测试
    5.2 深度学习在国产FPGA上的测试验证
        5.2.1 实验环境
        5.2.2 卷积神经网络在国产FPGA上部署实验
    5.3 实验总结
第六章 总结与展望
    6.1 工作总结
    6.2 仍存在的问题与未来研究方向
        6.2.1 当前系统框架存在的问题
        6.2.2 未来研究方向
参考文献
致谢
在学期间发表的学术论文及取得的研究成果

(8)基于FPGA的多路CNN并行计算体系结构研究(论文提纲范文)

摘要
Abstract
第1章 绪论
    1.1 卷积神经网络的发展
    1.2 基于FPGA的卷积神经网络优化
        1.2.1 基于FPGA的卷积神经网络的优化方法
        1.2.2 基于FPGA的多路卷积神经网络优势
    1.3 论文研究主要研究内容和创新性工作
    1.4 论文组织结构
第2章 多路CNN并行系统体系结构
    2.0 引言
    2.1 多路CNN并行计算需求
    2.2 FPGA资源并行优化分析
        2.2.1 计算资源并行优化分析
        2.2.2 数据存储资源辅助并行优化分析
    2.3 基于HLS的FPGA算法优化方法
        2.3.1 计算性能优化
        2.3.2 数据存储优化
        2.3.3 算法IP接口设计
        2.3.4 数据传输方法优化
    2.4 基于FPGA的多路CNN并行计算体系结构
    2.5 本章小结
第3章 DSP乘法器精度预留并行计算模型
    3.1 引言
    3.2 精度预留并行乘法理论分析
    3.3 精度预留并行DSP乘法器参数搜索算法
    3.4 精度预留并行DSP乘法器参数优化模型
    3.5 基于精度预留并行DSP乘法器的计算方法
        3.5.1 基于单DSP乘法器的低精度整数并行计算方法
        3.5.2 基于单DSP乘法器浮点数并行计算方法
    3.6 实验及分析
        3.6.1 精度预留并行DSP乘法器参数搜索算法效率
        3.6.2 基于精度预留并行DSP乘法器的低精度整数计算性能
        3.6.3 基于精度预留并行DSP乘法器的浮点数计算性能
    3.7 可配置精度预留并行DSP乘法器模型初探
    3.8 本章小结
第4章 面向DSP并行乘法器的双融合并行CNN计算结构优化
    4.1 引言
    4.2 双融合并行CNN网络结构及计算模型
        4.2.1 基本CNN网络结构
        4.2.2 双融合并行CNN网络结构
    4.3 双融合并行CNN网络数据存储策略
    4.4 双融合并行CNN网络数据量化方法
    4.5 双融合并行CNN算法IP设计
        4.5.1 集中型双融合并行卷积层IP设计
        4.5.2 统一数据格式转换池化层IP设计
        4.5.3 分离型双融合并行全连接层IP设计
    4.6 双融合并行CNNIP系统实验
        4.6.1 CNN网络训练及量化精度分析
        4.6.2 双融合并行CNNIP资源使用
        4.6.3 双融合并行CNNIP计算性能分析
    4.7 本章小结
第5章 基于通道广播的DMA数据共享技术
    5.1 引言
    5.2 多路复用DMA在多路CNN IP系统中的可行性分析
    5.3 带有通道广播功能的多路复用DMA模型
    5.4 带有通道广播功能的多路复用DMA设计和实现
        5.4.1 通道可配置多路复用输入选择器
        5.4.2 通道可识别输出缓存器
        5.4.3 可配置轮训调度算法
    5.5 实验及分析
        5.5.1 多路复用DMA使用资源
        5.5.2 多路复用DMA算法IP效率分析
        5.5.3 多路复用DMA吞吐量
        5.5.4 基于数据广播的多路复用DMA实验
    5.6 本章小结
第6章 基于DMA通道广播的多路双融合并行CNN系统框架
    6.1 引言
    6.2 系统设计流程
    6.3 CNN网络模型及精度量化
    6.4 系统硬件结构
    6.5 系统软件驱动
    6.6 应用接口及调度策略
    6.7 实验及分析
        6.7.1 四通道两路广播双融合并行CNN系统实验
        6.7.2 八通道四路广播双融合并行CNN系统实验
        6.7.3 多路广播双融合并行CNN系统性能比较
    6.8 本章小结
结论
参考文献
攻读博士学位期间所发表的学术论文
致谢

(9)用于高性能计算程序经验性能建模的主动学习方法研究(论文提纲范文)

摘要
ABSTRACT
第1章 绪论
    1.1 研究背景
    1.2 国内外研究现状
        1.2.1 性能建模研究现状
        1.2.2 主动学习研究现状
        1.2.3 主动学习在性能建模中的应用
    1.3 研究内容和意义
    1.4 本文组织结构
第2章 相关技术
    2.1 经验性能建模
    2.2 主动学习算法
    2.3 随机森林
        2.3.1 决策树
        2.3.2 Bagging与随机森林
        2.3.3 不确定性的计算
    2.4 小结
第3章 自适应标注
    3.1 自适应标注算法的实现
    3.2 实验分析
    3.3 小结
第4章 引入主动学习技术的经验建模
    4.1 整体建模框架
    4.2 数据池方案
    4.3 采样策略
        4.3.1 已有方法
        4.3.2 PWU采样策略
    4.4 小结
第5章 经验建模的评估方法
    5.1 基准测试程序
        5.1.1 计算核
        5.1.2 并行程序
    5.2 评价标准
    5.3 消除实验噪声
    5.4 小结
第6章 实验验证与分析
    6.1 实验设计
        6.1.1 数据收集及性能波动问题
        6.1.2 基准对比方法
        6.1.3 超参数设置
    6.2 实验结果概览
        6.2.1 性能分布
        6.2.2 建模开销与效率
    6.3 详细分析
        6.3.1 并行应用的建模效率
        6.3.2 不同目标程序的建模结果
        6.3.3 不同采样方法的对比分析
        6.3.4 鲁棒性
    6.4 案例分析
        6.4.1 PBUS方法的缺陷分析
        6.4.2 经验模型的应用
    6.5 小结
第7章 总结与展望
    7.1 本文研究总结
    7.2 研究展望
参考文献
致谢
在读期间发表的学术论文与取得的研究成果

(10)基于标记的跨平台并行编程框架设计与实现(论文提纲范文)

摘要
ABSTRACT
第1章 绪论
    1.1 研究背景及意义
    1.2 研究现状
        1.2.1 自动并行技术及工具
        1.2.2 并行编程模型及框架
        1.2.3 基于标记的并行框架
        1.2.4 面向应用编程框架
    1.3 本文研究内容
        1.3.1 并行编程框架结构设计
        1.3.2 并行机制与标记语言设计
        1.3.3 辅助支撑系统设计与实现
    1.4 论文组织
第2章 相关并行编程模型和框架
    2.1 PVTOL
    2.2 OpenMM
    2.3 本章小结
第3章 并行编程框架总体设计
    3.1 任务模型设计
        3.1.1 信号处理问题
        3.1.2 任务模型抽象和建立
    3.2 框架总体设计
        3.2.1 框架层次模型
        3.2.2 框架处理流程
        3.2.3 框架结构设计
    3.3 标记系统设计
        3.3.1 标记语言设计
        3.3.2 标记语言结构
        3.3.3 标记语言分类
    3.4 基于标记的代码解析
        3.4.1 代码解析算法设计
        3.4.2 数据划分和分发阶段
        3.4.3 数据计算阶段
        3.4.4 数据收集和归约阶段
    3.5 本章小结
第4章 并行编程框架实现及优化
    4.1 并行环境实现
        4.1.1 并行条件设置
        4.1.2 并行初始化实现
    4.2 并行及跨平台实现
        4.2.1 标记系统实现
        4.2.2 代码解析系统实现
    4.3 性能参数自动寻优
        4.3.1 共享存储平台
        4.3.2 分布存储平台
    4.4 实验与结果分析
        4.4.1 并行跨平台程序生成实验
        4.4.2 并行性能对比实验
    4.5 本章小结
第5章 总结
    5.1 本文工作
    5.2 本文贡献与创新之处
    5.3 进一步工作
参考文献
致谢
在读期间发表的学术论文与取得的研究成果
攻读学位期间参加的科研项目

四、并行语言及编译技术现状和发展趋势(论文参考文献)

  • [1]网络时代美国创剧人研究[D]. 尤达. 南京艺术学院, 2021(12)
  • [2]面向可重构结构的CNN算法行为分析与编译优化技术研究[D]. 施佳琪. 西安科技大学, 2021
  • [3]高昌国佛教寺院经济研究[D]. 张重洲. 兰州大学, 2021(09)
  • [4]面向异构系统的多面体编译优化关键技术研究[D]. 李颖颖. 战略支援部队信息工程大学, 2021(01)
  • [5]基于PTX指令的GPU死循环恶意程序检测技术研究与实现[D]. 何若愚. 北京邮电大学, 2021(01)
  • [6]百年中学生物教科书价值取向研究 ——基于有机哲学价值论的审思[D]. 周丽威. 哈尔滨师范大学, 2020(03)
  • [7]支持国产计算平台的深度学习加速技术研究[D]. 丁立德. 中国电子科技集团公司电子科学研究院, 2020(03)
  • [8]基于FPGA的多路CNN并行计算体系结构研究[D]. 张硕. 北京工业大学, 2020(06)
  • [9]用于高性能计算程序经验性能建模的主动学习方法研究[D]. 张杰鹏. 中国科学技术大学, 2020(01)
  • [10]基于标记的跨平台并行编程框架设计与实现[D]. 唐佩佳. 中国科学技术大学, 2020(02)

标签:;  ;  ;  ;  ;  

并行语言与编译技术的现状及发展趋势
下载Doc文档

猜你喜欢