Go语言实战:基于Go1.19的站点模板爬虫技术解析与应用
一、引言
1.1 爬虫技术的背景与意义
在互联网高速发展的时代,数据已经成为新的石油,而爬虫技术则是获取这种“石油”的重要工具。爬虫,又称网络蜘蛛、网络机器人,是一种自动化获取网络上信息的程序。它广泛应用于搜索引擎、数据分析、自动化测试等多个领域,对于信息的获取和处理具有极高的价值。
随着互联网的不断发展,数据量也在急剧增长,传统的信息获取方式已经无法满足人们的需求。爬虫技术应运而生,它可以帮助我们高效、快速地获取大量信息,从而为各种业务场景提供数据支持。同时,爬虫技术也带来了一些挑战,如如何处理海量数据、如何保证爬取的合法性等。
1.2 Go语言在爬虫领域的优势
Go语言,又称为Golang,是由Google开发的一种静态强类型、编译型、并发型,并具有垃圾回收功能的编程语言。Go语言在爬虫领域具有以下优势:
-
高并发:Go语言原生支持并发,这使得Go语言在开发爬虫时能够更加高效地处理大量并发请求,提高爬取速度。
-
性能优越:Go语言的性能接近C语言,这使得Go语言编写的爬虫在处理大规模数据时具有更高的效率。
-
跨平台:Go语言编译后的可执行文件无需依赖其他库,可以在不同平台上运行,这为爬虫的部署和运行提供了便利。
-
丰富的库生态:Go语言有着丰富的第三方库,这为爬虫开发提供了诸多便利,如网络请求处理、JSON解析等。
-
简洁明了:Go语言的语法简洁明了,易于学习和使用,这有助于提高开发效率。
二、Go1.19新特性概述
2.1 概述
Go1.19是Go语言的又一个重要版本,它带来了许多新特性和改进。这些新特性将进一步巩固Go语言在现代编程语言中的地位,为开发者提供更好的开发体验。
2.2 关键新特性介绍
以下是Go1.19的一些关键新特性:
-
泛型:Go1.19引入了泛型编程支持,允许在函数和类型定义中使用类型参数。这将有助于提高代码的复用性和可维护性。
-
结构体字段标签:Go1.19允许在结构体字段中使用标签(Tag),以便在反射(reflection)时获取更丰富的信息。
-
映射的迭代器:Go1.19为map类型提供了迭代器(iterator),使得遍历map变得更加便捷。
-
垃圾回收改进:Go1.19对垃圾回收机制进行了优化,以降低延迟和提高性能。
-
网络性能改进:Go1.19对TCP连接和HTTP/2性能进行了优化,提高了网络通信的效率。
-
跨平台编译:Go1.19增加了对Windows平台的支持,使得Go语言能够在更多平台上进行编译和运行。
2.3 Go1.19对爬虫开发的影响
Go1.19的新特性对爬虫开发产生了积极影响:
-
泛型:在爬虫开发中,经常需要处理不同类型的数据。Go1.19的泛型特性可以帮助我们编写更通用、更可复用的代码,提高开发效率。
-
结构体字段标签:在进行数据解析时,结构体字段标签可以帮助我们更方便地处理不同类型的数据,提高代码的可读性和可维护性。
-
映射的迭代器:在爬虫中,我们经常需要遍历和处理映射(如HTTP头信息)。Go1.19的映射迭代器特性使得这个过程更加简洁明了。
-
垃圾回收改进:Go1.19的垃圾回收优化有助于降低爬虫在长时间运行过程中可能出现的内存溢出风险。
-
网络性能改进:网络性能的优化有助于提高爬虫在处理大规模数据时的效率,降低延迟。
-
跨平台编译:跨平台编译特性的支持使得Go语言爬虫可以在不同平台上轻松部署和运行。
三、站点模板爬虫原理讲解
3.1 站点模板爬虫概念
站点模板爬虫(Template Spider)是一种基于特定模板的爬虫架构,它主要用于处理那些结构相似的网页。在这种爬虫中,我们将目标网站的页面结构抽象成模板,然后根据这个模板去解析和提取所需的数据。
站点模板爬虫的核心思想是将网页的结构提取出来,形成一个可复用的解析模型。这个模型不仅能够用于当前网站,还能够适应未来网站结构的变化。这样,即使目标网站的结构发生了变化,我们只需要更新模板即可,无需重新编写爬虫代码。
3.2 爬虫工作原理
站点模板爬虫的工作原理可以分为以下几个步骤:
-
初始化:启动爬虫,加载站点模板。
-
抓取页面:根据站点模板,发送HTTP请求,获取页面内容。
-
解析页面:分析页面内容,提取所需数据。
-
数据存储:将提取的数据存储到指定位置,如数据库、文件等。
-
模板更新:根据实际需求,更新站点模板。
-
循环执行:重复以上步骤,不断抓取新页面。
3.3 模板爬虫的优势与挑战
优势:
-
灵活性:模板爬虫可以轻松适应目标网站的结构变化,无需重新编写爬虫代码。
-
复用性:同一模板爬虫可以应用于多个类似的网站,提高开发效率。
-
易维护:模板爬虫的结构清晰,易于维护和扩展。
挑战:
-
复杂性:对于复杂网站,模板的提取和解析可能会变得非常复杂。
-
性能:模板爬虫在处理大量数据时,可能会遇到性能瓶颈。
-
依赖性:模板爬虫依赖于目标网站的结构,如果网站使用了过多的JavaScript动态加载内容,模板爬虫可能无法正常工作。
在了解了站点模板爬虫的原理之后,我们将进入下一部分,学习如何使用Go1.19实现一个基于站点模板的爬虫。
四、基于Go1.19的站点模板爬虫实战
4.1 项目搭建与工具选择
在进行实战之前,我们需要搭建一个Go语言的项目环境。这里我们推荐使用Go Modules来管理项目依赖。首先,确保您的开发环境已经安装了Go语言。
接下来,我们创建一个名为site-template-crawler
的项目目录,并在该目录下创建以下文件:
main.go
:爬虫的主程序config.go
:配置文件处理parser.go
:站点模板解析逻辑model.go
:数据模型定义database.go
:数据库操作逻辑util.go
:实用工具函数
在项目目录下执行以下命令来初始化项目依赖:
go mod init site-template-crawler
我们还需要选择合适的工具来辅助我们的爬虫工作。例如,对于HTTP请求处理,我们可以使用net/http
标准库;对于JSON数据处理,可以使用encoding/json
。此外,对于数据库操作,可以根据需求选择合适的数据库驱动,如database/sql
。
4.2 编写爬虫主程序
在main.go
中,我们将编写爬虫的主入口函数。这个函数将负责初始化配置、启动爬虫任务,并处理结果。
package mainimport ("fmt""site-template-crawler/config""site-template-crawler/parser""site-template-crawler/database""site-template-crawler/util"
)func main() {// 初始化配置config := config.NewConfig()// 连接数据库db, err := database.Connect(config.DatabaseConfig)if err != nil {util.LogError(fmt.Sprintf("Failed to connect database: %v", err))return}defer db.Close()// 解析站点模板templateParser := parser.NewTemplateParser(db)err = templateParser.Parse(config.TemplatePath)if err != nil {util.LogError(fmt.Sprintf("Failed to parse template: %v", err))return}// 启动爬虫任务crawler := NewCrawler(config, templateParser)crawler.Start()
}
4.3 实现站点模板解析
在parser.go
中,我们将实现站点模板的解析逻辑。这包括从模板文件中提取出爬取规则,以及如何根据这些规则来解析页面内容。
package parserimport ("fmt""regexp"// 导入其他需要的包
)type TemplateParser struct {db *database.Database
}func NewTemplateParser(db *database.Database) *TemplateParser {return &TemplateParser{db: db}
}func (tp *TemplateParser) Parse(templatePath string) error {// 读取模板文件并解析// 提取爬取规则// 存储到数据库return nil
}
4.4 爬取与数据抽取
在crawler.go
中,我们将实现爬虫的主要功能,包括发送HTTP请求、处理页面内容、抽取所需数据等。
package mainimport ("fmt""net/http"// 导入其他需要的包
)type Crawler struct {config *config.Configparser *parser.TemplateParserclient *http.Client// 其他需要字段
}func NewCrawler(config *config.Config, parser *parser.TemplateParser) *Crawler {return &Crawler{config: config,parser: parser,client: &http.Client{},// 初始化其他字段}
}func (c *Crawler) Start() {// 发送HTTP请求抓取页面// 解析页面并抽取数据// 存储数据到数据库
}
4.5 结果输出与处理
在database.go
中,我们将实现数据库的操作逻辑,包括连接数据库、执行SQL语句、处理数据存储等。
package databaseimport ("database/sql""fmt"// 导入其他需要的包
)func Connect(config Config) (*sql.DB, error) {// 连接数据库return nil, nil
}func (db *SQLDB) InsertData(table string, data interface{}) error {// 插入数据到数据库return nil
}
在实现上述代码后,我们将拥有一个基于Go1.19的站点模板爬虫的基础框架。接下来,我们需要根据具体的需求来完善和优化爬虫的细节。这包括处理爬取过程中的异常、提高爬取效率、确保爬取的合法性等。通过对这些方面的优化,我们的站点模板爬虫将更加健壮和高效。
五、Go1.19在爬虫性能优化方面的应用
5.1 概述
Go1.19版本在性能优化方面做出了一些重要的改进,这些改进对于提升爬虫的性能具有重要意义。本文将介绍Go1.19在并发控制、内存管理和网络通信优化方面的应用,帮助读者了解如何利用这些新特性来优化爬虫性能。
5.2 并发控制
Go语言的原生并发支持是其一大特色,而Go1.19在并发控制方面并没有显著的新特性,但稳定性 和性能的改进对爬虫的并发处理仍有所帮助。例如,Go1.19对goroutine的调度器进行了优化,减少了上下文切换的开销,这有助于提高爬虫在多任务环境下的性能。
在爬虫中,并发控制主要体现在同时向多个目标站点发送请求以及处理多个请求结果的场景。合理的并发控制可以有效提升爬取效率,缩短整体执行时间。使用Go的sync
包和channel
可以有效地管理并发任务,确保数据处理的正确性和效率。
5.3 内存管理
Go1.19在内存管理方面的改进主要集中在垃圾回收机制上。垃圾回收器的性能得到了提升,对于大内存对象的处理更加高效,这有助于减少爬虫在处理大量数据时可能遇到的内存压力问题。
在爬虫中,内存管理是一个关键问题,特别是在处理大量网页和数据时。Go语言的垃圾回收机制可以帮助我们自动管理内存,减少内存泄漏的风险。此外,Go1.19对map的迭代器进行了优化,使得遍历大map时更加高效,这对于爬虫处理大量数据时的性能也有所帮助。
5.4 网络通信优化
Go1.19在网络通信方面引入了一些新特性和改进,例如net/http
的Server
类型现在支持配置ReadTimeout
和WriteTimeout
参数,这有助于我们更好地控制网络连接的读写时间,提升网络通信的效率。
对于爬虫来说,网络通信是核心部分,性能直接关系到爬取速度和成功率。Go1.19的网络通信优化可以让我们更有效地管理客户端和服务器的连接,减少因网络超时导致的爬取失败。
综上所述,Go1.19在并发控制、内存管理和网络通信优化方面的改进,为爬虫开发者提供了更多的性能提升空间。通过合理利用这些新特性,我们可以构建更加高效、稳定的爬虫应用。
六、实战案例解析:某电商平台模板爬虫
6.1 项目背景
随着电子商务的迅猛发展,电商平台上的商品信息更新迅速。为了获取这些信息,我们决定开发一个基于Go1.19的站点模板爬虫,用于抓取某电商平台的商品数据。
6.2 爬虫需求分析
在分析爬虫需求时,我们明确了以下目标:
- 爬取商品的标题、价格、描述、图片等基本信息。
- 支持多线程并发抓取,提高爬取效率。
- 实现对页面结构变化的自动适应,保证爬虫的稳定性。
- 将爬取的数据存储到数据库中,方便后续的数据分析和处理。
6.3 爬虫设计与实现
我们采用了基于站点模板的爬虫架构,使用Go1.19来开发。具体设计如下:
- 使用
net/http
库来发送HTTP请求。 - 使用
regexp
库来解析页面内容,提取商品信息。 - 使用
sync
包来实现并发控制。 - 使用
database/sql
库来操作数据库,存储爬取的数据。
在实现过程中,我们重点关注了以下方面:
- 并发控制:通过
sync.WaitGroup
和sync.Mutex
来控制并发请求的数量,避免对目标服务器造成过大压力。 - 页面解析:使用正则表达式来提取商品信息,同时保留足够的灵活性以应对页面结构的变化。
- 数据存储:将商品信息存储到MySQL数据库中,使用
database/sql
库进行操作。
6.4 数据解析与处理
在解析和处理数据时,我们定义了一个结构体来表示商品信息,并使用encoding/json
库将解析后的数据序列化为JSON格式。然后,我们将JSON数据插入到数据库中。
type Product struct {Title stringPrice float64Desc stringImageURL string
}// 解析商品信息并存储到数据库
func (c *Crawler) parseProduct(html string) (*Product, error) {// 使用正则表达式提取商品信息// 将提取的信息填充到Product结构体中// 使用json.Marshal将Product结构体序列化为JSON// 使用数据库操作将JSON数据插入到数据库中return nil, nil
}
6.5 测试与总结
在完成爬虫的开发后,我们对爬虫进行了全面的测试。我们测试了爬虫在正常情况下的性能,也测试了爬虫在面对页面结构变化时的适应能力。测试结果表明,我们的爬虫能够高效地爬取商品信息,并且能够自动适应页面结构的变化。
总结来说,通过使用Go1.19开发的站点模板爬虫,我们成功地实现了对某电商平台商品信息的抓取。Go1.19的高并发支持、内存管理和网络通信优化对我们的爬虫性能提升起到了重要作用。这次实战经历不仅加深了我们对Go语言的理解,也让我们积累了宝贵的爬虫开发经验。
七、基于Go1.19的站点模板爬虫安全与合规性
7.1 爬虫安全问题概述
在开发和使用站点模板爬虫时,我们需要考虑以下安全问题:
- 服务器负载:大量并发请求可能导致目标服务器过载。
- 隐私数据:爬虫可能会无意中抓取到用户的隐私数据。
- 爬虫被封禁:频繁的请求可能会导致IP被封禁。
- 数据质量:爬虫可能会抓取到错误的数据。
7.2 防范措施与最佳实践
为了应对上述安全问题,我们可以采取以下防范措施和最佳实践:
- 控制并发数量:合理设置并发请求的数量,避免对目标服务器造成过大压力。
- 遵守Robots协议:在爬虫中实现对Robots协议的检查,只爬取允许的页面。
- 使用代理:使用代理服务器来隐藏真实IP地址,避免被封禁。
- 数据验证:对爬取到的数据进行验证,确保数据的准确性和完整性。
- 遵守法律法规:确保爬虫的使用符合当地的法律法规,尊重网站的版权和隐私政策。
7.3 合规性考虑与合规框架
在进行站点模板爬虫的开发和使用时,我们需要考虑以下合规性问题:
- 数据使用:确保对爬取的数据的使用符合相关法律法规和数据保护政策。
- 爬虫使用:确保爬虫的使用不违反目标网站的服务条款和使用政策。
- 法律法规:遵守当地的法律法规,如数据保护法、反不正当竞争法等。
为了确保合规性,我们可以采取以下措施:
- 法律咨询:在开发爬虫之前,咨询法律专家,了解相关的法律法规和合规要求。
- 用户协议:在爬虫中加入用户协议,明确爬虫的使用条件和限制。
- 数据保护:确保对爬取的数据进行加密和脱敏处理,保护用户隐私。
八、总结与展望
8.1 本文总结
本文通过实际代码案例详细讲解了基于Go1.19的站点模板爬虫的技术解析与应用。我们从站点模板爬虫的概念、爬虫工作原理、模板爬虫的优势与挑战、实战案例解析,以及安全与合规性等方面进行了全面的介绍。
我们重点讨论了Go1.19在并发控制、内存管理和网络通信优化方面的应用,并给出了一个某电商平台模板爬虫的实战案例。同时,我们也强调了爬虫开发中的安全问题和合规性考虑,提供了一些防范措施和最佳实践。
8.2 爬虫技术的发展趋势
爬虫技术随着互联网的发展而不断进步,未来的发展趋势包括:
- 人工智能化:利用AI技术提高爬虫的智能化水平,使其能够更准确地理解和解析网页内容。
- 分布式爬虫:采用分布式架构,提高爬虫的并发能力和抓取效率。
- 数据挖掘与分析:结合数据挖掘和分析技术,从爬取的数据中提取更多有价值的信息。
- 遵守法律法规:在开发和使用爬虫时,更加注重合规性,遵守相关的法律法规和道德规范。
8.3 Go语言在爬虫领域的未来展望
Go语言以其简洁、高效和并发性能而受到越来越多开发者的青睐。在爬虫领域,Go语言具有以下优势:
- 高效性能:Go语言的编译速度快,执行效率高,适合处理高并发的爬虫任务。
- 并发支持:Go语言的原生并发支持使得开发高效的并发爬虫变得简单。
- 跨平台部署:Go语言的跨平台特性使得爬虫可以在不同的操作系统上轻松部署和运行。
- 丰富的生态系统:Go语言拥有丰富的第三方库和工具,有助于快速搭建爬虫系统。
未来,随着Go语言的持续发展和生态系统进一步完善,我们有理由相信Go语言将在爬虫领域发挥更大的作用,为开发者提供更多的便利和可能性。
相关文章:

Go语言实战:基于Go1.19的站点模板爬虫技术解析与应用
一、引言 1.1 爬虫技术的背景与意义 在互联网高速发展的时代,数据已经成为新的石油,而爬虫技术则是获取这种“石油”的重要工具。爬虫,又称网络蜘蛛、网络机器人,是一种自动化获取网络上信息的程序。它广泛应用于搜索引擎、数据分…...

5个ArcGIS图源分享
数据是GIS的血液。 我们在《15个在线地图瓦片URL分享》一文中为你分享了15个地图瓦片URL链接,现在再为你分享5个能做ArcGIS中直接加载的图源! 并提供了能直接在ArcMAP和ArcGIS Pro的文件,如果你需要这些ArcGIS图源,请在文末查看…...

科普文:万字梳理31个Kafka问题
1、 kafka 是什么,有什么作用 2、Kafka为什么这么快 3、Kafka架构及名词解释 4、Kafka中的AR、ISR、OSR代表什么 5、HW、LEO代表什么 6、ISR收缩性 7、kafka follower如何与leader同步数据 8、Zookeeper 在 Kafka 中的作用(早期) 9、Kafka如何快…...

Unity UGUI 实战学习笔记(4)
仅作学习,不做任何商业用途 不是源码,不是源码! 是我通过"照虎画猫"写的,可能有些小修改 不提供素材,所以应该不算是盗版资源,侵权删 登录面板UI 登录数据逻辑 这是初始化的数据变量脚本 using System.…...

Python学习和面试中的常见问题及答案
整理了一些关于Python和机器学习算法的高级问题及其详细答案。这些问题涵盖了多个方面,包括数据处理、模型训练、评估、优化和实际应用。 一、Python 编程问题 解释Python中的装饰器(Decorators)是什么?它们的作用是什么…...

Mysql-索引视图
目录 1.视图 1.1什么是视图 1.2为什么需要视图 1.3视图的作用和优点 1.4创建视图 1.5更新视图 1.6视图使用规则 1.7修改视图 1.8删除视图 2.索引 2.1什么是索引 2.2索引特点 2.3索引分类 2.4索引优缺点 2.5创建索引 2.6查看索引 2.7删除索引 1.视图 1.1什么是…...

电子签章-开放签应用
开放签电子签章系统开源工具版旨在将电子签章、电子合同系统开发中的前后端核心技术开源开放,适合有技术能力的个人 / 团队学习或自建电子签章 \ 电子合同功能或应用,避免研发同仁在工作过程中重复造轮子,降低电子签章技术研发要求࿰…...

Ubuntu下设置文件和文件夹用户组和权限
在 Ubuntu 上,你可以使用 chmod 和 chown 命令来设置当前文件夹下所有文件的权限和所有者。 设置权限: 使用 chmod 命令可以更改文件和目录的权限。例如,要为当前文件夹下的所有文件和子目录设置特定权限,可以使用以下命令&#x…...

JavaSE从零开始到精通(九) - 双列集合
1.前言 Java 中的双列集合主要指的是可以存储键值对的集合类型,其中最常用的包括 Map 接口及其实现类。这些集合允许你以键值对的形式存储和管理数据,提供了便捷的按键访问值的方式。 2. HashMap HashMap 是基于哈希表实现的 Map 接口的类,…...

探索 OpenAI GPT-4o Mini:开发者的高效创新工具
探索 OpenAI GPT-4o Mini:开发者的高效创新工具 最近,OpenAI 推出了全新的 GPT-4o Mini 模型,以其出色的性能和极具吸引力的价格,引起了开发者们的广泛关注。作为开发者,你是否已经开始探索这个“迄今为止最具成本效益…...

藏文词典查单词,藏汉双语解释,推荐使用《藏语翻译通》App
《藏语翻译通》App推出了藏文词典、藏汉大词典、新术语等全新在线查单词功能。 藏汉互译 《藏语翻译通》App的核心功能之一是藏汉互译。用户只需输入中文或藏文,即可获得翻译结果。 藏文词典查单词 掌握一门语言,词汇是基础。《藏语翻译通》App内置藏…...

【机器学习基础】初探机器学习
【作者主页】Francek Chen 【专栏介绍】⌈Python机器学习⌋ 机器学习是一门人工智能的分支学科,通过算法和模型让计算机从数据中学习,进行模型训练和优化,做出预测、分类和决策支持。Python成为机器学习的首选语言,依赖于强大的开…...

SpringBoot轻松实现多数据源切换
一.需求背景 项目需要实现在多个数据源之间读写数据,例如在 A 数据源和 B 数据源读取数据,然后在 C 数据源写入数据 或者 部分业务数据从 A 数据源中读取、部分从B数据源中读取诸如此类需求。本文将简单模拟在SpringBoot项目中实现不同数据源之间读取数…...

Qt 5 当类的信号函数和成员函数,函数名相同时,连接信号和槽的写法。
前言:因为项目需要,软件要在windows7上运行,然后项目目前是qt6写的,然后搜索资料,需要qt5.15.2或之前的版本才能在win7上运行,于是下载了qt5.15.2,将qt6的代码在qt5编译时,很多错误&…...

Vuex 介绍及示例
Vuex 是 Vue.js 的一个状态管理模式和库,用于管理 Vue 应用中的全局状态。它是专门为 Vue.js 应用设计的,充分利用了 Vue 的细粒度响应系统来高效地更新状态。以下是对 Vuex 的一些介绍和它的基本使用方法: 主要概念 State(状态&…...

【elementui】记录如何重命名elementui组件名称
在main.js中,就是引入elementui的文件中 import ElementUI from element-ui import { Tree } from element-uiVue.use(ElementUI) Vue.component(el-tree-rename, Tree)...

MySQL面试篇章—MySQL锁机制
文章目录 MySQL的锁机制表级锁 & 行级锁排它锁和共享锁InnoDB行级锁行级锁间隙锁意向共享锁和意向排它锁 InnoDB表级锁死锁锁的优化建议MVCC多版本并发控制MyISAM表级锁表级锁并发插入优化锁调度优化 MySQL的锁机制 表级锁 & 行级锁 表级锁:对整张表加锁&…...

OAK相机支持的图像传感器有哪些?
相机支持的传感器 在 RVC2 上,固件必须具有传感器配置才能支持给定的相机传感器。目前,我们支持下面列出的相机传感器的开箱即用(固件中)传感器配置。 名称 分辨率 传感器类型 尺寸 最大 帧率 IMX378 40563040 彩色 1/2.…...

网络安全威胁情报是什么,它对代工生产(OEM)意味着什么?
随着汽车数字环境的不断变化,网络安全基础设施及其面临的威胁也日趋复杂。 为了更好地识别、理解并最终预防这些风险,网络安全威胁情报(CTI)的管理应是一个综合多方面的过程。 以下是CTI对OEM的意义,以及如何利用网络…...

【基础篇】Docker 架构与组件 TWO
嗨,小伙伴们!我是小竹笋,一名热爱创作的工程师。上一篇我们聊了聊 Docker 的历史与发展、与虚拟机的对比以及它在行业中的应用。今天,让我们更进一步,深入探讨 Docker 的架构与关键组件。 欢迎订阅公众号:…...

03。正式拿捏ArkTS语言第一天
1, 打印日志命令 : console.log() 2, 三种基本数据类型: number 数字类型 (数字) string 字符串类型(例如:“我是字符串”) boolean 布尔类型 (true 或者 false) ***…...

【PyTorch][chapter 27][李宏毅深度学习][attention-3]
前言: 前面重点讲了self-attention, mulitHead self-attention. 目录: self-attention positional Encoding 语音处理例子 跟CNN区别 跟 RNN 区别 一 self-attention 回顾 优点 1 解决了长序列依赖问题 2 并行计算 缺点 1 开销变大 增加了 Q…...

java-数据结构与算法-02-数据结构-05-栈
文章目录 1. 栈1. 概述2. 链表实现3. 数组实现4. 应用 2. 习题E01. 有效的括号-Leetcode 20E02. 后缀表达式求值-Leetcode 120E03. 中缀表达式转后缀E04. 双栈模拟队列-Leetcode 232E05. 单队列模拟栈-Leetcode 225 1. 栈 1. 概述 计算机科学中,stack 是一种线性的…...

Python 管理依赖包(pip, virtualenv)
在Python编程中,管理依赖包是开发工作的重要组成部分。正确管理依赖包可以确保代码在不同环境中的一致性和可移植性,避免版本冲突和依赖地狱等问题。Python中常用的依赖包管理工具包括pip和virtualenv。 一、pip pip是Python官方推荐的包管理工具&…...

Bigdecimal 导出为excel时显示未0E-10,不是0,怎么解决
在使用 BigDecimal 导出到 Excel 时,如果遇到显示为 0E-10 而不是 0 的问题,这通常是因为 BigDecimal 对象的精度问题。0E-10 表示的是 0 乘以 10 的 -10 次方,这在数学上等同于…...

springboot项目从jdk8升级为jdk17过程记录
背景:公司有升级项目jdk的规划,计划从jdk8升级到jdk11 开始 首先配置本地的java_home 参考文档:Mac环境下切换JDK版本及不同的maven-CSDN博客 将pom.xml中jdk1.8相关的版本全部改为jdk17,主要是maven编译插件之类的,…...

list、tuple、set和dict传参机制
1、list、tuple、set和dict传参机制 # -------------list------------- def f1(my_list):print(f"②f1()my_list:{my_list} 地址是:{id(my_list)}") # ["tom","mary","hsp"] 0x1122my_list[0]"jack"print(f&quo…...

Redis快速入门基础
Redis入门 Redis是一个基于内存的 key-value 结构数据库。mysql是二维表的接口数据库 优点: 基于内存存储,读写性能高 适合存储热点数据(热点商品、资讯、新闻) 企业应用广泛 官网:https://redis.io 中文网:https://www.redis.net.cn/ Redis下载与…...

python基础介绍
这次的专题是关于python的知识点,加油! 文章目录 1 什么是计算机(1.1 哪些可以称为计算机?(以下)(1.2 计算机可以完成的工作有哪些?(1.3 一台计算机由什么构成? 2. 什么是编程(2.1 编…...

SSRF中伪协议学习
SSRF常用的伪协议 file:// 从文件系统中获取文件内容,如file:///etc/passwd dict:// 字典服务协议,访问字典资源,如 dict:///ip:6739/info: ftp:// 可用于网络端口扫描 sftp:// SSH文件传输协议或安全文件传输协议 ldap://轻量级目录访问协议 tftp:// 简单文件传输协议 gopher…...