当前位置: 首页 > news >正文

网上的搜索

Internet中蕴含的信息资源非常丰富,但如何在这浩瀚如海的信息空间内快速找到自己所需要的资源呢?我们需要借助于搜索引擎。在网络上,提供搜索功能的网站非常多,如百度、谷歌、搜狗等,另外有一些门户网站也提供了搜索功能,如新浪、网易、搜狐、腾讯等。在这些网站上都可以搜索到我们需要的信息。

▶搜索引擎的定义

搜索引擎是为用户提供检索服务的系统,它根据一定的策略,运用特定的计算机程序搜集互联网上的信息,并对信息进行组织和处理,将处理后的结果显示给用户,通俗地理解,搜索引擎就是一个网站,但它专门为网民们提供信息检索服务。与一般网站的区别是,它自动搜寻Web服务器的信息,然后将信息进行分类、建立索引,再把索引的内容放到数据库中,供用户进行检索。搜索引擎的工作过程分为3个方面。
(1)抓取网页。每个搜索引擎都有自己的网页抓取程序,通常称为“蜘蛛”(Spider)程序、“爬虫”(Crawler)程序或“机器人”(Robot)程序,这3种叫法意义相同,作用是顺着网页中的超链接连续抓取网页,被抓取的网页称为网页快照。
(2)处理网页。搜索引擎抓取网页以后,需要进行一系列处理工作,例如,提取关键字、建立索引文件、删除重复网页、判断网页类型、分析超链接等,最后送至网页数据库。
(3)提供检索服务。当用户输入关键字进行检索时,搜索引擎将从网页数据库中找到匹配的网页,以列表的形式罗列出来,供用户查看。

▶搜索引擎的基本类型

按照搜索引擎的工作方式划分,可以将搜索引擎分为4种基本类型。

▶1.全文索引

全文索引引擎是名副其实的搜索引擎,国外代表有Google,国内则有著名的百度搜索。它们都是从互联网提取各个网站的信息并建立网页数据库,然后从数据库中检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。
全文搜索引擎可分为两类:一类拥有自己的网页抓取、索引与检索系统,如Google和百度;另一类是租用其他搜索引擎的数据库,如Lycos搜索引擎。

▶2.目录索引

目录索引虽然有搜索功能,但严格意义上不能称为真正的搜索引擎。它将网站链接按照不同的分类标准进行分类,然后以目录列表的形式提供给用户,用户不需要依靠关键字来查询,按照分类目录就可以找到所需要的信息。
目录索引中最具代表性的网站就是Yahoo,新浪、网易也属于这一类。它们将互联网中的信息资源按照一定的规则整理成目录,用户逐级浏览就可以找到自己所需要的内容。

▶3.元搜索引擎

元搜索引擎又称多搜索引擎,它是一种对多个搜索引擎的搜索结果进行重新汇集、筛选、删除、合并等优化处理的搜索引擎。“元”为“总的”“超越”之意,元搜索引擎就是对多个独立搜索引擎的整合、调用、控制和优化利用。
著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile;有的则按自定的规则将结果重新排列组合,如Vivisimo。

▶4.垂直搜索引擎

垂直搜索引擎是2006年以后逐步兴起的一种搜索引擎,它专注于特定的搜索领域和搜索需求,如机票搜索、旅游搜索、生活拽索、小说搜索等。垂直搜索引擎是针对某一个行业的专业使系引擎,是通用搜索引擎的细分和延伸,它对网页数据库中的某类信息进行整合,抽取出需要的数据进行处理并返回给用户

▶确定关键字的原则

搜索网络信息时,关键字的选择非张重要,它直接影响到我们的搜索结果。关键字的选择要准确,有代表性,符合搜索的主题。确定关键字时可以参照以下原则。

▶1.提炼要准确

提炼查询关键子的时候一定要准确,如果在询的关键字不准确,就会搜索出大量的无关信息,与自己要查询的内容毫不相关。

▶2.切忌使用错别字

在搜索引擎中输入关键字时,最好不要出现错别字,特别是使用拼音输入法时,要确保输入关键字的正确性。如果关键字中使用了错别字,会大大降低搜索的效率,致使返回的信息量变少,甚至搜索到错误信息。

▶3.不要使用口语化语言

我们的日常交流主要运用口语,但是在网络上搜索信息时,要尽可能地避免使用口语作为关键字,这样可能得不到想要的结果。

▶4.使用多个关键字

搜索信息时要学会运用搜索法则,运用多个关键字来缩小搜索范围,这样更容易得到结果。

互联网上的搜索引擎种类很多,但它们的技术基础都是互联网技术、数据库技术以及一些人工智能技术和多媒体技术。按照搜索引擎提供的功能和使用的技术,可以将搜索引擎划分为多种类型,下面介绍其常用的分类方法。

▶常用的搜索引擎

目前,许多大型网站都提供了搜索引擎服务,如Google、百度、雅虎、搜狐、新浪、网易等。下面将对其中使用较多的搜索引擎进行介绍。

▶1.百度

百度由毕业于北京大学的李彦宏及徐勇于1999年年底在美国硅谷创建,2000年百度回国发展。“众里寻她千百度”,“百度”两字正是源自辛弃疾的《青玉案》,它象征着百度对中文信息检索技术执着的追求。百度是全球最大的中文搜索引擎,其网址是http;//www.baidu.com。在地址栏中输入该网址,按Enter键即可打开百度搜索首页。
百度搜索页面与Google搜索页面大同小异,查询框上面提供了多个分类链接,单击某超链接,可把搜索范围规定在该类里面。例如,在搜索文本框中输人要查找的关键字“二进制”,然后单击“百度一下”按钮,即可显示与此有关的相应网页列表。
打开搜索页面后,每个搜索链接后面都包含一个“百度快照”超链接,百度快照是百度网站最具魅力和实用价值的一项服务。用户在上网的时候经常会遇到“该页无法显示”(找不到网页的出错信息)的情况,造成这种情况的原因很多,如网站服务器暂时中断或堵塞、网站已经更改链接等,百度搜索引擎在搜索过程中已先预览各网站,拍下网页的快照,保存了几乎所有网站的大部分页面,使用户在不能链接所需网站时,也可通过百度快照救急。

▶2.搜狐

搜狐是目前Internet上最著名也是最全面的中文网站搜索引擎,网址是http://www.sohu.com/。搜狐提供的是中文网站搜索,更符合中国用户的需求。该网站并不是一个专门的搜索网站,其综合性很强,涉及Internet的各项功能,如网络新闻、股市行情、网上聊天、BBS、免费电子邮箱、购物、求职等,因而从某种意义上说,搜狐是一个“网站大杂烩”。由于搜狐收录的中文网站齐全,如果要搜索中文网站,搜狐应该是首选之一。

相关文章:

网上的搜索

Internet中蕴含的信息资源非常丰富,但如何在这浩瀚如海的信息空间内快速找到自己所需要的资源呢?我们需要借助于搜索引擎。在网络上,提供搜索功能的网站非常多,如百度、谷歌、搜狗等,另外有一些门户网站也提供了搜索功能&#xf…...

【算法-哈希表2】快乐数 和 两数之和

今天,带来哈希表相关算法的讲解。文中不足错漏之处望请斧正! 理论基础点这里 1. 快乐数 分析题意 出题者已经把题意明确告诉我们了: 对于一个正整数,每一次将该数替换为它每个位置上的数字的平方和。然后重复这个过程直到这个数变为 1&am…...

MR外包团队:MR、XR混合现实技术应用于游戏、培训,心理咨询、教育成为一种创新的各行业MR、XR形式!

随着VR、AR、XR、MR混合现实等技术逐渐应用于游戏开发、心理咨询、培训、教育各个领域,为教育、培训、心理咨询等行业带来了全新的可能性。MR、XR游戏开发、心理咨询是利用虚拟现实技术模拟真实场景,让学生身临其境地参与学习和体验,从而提高…...

【P1008 [NOIP1998 普及组] 三连击】

[NOIP1998 普及组] 三连击 题目背景 本题为提交答案题,您可以写程序或手算在本机上算出答案后,直接提交答案文本,也可提交答案生成程序。 题目描述 将 1 , 2 , … , 9 1, 2, \ldots , 9 1,2,…,9 共 9 9 9 个数分成 3 3 3 组&#xff…...

机器学习算法——集成学习

目录 1. Bagging 1. Bagging Bagging(bootstrap aggregating:自举汇聚法)也叫装袋法,其思想是通过将许多相互独立的学习器的结果进行结合,从而提高整体学习器的泛化能力,是一种并行集成学习方法。 工作流…...

java springboot在当前测试类中添加临时属性 不影响application和其他范围

目前 我们的属性基本都写在 application.yml 里面了 但是 如果 我们只是想做一下临时变量的测试 有没有办法实现呢? 显然是有的 这里 我们还是先在application.yml中去写一个 test属性 下面加个prop 然后 我们尝试在测试类中 获取一下这个属性 直接用 Value 读取…...

原型网络Prototypical Network的python代码逐行解释,新手小白也可学会!!由于工作量大,准备整8个系列完事,-----系列5

文章目录 前言一、原始程序---计算原型,开始训练,计算损失二、每一行代码的详细解释2.1 粗略分析2.2 每一行代码详细分析 前言 承接系列4,此部分属于原型类中的计算原型,开始训练,计算损失函数。 一、原始程序—计算原…...

milvus数据库的数据管理-插入数据

一、插入数据 1.准备数据 数据必须与数据库中定义的字段元数据一致,与集合的模式匹配 import random data [[i for i in range(2000)],[str(i) for i in range(2000)],[i for i in range(10000, 12000)],[[random.random() for _ in range(2)] for _ in range(2…...

系列一、请谈谈你对JVM的理解?Java8的虚拟机有什么更新?

一、请谈谈你对JVM的理解?Java8的虚拟机有什么更新? JVM是Java虚拟机的意思。它是建立在操作系统之上的,由类加载器子系统、本地方法栈、Java栈、程序计数器、方法区、堆、本地方法库、本地方法接口、执行引擎组成。 (1&#xff0…...

恕我直言,大模型对齐可能无法解决安全问题,我们都被表象误导了

是否听说过“伪对齐”这一概念? 在大型语言模型(LLM)的评估中,研究者发现了一个引人注目的现象:当面对多项选择题和开放式问题时,模型的表现存在显著差异。这一差异根源在于模型对复杂概念的理解不够全面&…...

Apache Airflow (九) :Airflow Operators及案例之BashOperator及调度Shell命令及脚本

🏡 个人主页:IT贫道_大数据OLAP体系技术栈,Apache Doris,Clickhouse 技术-CSDN博客 🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。 🔔 博主个人B栈地址:豹哥教你大数据的个人空间-豹…...

IJ中配置TortoiseSVN插件:

文章目录 一、报错情况:二、配置TortoiseSVN插件: 一、报错情况: 由于公司电脑加密,TortoiseSVN菜单没有提交和更新按钮,所以需要使用IJ的SVN进行代码相关操作 二、配置TortoiseSVN插件: 需要设置一个svn.…...

个人实现在线支付,一种另类的在线支付解决方案

Hi, I’m Shendi 个人实现在线支付,一种另类的在线支付解决方案 个人实现在线支付的方式 对于在线支付,最多的是接入微信与支付宝。但都需要营业执照,不适用于个人。 当然,可以去办理一个个体工商户,但对我这种小额收…...

浅谈智能安全配电装置应用在银行配电系统中

【摘要】银行是国家重点安全保护部分,关系到社会资金的稳定,也是消防重点单位。消防安全是银行工作的重要组成部分。在银行配电系统中应用智能安全配电装置,可以提高银行的智能控制水平,有效预防电气火灾。 【关键词】银行&#…...

macOS下如何使用Flask进行开发

👨🏻‍💻 热爱摄影的程序员 👨🏻‍🎨 喜欢编码的设计师 🧕🏻 擅长设计的剪辑师 🧑🏻‍🏫 一位高冷无情的编码爱好者 大家好,我是全栈工…...

记一次服务器配置文件获取OSS

一、漏洞原因 由于网站登录口未做双因子校验,导致可以通过暴力破解获取管理员账号,成功进入系统;未对上传的格式和内容进行校验,可以任意文件上传获取服务器权限;由于服务器上配置信息,可以进一步获取数据库权限和OSS管理权限。二、漏洞成果 弱口令获取网站的管理员权限通…...

合众汽车选用风河Wind River Linux系统

导读合众新能源汽车股份有限公司近日选择了Wind River Linux 用于开发合众智能安全汽车平台。 合众智能安全汽车平台(Hozon Automo-tive Intelligent Security Vehicle Plat-form)是一个面向高性能服务网关及车辆控制调度的硬件与软件框架,将于2024年中开始投入量产…...

PTA平台-2023年软件设计综合实践_5(指针及引用)

第一题 6-1 调和平均 - C/C 指针及引用 函数hmean()用于计算整数x和y的调和平均数,结果应保存在指针r所指向的浮点数对象中。当xy等于0时,函数返回0表示无法计算,否则返回1。数学上,两个数x和y的调和平均数 z 2xy/(xy) 。 直接…...

智慧卫生间

智慧卫生间 获取ApiKey/SecretKey获取Access_token获取卫生间实时数据返回说明 获取ApiKey/SecretKey ApiKey/SecretKey采用 线下获取的方式,手动分配。 获取Access_token 向授权服务地址http://xxxxxx:12345/token(示意)发送post请求,并在data中带上…...

Cadence virtuoso drc lvs pex 无法输入

问题描述:在PEX中的PEX options中 Ground node name 无法输入内容。 在save runset的时候也出现无法输入名称的情况 解决办法: copy一个.bashrc文件到自己的工作目录下 打开.bashrc文件 在.bashrc中加一行代码:unset XMODIFIERS 在终端sour…...

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…...

第19节 Node.js Express 框架

Express 是一个为Node.js设计的web开发框架,它基于nodejs平台。 Express 简介 Express是一个简洁而灵活的node.js Web应用框架, 提供了一系列强大特性帮助你创建各种Web应用,和丰富的HTTP工具。 使用Express可以快速地搭建一个完整功能的网站。 Expre…...

【力扣数据库知识手册笔记】索引

索引 索引的优缺点 优点1. 通过创建唯一性索引,可以保证数据库表中每一行数据的唯一性。2. 可以加快数据的检索速度(创建索引的主要原因)。3. 可以加速表和表之间的连接,实现数据的参考完整性。4. 可以在查询过程中,…...

QMC5883L的驱动

简介 本篇文章的代码已经上传到了github上面,开源代码 作为一个电子罗盘模块,我们可以通过I2C从中获取偏航角yaw,相对于六轴陀螺仪的yaw,qmc5883l几乎不会零飘并且成本较低。 参考资料 QMC5883L磁场传感器驱动 QMC5883L磁力计…...

《Playwright:微软的自动化测试工具详解》

Playwright 简介:声明内容来自网络,将内容拼接整理出来的文档 Playwright 是微软开发的自动化测试工具,支持 Chrome、Firefox、Safari 等主流浏览器,提供多语言 API(Python、JavaScript、Java、.NET)。它的特点包括&a…...

Objective-C常用命名规范总结

【OC】常用命名规范总结 文章目录 【OC】常用命名规范总结1.类名(Class Name)2.协议名(Protocol Name)3.方法名(Method Name)4.属性名(Property Name)5.局部变量/实例变量(Local / Instance Variables&…...

高等数学(下)题型笔记(八)空间解析几何与向量代数

目录 0 前言 1 向量的点乘 1.1 基本公式 1.2 例题 2 向量的叉乘 2.1 基础知识 2.2 例题 3 空间平面方程 3.1 基础知识 3.2 例题 4 空间直线方程 4.1 基础知识 4.2 例题 5 旋转曲面及其方程 5.1 基础知识 5.2 例题 6 空间曲面的法线与切平面 6.1 基础知识 6.2…...

Module Federation 和 Native Federation 的比较

前言 Module Federation 是 Webpack 5 引入的微前端架构方案,允许不同独立构建的应用在运行时动态共享模块。 Native Federation 是 Angular 官方基于 Module Federation 理念实现的专为 Angular 优化的微前端方案。 概念解析 Module Federation (模块联邦) Modul…...

【Redis】笔记|第8节|大厂高并发缓存架构实战与优化

缓存架构 代码结构 代码详情 功能点: 多级缓存,先查本地缓存,再查Redis,最后才查数据库热点数据重建逻辑使用分布式锁,二次查询更新缓存采用读写锁提升性能采用Redis的发布订阅机制通知所有实例更新本地缓存适用读多…...

Java求职者面试指南:计算机基础与源码原理深度解析

Java求职者面试指南:计算机基础与源码原理深度解析 第一轮提问:基础概念问题 1. 请解释什么是进程和线程的区别? 面试官:进程是程序的一次执行过程,是系统进行资源分配和调度的基本单位;而线程是进程中的…...