当前位置：首页 > news >正文

【大语言模型】基础：TF-IDF

news 2026/2/8 3:40:00

TF-IDF (Term Frequency-Inverse Document Frequency) 是一种用于信息检索与文本挖掘的统计方法，用来评估一个词对于一个文件集或一个语料库中的其中一份文件的重要性。它是一种常用于文本处理和自然语言处理的权重计算技术。

原理

TF-IDF 由两部分组成：词频（TF）,文档频率(DF)和逆文档频率（IDF）。每一部分的计算方法如下：

词频（TF, Term Frequency）：指某一个给定的词语在该文件中出现的频率。这个数字通常会被标准化（通常是词频除以文章总词数），以防止它偏向长的文件。（即使某一特定的词语在长文件中出现频率较高，其实该词语可能并不重要。
文档频率（DF）: 是文本挖掘和信息检索中的一个基本概念，特别是在计算 TF-IDF（词频-逆文档频率） 时经常被用到。尽管通常在TF-IDF计算中讨论DF的倒数，但单独理解它也同样重要。定义为包含词 t 的文档数目，在语料库 D 中。它衡量一个词在整个语料库中的普遍性或稀有性。

逆文档频率（IDF, Inverse Document Frequency）：这是一个词语普遍重要性的度量。某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到：
TF-IDF：然后将TF和IDF相乘得到一个词的TF-IDF分数，该分数即为词在文档中的重要性：

比较TF-IDF与余弦相似度（Cosine Similarity）,TF-IDF 主要用于调整词在文档中的权重，而余弦相似度是一种衡量两个文本向量方向相似度的方法。

TF-IDF

目的：

权重调整：TF-IDF 通过增加罕见词的权重而降低常见词的权重，从而提供了一种评估词语在一个或多个文档中重要性的方法。

优点：

区分文档特有的重要词汇：对于只在少数文档中出现，但在这些文档中出现频率较高的词，TF-IDF 会赋予较高的权重。

局限性：

无法直接用于相似性度量：TF-IDF 本身是一个用于调整单词权重的统计方法，它需要与其他技术（如余弦相似度）结合使用，才能用于文档相似性度量。

余弦相似度

目的：

相似性度量：余弦相似度通过计算两个向量之间的角度余弦值来度量它们的相似度，用于比较两个文本向量的方向一致性。

优点：

规模不变性：余弦相似度衡量的是方向一致性而非向量的大小，因此它对文本长度不敏感，适用于比较长度不同的文档。
直观度量相似性：可以直接用于评估两个文本的相似度，特别是结合了TF-IDF后，可以有效反映出文本内容的语义相似性。

局限性：

依赖于向量表达：余弦相似度的效果很大程度上依赖于文本向量的构建方式（如使用TF-IDF或其他词向量模型）。

结合使用 TF-IDF 和余弦相似度

在实际应用中，TF-IDF 通常与余弦相似度结合使用来提高文本相似性度量的准确性：

向量化：首先使用 TF-IDF 对文档中的每个词进行权重计算，生成文档的向量表示。
相似性计算：然后计算这些基于 TF-IDF 的向量之间的余弦相似度，以确定文档间的相似性。

下面看下TF-IDF代码实现：

import numpy as np
from collections import defaultdict
import math# 示例语料库
documents = ["the sky is blue","the sun is bright","the sun in the sky is bright","we can see the shining sun, the bright sun"
]# 计算词频的函数
def compute_tf(text):# 将文本分割为词项terms = text.split()tf_data = {}for term in terms:tf_data[term] = tf_data.get(term, 0) + 1# 按文档中的总词数进行标准化total_terms = len(terms)for term in tf_data:tf_data[term] = tf_data[term] / total_termsreturn tf_data# 计算逆文档频率的函数
def compute_idf(documents):N = len(documents)idf_data = defaultdict(lambda: 0)for document in documents:terms = set(document.split())for term in terms:idf_data[term] += 1# 计算IDFfor term, count in idf_data.items():idf_data[term] = math.log(N / float(count))return idf_data# 计算TF-IDF的函数
def compute_tfidf(documents):# 计算各个文档的TFtfs = [compute_tf(doc) for doc in documents]# 计算语料库的IDFidfs = compute_idf(documents)# 计算TF-IDFtf_idf = []for doc_tf in tfs:doc_tf_idf = {}for term, value in doc_tf.items():doc_tf_idf[term] = value * idfs[term]tf_idf.append(doc_tf_idf)return tf_idf# 为语料库计算TF-IDF
tf_idf_scores = compute_tfidf(documents)# 输出结果
for idx, doc_scores in enumerate(tf_idf_scores):print(f"文档 {idx + 1} 的TF-IDF分数：")for term, score in doc_scores.items():print(f"    {term}: {score:.4f}")

创建Heatmap显示单词在各个文档中的权重：

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
# Create a DataFrame from the TF-IDF dictionary
tf_idf_df = pd.DataFrame(tf_idf_scores)
tf_idf_df = tf_idf_df.fillna(0)  # Fill NaN values with 0# Create a heatmap
plt.figure(figsize=(12, 8))
sns.heatmap(tf_idf_df, annot=True, cmap="YlGnBu", fmt=".2f")
plt.title('TF-IDF Scores Heatmap')
plt.xlabel('Terms')
plt.ylabel('Documents')
plt.show()

【大语言模型】基础：TF-IDF

TF-IDF (Term Frequency-Inverse Document Frequency) 是一种用于信息检索与文本挖掘的统计方法，用来评估一个词对于一个文件集或一个语料库中的其中一份文件的重要性。它是一种常用于文本处理和自然语言处理的权重计算技术。原理 TF-IDF 由两部分组成&#xff1…...

编程日记 2024/4/16 6:14:49

[开发日志系列]PDF图书在线系统20240415

20240414 Step1: 创建基础vueelment项目框架[耗时: 1h25min(8:45-10:10)] 检查node > 升级至最新 (考虑到时间问题,没有使用npm命令行执行,而是觉得删除重新下载最新版本) > > 配置vue3框架取名:Online PDF Book System 遇到的报错: 第一报错: npm ERR! …...

编程日记 2024/4/16 6:13:47

蓝桥杯 — — 纯质数

纯质数题目： 思路： 一个最简单的思路就是枚举出所有的质数，然后再判断这个质数是否是一个纯质数。枚举出所有的质数： 可以使用常规的暴力求解法，其时间复杂度为（ O ( N N ) O(N\sqrt{N}) O(NN )&…...

编程日记 2024/4/16 6:12:46

OpenCV基本图像处理操作（三）——图像轮廓

轮廓 cv2.findContours(img,mode,method) mode:轮廓检索模式 RETR_EXTERNAL ：只检索最外面的轮廓；RETR_LIST：检索所有的轮廓，并将其保存到一条链表当中；RETR_CCOMP：检索所有的轮廓，并将他们组…...

编程日记 2024/4/16 6:11:45

比特币突然暴跌

作者：秦晋周末愉快。今天给大家分享两则比特币新闻，也是两个数据。一则是因为中东地缘政治升温，传统资本市场的风险情绪蔓延至加密市场，引发加密市场暴跌。比特币跌至66000美元下方。杠杆清算金额高达8.5亿美元。二则是&#x…...

编程日记 2024/4/16 6:10:43

使用SpeechRecognition和vosk处理ASR

SpeechRecognition可以支持多种模型语音转文字，感觉vosk还不错，使用起来也简单一些；百度也有PaddleSpeech，但是安装起来太麻烦，不是这个库版本不对就是那个库有问题，用起来不方便； 安装SpeechR…...

编程日记 2024/4/16 6:09:42

【Go】通道：缓冲通道和非缓冲通道

目录通道的基本概念缓冲通道非缓冲通道总结通道的基本概念在Go语言中，通道是一种特殊的类型，用于在goroutine之间传递数据。你可以将通道想象为数据的传输管道。通道分为两种类型： 非缓冲通道（Unbuffered Channels&…...

编程日记 2024/4/16 6:08:41

Java中数组的使用

在Java编程中，数组是一种非常重要的数据结构，它允许我们存储相同类型的多个元素。对于初学者来说，理解数组的基本概念、初始化、遍历、默认值以及内存分配和使用注意事项是非常关键的。一、数组的概念数组是一个可以容纳多个相同类型数据…...

编程日记 2024/4/16 6:07:40

CAP5_Monday

A Set to Max (Easy Version) 给定数组 a 和 b，可以执行以下操作任意次 : 让 a l ∼ a r a_l\sim a_r al∼ar 中的所有所有元素变成 a i a_i ai ( l ≤ i ≤ r ) (l\leq i\leq r) (l≤i≤r)， 其中 1 ≤ l ≤ r ≤ n 1\leq l \leq r \leq n 1≤…...

编程日记 2024/4/16 6:06:39

科大讯飞星火开源大模型iFlytekSpark-13B GPU版部署方法

星火大模型的主页：iFlytekSpark-13B: 讯飞星火开源-13B（iFlytekSpark-13B）拥有130亿参数，新一代认知大模型，一经发布，众多科研院所和高校便期待科大讯飞能够开源。为了让大家使用的更加方便，科…...

编程日记 2024/4/16 6:05:38

SpringBoot基于RabbitMQ实现消息延迟队列方案

知识小科普在此之前，简单说明下基于RabbitMQ实现延时队列的相关知识及说明下延时队列的使用场景。延时队列使用场景在很多的业务场景中，延时队列可以实现很多功能，此类业务中，一般上是非实时的，需要延迟处理的&a…...

编程日记 2024/4/16 6:04:37

Go语言使用标准库时常见错误

Go的标准库是一组增加和拓展语言的核心包。然而，很容易误用标准库，或者我们对其行为理解有限，导致产生了bug或不应该在生产级应用程序中某些功能。 1. 提供错误的持续时间标准库提供了获取 time.Duration 的常用函数和方法，但由于 time.Duration 是 int64 的自定义类型，…...

编程日记 2024/4/16 6:03:36

首先查找引擎中像素流的位置： zkzk-ubuntu2023:/media/zk/Data/Linux_Unreal_Engine_5.3.2$ sudo find ./ -name get_ps_servers.sh [sudo] zk 的密码： ./Engine/Plugins/Media/PixelStreaming/Resources/WebServers/get_ps_servers.sh然后在指定路径中…...

编程日记 2024/4/16 6:02:35

Redis 常用数据类型常用命令和应用场景

首先先混个眼熟 Redis 中的 8 种常用数据类型： 5 种基础数据类型：String（字符串）、List（列表）、Set（集合）、Hash（散列）、Zset（有序集合&#xff0…...

编程日记 2024/4/16 5:59:31

ins视频批量下载，instagram批量爬取视频信息

简介 Instagram 是目前最热门的社交媒体平台之一,拥有大量优质的视频内容。但是要逐一下载这些视频往往非常耗时。在这篇文章中,我们将介绍如何使用 Python 编写一个脚本,来实现 Instagram 视频的批量下载和信息爬取。我们使用selenium获取目标用户的 HTML 源代码,并将其保存…...

编程日记 2024/4/16 5:57:30

Canvas图形编辑器-数据结构与History(undo/redo)

Canvas图形编辑器-数据结构与History(undo/redo) 这是作为社区老给我推Canvas，于是我也学习Canvas做了个简历编辑器的后续内容，主要是介绍了对数据结构的设计以及History能力的实现。在线编辑: https://windrunnermax.github.io/CanvasEditor开源地…...

编程日记 2024/4/16 5:56:29

阿里云Centos7下编译glibc

编译glibc 原来glibc版本编译前需要的环境: CentOS7 gcc 8.3.0 gdb 8.3.0 make 4.0 binutils 2.39 (ld -v) python 3.6.8 其他看INSTALL, 但有些版本也不易太高 wget https://mirrors.aliyun.com/gnu/glibc/glibc-2.37.tar.gz tar -zxf glibc-2.37.tar.gz cd glibc-2.37/ …...

编程日记 2024/4/16 5:55:28

UE5数字孪生系列笔记(四)

场景的切换创建一个按钮的用户界面UMG 创建一个Actor，然后将此按钮UMG添加到组件Actor中调节几个全屏的背景运行结果目标点切换功能制作设置角色到这个按钮的位置效果按钮被点击就进行跳转多个地点的切换与旋转将之前的目标点切换逻辑替换成旋转的逻…...

编程日记 2024/4/16 5:54:27

品牌故事化：Kompas.ai如何塑造深刻的品牌形象

在这个信息爆炸的时代，品牌故事化已经成为企业塑造独特形象、与消费者建立情感联系的重要手段。一个引人入胜的品牌故事不仅能够吸引消费者的注意力，还能够在消费者心中留下持久的印象，建立起强烈的情感连接。本文将深入探讨品牌故事化对于构…...

编程日记 2024/4/16 5:53:25

5g和2.4g频段有什么区别

运行的频段不同 2.4G和5G频段的主要区别在于它们运行的频段不同，2.4G频段运行在2.4GHz的频段上，而5G频段（这里指的是5GHz频段）运行在5GHz的频段上。12 这导致了两者在传输速度、覆盖范围、抗干扰能力等方面的明显差异。以下是详…...

编程日记 2024/4/16 5:52:24

大型活动交通拥堵治理的视觉算法应用

大型活动下智慧交通的视觉分析应用一、背景与挑战大型活动（如演唱会、马拉松赛事、高考中考等）期间，城市交通面临瞬时人流车流激增、传统摄像头模糊、交通拥堵识别滞后等问题。以演唱会为例，暖城商圈曾因观众集中离场导致周边…...

编程新知 2026/1/23 7:15:40

YSYX学习记录（八）

C语言，练习0： 先创建一个文件夹，我用的是物理机： 安装build-essential 练习1： 我注释掉了 #include <stdio.h> 出现下面错误在你的文本编辑器中打开ex1文件，随机修改或删除一部分，之后…...

编程新知 2026/1/24 14:31:01

关于iview组件中使用 table , 绑定序号分页后序号从1开始的解决方案

问题描述：iview使用table 中type: "index",分页之后 ，索引还是从1开始，试过绑定后台返回数据的id, 这种方法可行，就是后台返回数据的每个页面id都不完全是按照从1开始的升序，因此百度了下，找到了…...

编程新知 2026/1/29 20:58:41

【机器视觉】单目测距——运动结构恢复

ps：图是随便找的，为了凑个封面前言在前面对光流法进行进一步改进，希望将2D光流推广至3D场景流时，发现2D转3D过程中存在尺度歧义问题，需要补全摄像头拍摄图像中缺失的深度信息，否则解空间不收敛&#xf…...

编程新知 2026/2/8 3:03:01

【算法训练营Day07】字符串part1

文章目录反转字符串反转字符串II替换数字反转字符串题目链接：344. 反转字符串双指针法，两个指针的元素直接调转即可 class Solution {public void reverseString(char[] s) {int head 0;int end s.length - 1;while(head < end) {char temp …...

编程新知 2025/8/27 14:38:58

C# SqlSugar：依赖注入与仓储模式实践

C# SqlSugar：依赖注入与仓储模式实践在 C# 的应用开发中，数据库操作是必不可少的环节。为了让数据访问层更加简洁、高效且易于维护，许多开发者会选择成熟的 ORM（对象关系映射）框架，SqlSugar 就是其中备受…...

编程新知 2025/11/25 6:49:02

select、poll、epoll 与 Reactor 模式

在高并发网络编程领域，高效处理大量连接和 I/O 事件是系统性能的关键。select、poll、epoll 作为 I/O 多路复用技术的代表，以及基于它们实现的 Reactor 模式，为开发者提供了强大的工具。本文将深入探讨这些技术的底层原理、优缺点。一、I…...

编程新知 2026/2/6 17:10:42

Java 二维码

Java 二维码 **技术：**谷歌 ZXing 实现首先添加依赖 <dependency><groupId>com.google.zxing</groupId><artifactId>core</artifactId><version>3.5.1</version></dependency><de…...

编程新知 2025/9/6 16:22:45

Golang——6、指针和结构体

指针和结构体 1、指针1.1、指针地址和指针类型1.2、指针取值1.3、new和make 2、结构体2.1、type关键字的使用2.2、结构体的定义和初始化2.3、结构体方法和接收者2.4、给任意类型添加方法2.5、结构体的匿名字段2.6、嵌套结构体2.7、嵌套匿名结构体2.8、结构体的继承 3、结构体与…...

编程新知 2026/1/28 11:35:09

Python Einops库：深度学习中的张量操作革命

Einops（爱因斯坦操作库）就像给张量操作戴上了一副"语义眼镜"——让你用人类能理解的方式告诉计算机如何操作多维数组。这个基于爱因斯坦求和约定的库，用类似自然语言的表达式替代了晦涩的API调用，彻底改变了深度学习工程…...

编程新知 2025/10/16 12:04:52