推荐系统的核心逻辑 MVP
我们将设计一个基于内容经济的推荐系统(Minimum Viable Product, MVP)。这个系统将通过收集用户行为数据,计算用户相似度,并生成个性化的推荐结果。推荐系统将包括数据收集、数据存储、数据处理和推荐服务几个关键部分。
MVP功能点概要
- 前端埋点数据收集:收集用户行为数据,如浏览、点击、购买等。
- 数据存储:将收集到的数据存储在ClickHouse数据库中。
- 离线计算用户相似度:使用Spark计算用户之间的相似度。
- 实时推荐服务:基于用户相似度,为用户提供实时推荐。
实现步骤
步骤一:前端埋点数据收集
- 设置前端埋点:在网站或应用中添加JavaScript代码,收集用户行为数据。
// 前端埋点示例(使用JavaScript)
document.addEventListener('DOMContentLoaded', (event) => {document.querySelectorAll('.trackable-item').forEach(item => {item.addEventListener('click', (e) => {let userId = getUserId(); // 获取用户IDlet itemId = e.target.dataset.itemId; // 获取项目IDlet actionType = 'click'; // 行为类型let actionTime = new Date().toISOString(); // 行为时间// 发送数据到后端fetch('/track', {method: 'POST',headers: {'Content-Type': 'application/json'},body: JSON.stringify({user_id: userId,item_id: itemId,action_type: actionType,action_time: actionTime})});});});
});function getUserId() {// 模拟获取用户ID的逻辑return '12345';
}
步骤二:数据存储
- 后端服务接收数据并存储到ClickHouse:
# 使用Flask作为后端服务
from flask import Flask, request
from clickhouse_driver import Clientapp = Flask(__name__)
client = Client(host='clickhouse_host', user='default', password='your_password', database='default')@app.route('/track', methods=['POST'])
def track():data = request.jsonuser_id = data['user_id']item_id = data['item_id']action_type = data['action_type']action_time = data['action_time']# 插入数据到ClickHouseclient.execute('''INSERT INTO user_behavior (user_id, item_id, action_type, action_time) VALUES (%s, %s, %s, %s)''', (user_id, item_id, action_type, action_time))return 'OK', 200if __name__ == '__main__':app.run(host='0.0.0.0', port=5000)
- 在ClickHouse中创建存储表:
CREATE TABLE user_behavior (user_id String,item_id String,action_type String,action_time DateTime
) ENGINE = MergeTree()
ORDER BY (user_id, action_time);
步骤三:离线计算用户相似度
- 使用Spark计算用户相似度:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col
from pyspark.ml.recommendation import ALS# 创建Spark会话
spark = SparkSession.builder \.appName("UserSimilarityCalculation") \.getOrCreate()# 加载用户行为数据
user_behavior = spark.read \.format("jdbc") \.option("url", "jdbc:clickhouse://clickhouse_host:8123/default") \.option("dbtable", "user_behavior") \.option("user", "default") \.option("password", "your_password") \.load()# 训练ALS模型
als = ALS(userCol="user_id", itemCol="item_id", ratingCol="action_type", coldStartStrategy="drop")
model = als.fit(user_behavior)# 生成用户相似度矩阵
user_factors = model.userFactors
user_similarity = user_factors.alias("i").join(user_factors.alias("j"), col("i.id") != col("j.id")) \.select(col("i.id").alias("user1"), col("j.id").alias("user2"), cosine_similarity(col("i.features"), col("j.features")).alias("similarity"))# 保存用户相似度矩阵到ClickHouse
user_similarity.write \.format("jdbc") \.option("url", "jdbc:clickhouse://clickhouse_host:8123/default") \.option("dbtable", "user_similarity") \.option("user", "default") \.option("password", "your_password") \.mode("overwrite") \.save()
步骤四:实时推荐服务
- 构建推荐API服务:
from flask import Flask, request, jsonify
from clickhouse_driver import Clientapp = Flask(__name__)
client = Client(host='clickhouse_host', user='default', password='your_password', database='default')@app.route('/recommend', methods=['GET'])
def recommend():user_id = request.args.get('user_id')# 查询用户最近的行为数据user_behavior = client.execute('''SELECT item_id, COUNT(*) AS count FROM user_behavior WHERE user_id = %s GROUP BY item_id ORDER BY count DESC LIMIT 10''', (user_id,))# 查询用户相似度user_similarity = client.execute('''SELECT user2 AS similar_user, similarity FROM user_similarity WHERE user1 = %s ORDER BY similarity DESC LIMIT 10''', (user_id,))# 基于相似用户的行为推荐similar_users = [user[0] for user in user_similarity]recommendations = client.execute('''SELECT item_id, COUNT(*) AS count FROM user_behavior WHERE user_id IN %s AND item_id NOT IN (SELECT item_id FROM user_behavior WHERE user_id = %s) GROUP BY item_id ORDER BY count DESC LIMIT 10''', (tuple(similar_users), user_id))return jsonify(recommendations)if __name__ == '__main__':app.run(host='0.0.0.0', port=5000)
数据结构
用户行为数据表(user_behavior)
CREATE TABLE user_behavior (user_id String,item_id String,action_type String,action_time DateTime
) ENGINE = MergeTree()
ORDER BY (user_id, action_time);
用户相似度矩阵表(user_similarity)
CREATE TABLE user_similarity (user1 String,user2 String,similarity Float32
) ENGINE = MergeTree()
ORDER BY (user1, similarity DESC);
评估效果
使用离线评估指标(如精确度、召回率、NDCG)和在线评估指标(如点击率、转化率)来评估推荐系统的效果。可以通过模拟用户行为数据或在实际环境中进行A/B测试来验证推荐系统的性能。
以上实现步骤提供了一个完整的、最小可验证的推荐系统功能点,从数据收集、存储、处理到推荐服务。通过该MVP,可以验证推荐系统在内容经济中的实际效果,并在此基础上进行进一步优化和扩展。
相关文章:
推荐系统的核心逻辑 MVP
我们将设计一个基于内容经济的推荐系统(Minimum Viable Product, MVP)。这个系统将通过收集用户行为数据,计算用户相似度,并生成个性化的推荐结果。推荐系统将包括数据收集、数据存储、数据处理和推荐服务几个关键部分。 MVP功能…...
Java中的BIO,NIO与操作系统IO模型的区分
Java中的IO模型 Java中的BIO,NIO,AIO概念可以是针对输入输出流,文件,和网络编程等其他IO操作的。 但是主要还是在网络编程通信过程中比较重要,因为很多情况网络编程需要它们来提供更好的性能。 所以本篇文章偏向于网络…...
AI砸掉了这些人的饭碗
在一般打工人眼里,金融圈往往被认为是高端脑力工作者的聚集地,他们工资高,学历高,能力强,轻易无法被替代。 可最近,偏偏一个“非人类”的物种,要来抢他们的饭碗。相关报道称,华尔街…...
端口及对应服务
端口是计算机网络中用于区分不同服务的逻辑概念。每个端口号都是一个16位的数字,其取值范围从0到65535。端口号被分为以下几类: 公认端口(Well-known ports):范围从0到1023,这些端口通常被分配给常见的服务…...
剑指offer题解合集——Week7day1[滑动窗口的最大值]
滑动窗口的最大值 题目描述 给定一个数组和滑动窗口的大小,请找出所有滑动窗口里的最大值。 例如,如果输入数组 [2,3,4,2,6,2,5,1] 及滑动窗口的大小 3 ,那么一共存在 6 个滑动窗口,它们的最大值分别为 [4,4,6,6,6,5] 注意&am…...
深入解读财报,开启美股投资之旅
投资股票市场,尤其是美股市场,对于许多投资者来说是一项充满挑战的活动。然而,无论投资者是倾向于技术分析还是基本面分析,财报都是他们不可或缺的工具。本文将带领读者深入了解如何通过阅读和分析财报,发现潜在的投资…...
邦芒支招:成功找到工作要掌握的3个知识点
社会进步,企业商业竞争越来越激烈,不管身为一名职场小白或是想调换一下目前的工作的人,都想找到一个称心如意的好工作。拥有以下三点知识点,可以使我们找到工作。 1、迫不得已,别做这件事 拍桌子说“我不开了”的时候有…...
Educational Codeforces Round 168 (Rated for Div. 2)-7.30复盘
A. Strong Password 简单题,找到相同的两个相邻字母之间插一个跟他们不同的大写字母即可 inline void solve(){cin>>s;int id0;char hh ;for(int i1;i<s.size();i){if(s[i-1]s[i]){idi;break;}} for(int i0;i<26;i){if(s[id]!ai&&s[id1]!ai) …...
Web开发:小结Apache Echarts官网上常用的配置项(前端可视化图表)
目录 一、须知 二、Title 三、 Legend 四、Grid 一、须知 配置项官方文档:点此进入。 我总结了比较常用的功能,写进注释里面,附带链接分享和效果图展示。(更新中....) 二、Title option {title: {text: Weekl…...
B树的平衡性与性能优化
B树的平衡性与性能优化 B树(B-tree)是一种自平衡的树数据结构,广泛应用于数据库和文件系统中,用于保持数据的有序性并允许高效的插入、删除和查找操作。B树能够很好地处理大规模数据,并在磁盘I/O操作中表现出色。本文…...
llama3源码解读之推理-infer
文章目录 前言一、整体源码解读1、完整main源码2、tokenizer加载3、llama3模型加载4、llama3测试数据文本加载5、llama3模型推理模块1、模型推理模块的数据处理2、模型推理模块的model.generate预测3、模型推理模块的预测结果处理6、多轮对话二、llama3推理数据处理1、完整数据…...
【教程】Linux安装Redis步骤记录
下载地址 Index of /releases/ Downloads - Redis 安装redis-7.4.0.tar.gz 1.下载安装包 wget https://download.redis.io/releases/redis-7.4.0.tar.gz 2.解压 tar -zxvf redis-7.4.0.tar.gz 3.进入目录 cd redis-7.4.0/ 4.编译 make 5.安装 make install PREFIX/u…...
全球汽车线控制动系统市场规模预测:未来六年CAGR为17.3%
引言: 随着汽车行业的持续发展和对安全性能需求的增加,汽车线控制动系统作为提升车辆安全性和操控性的关键组件,正逐渐受到市场的广泛关注。本文旨在通过深度分析汽车线控制动系统行业的各个维度,揭示行业发展趋势和潜在机会。 【…...
Ubuntu运行深度学习代码,代码随机epoch中断没有任何报错
深度学习运行代码直接中断 文章目录 深度学习运行代码直接中断问题描述设备信息问题补充解决思路问题发现及正确解决思路新问题出现最终问题:ubuntu系统,4090显卡安装英伟达驱动535.x外的驱动会导致开机无法进入桌面问题记录 问题描述 运行深度学习代码…...
只有4%知道的Linux,看了你也能上手Ubuntu桌面系统,Ubuntu简易设置,源更新,root密码,远程服务...
创作不易 只因热爱!! 热衷分享,一起成长! “你的鼓励就是我努力付出的动力” 最近常提的一句话,那就是“但行好事,莫问前程"! 与辉同行的董工说:守正出奇。坚持分享,坚持付出,坚持奉献,…...
Tomcat部署——个人笔记
Tomcat部署——个人笔记 文章目录 [toc]简介安装配置文件WEB项目的标准结构WEB项目部署IDEA中开发并部署运行WEB项目 本学习笔记参考尚硅谷等教程。 简介 Apache Tomcat 官网 Tomcat是Apache 软件基金会(Apache Software Foundation)的Jakarta 项目中…...
常见且重要的用户体验原则
以下是一些常见且重要的用户体验原则: 1. 以用户为中心 - 深入了解用户的需求、期望、目标和行为习惯。通过用户研究、调查、访谈等方法获取真实的用户反馈,以此来设计产品或服务。 - 例如,在设计一款老年手机时,充分考虑老年…...
web基础及nginx搭建
第四周 上午 静态资源 根据开发者保存在项目资源目录中的路径访问静态资源 html 图片 js css 音乐 视频 f12 ,开发者工具,网络 1 、 web 基本概念 web 服务器( web server ):也称 HTTP 服务器( HTTP …...
C++ 布隆过滤器
1. 布隆过滤器提出 我们在使用新闻客户端看新闻时,它会给我们不停地推荐新的内容,它每次推荐时要去重,去掉 那些已经看过的内容。问题来了,新闻客户端推荐系统如何实现推送去重的? 用服务器记录了用 户看过的所有历史…...
使用HTML创建用户注册表单
在当今数字化时代,网页表单对于收集用户信息和促进网站交互至关重要。无论您设计简单的注册表单还是复杂的调查表,了解HTML的基础知识可以帮助您构建有效的用户界面。在本教程中,我们将详细介绍如何使用HTML创建基本的用户注册表单。 第一步…...
Python零基础入门教程
Python零基础详细入门教程可以从以下几个方面进行学习和掌握: 一、Python基础认知 1. Python简介 由来与发展:Python是一种广泛使用的高级编程语言,由Guido van Rossum(吉多范罗苏姆)于1991年首次发布。Python以其简…...
成为git砖家(10): 根据文件内容生成SHA-1
文章目录 1. .git/objects 目录2. git cat-file 命令3. 根据文件内容生成 sha-14. 结语5. References 1. .git/objects 目录 git 是一个根据文件内容进行检索的系统。 当创建 hello.py, 填入 print("hello, world")的内容, 并执行 git add hello.py gi…...
园区导航小程序:一站式解决园区导航问题,释放存储,优化访客体验
随着园区的规模不断扩大,功能区划分日益复杂,导致访客和新员工在没有有效导航的情况下容易迷路。传统APP导航虽能解决部分问题,但其下载安装繁琐、占用手机内存大、且非高频使用导致的闲置,让许多用户望而却步。园区导航小程序的出…...
对于n进制转十进制的解法及代码(干货!)
对于p进制转十进制,我们有:(x)pa[0]*p^0a[1]*p^1a[2]*p^2...a[n]*p^n 举个例子:(11001)21*10*20*41*81*1625 (9FA)1610*16^015*16^19*16^22554 据此,我们可以编出c代码来解决问题 …...
当代互联网打工人的生存现状,看完泪流满面!
欢迎私信小编,了解更多产品信息呦~...
花几千上万学习Java,真没必要!(三十八)
测试代码1: package iotest.com; import java.nio.charset.StandardCharsets; import java.io.UnsupportedEncodingException; public class StringByteConversion { public static void main(String[] args) throws UnsupportedEncodingException { // 原始字…...
Zilliz 2025届校园招聘正式启动,寻找向量数据库内核开发工程师
为了解决非结构化数据处理问题,我们构建了向量数据库-Milvus! Milvus 数据库不仅是顶级开源基金会 LF AI&Data 的毕业项目,还曾登上数据库顶会SIGMOD、VLDB,在全球首届向量检索比赛中夺冠。目前,Milvus 项目已获得超过 2.8w s…...
TwinCAT3 新建项目教程
文章目录 打开TwinCAT 新建项目(通过TcXaeShell) 新建项目(通过VS 2019)...
大模型算法面试题(十九)
本系列收纳各种大模型面试题及答案。 1、SFT(有监督微调)、RM(奖励模型)、PPO(强化学习)的数据集格式? SFT(有监督微调)、RM(奖励模型)、PPO&…...
应用地址信息获取新技巧:Xinstall来助力
在移动互联网时代,应用获取用户地址信息的需求越来越普遍。无论是为了提供个性化服务,还是进行精准营销,地址信息都扮演着至关重要的角色。然而,如何合规、准确地获取这一信息,却是许多开发者面临的挑战。今天…...
门户网站平台建设方案/行业数据统计网站
一、复制表1. 复制表结构及其数据:create table table_name_new as select * from table_name_old2. 只复制表结构:create table table_name_new as select * from table_name_old where 12;或者:create table table_name_new like table_nam…...
wordpress制作网站步骤/公司网站免费建站
目录 1.机器学习的概念 2.机器学习研究的主要内容 3.基本术语 4.概念学习与假设空间 1.机器学习的概念 广义上讲:机器学习(Mechine Learning)是计算机程序随着经验积累自动提升性能或系统自我改进的过程。 形式化定义:对于某类…...
wordpress做社交网站/百度网盘下载
登录linux时出现黑屏的找到这篇解决SUSE的黑屏问题1、在启动时,GRUB上引导命令后面加上一个VGA791,这样进去屏幕分辩率就是1024*768。kernel (hd0,0)/linux root/dev/ram ramdisk_size65536 devfsmount,all vga791initrd (hd0,0)/initrdboot2、在黑屏时。…...
手机模板网站制作/建网站建设
Linux时间概念 Linux的时间分两种:系统时间、硬件时间 在Linux运行过程中,系统时间和硬件时间以异步的方式运行,互不干扰。 硬件时间的运行,是靠Bios电池来维持,而系统时间,是用CPU tick来维持的。 在系统…...
为网站制定一个推广计划/快速整站排名seo教程
什么是战略管理(P-516)–了解 组织战略的4项主要内容(P-517)–掌握 组织战略的4个类型(P-519~P-521)–掌握 组织战略的3个层次(P-523)–掌握 组织战略从范围角度的3个层次分类&#…...
深圳酒店设计公司/班级优化大师官方网站
接前贴:今年(2021年)7月4日至24日,我指导电子信息工程专业18级的12位同学进行小学期的课程实践。其中,王同学、万同学、高同学等3位同学完成了基于广东高云(GOWIN Semiconductor)FPGA的DDS实现。…...