当前位置: 首页 > news >正文

springboot集成mahout实现简单基于协同过滤算法的文章推荐算法

文章目录

  • 前言
  • 1.建表并且生成一些数据
    • 首先,建立一个用户文章操作表(user_article_operation)
    • 使用case when语句简单分析数据
  • 2. 代码与测试
      • 只需要根据表生成相应实体类(注意要加一个value属性来存储分数)
      • 主要代码如下,其实就两个方法
      • userArticleOperationMapper.getAllUserPreference()方法收集数据mapper文件如下
      • 测试算法
  • 3.核心代码
  • 4.相关参考


前言

我这里只是简单的跑了一下,仅供参考。。
这边只是跑了个文章推荐的demo,不过什么电影,商品啥的都一样,没啥区别

温馨提醒
这个mahout包有毒。。。。很多依赖冲突。。。。
这是我的pom文件,仅仅供参考。。

   <dependencies><dependency><groupId>com.baomidou</groupId><artifactId>mybatis-plus-boot-starter</artifactId><version>3.5.3</version></dependency><dependency><groupId>com.baomidou</groupId><artifactId>mybatis-plus-generator</artifactId><version>3.5.3</version></dependency><dependency><groupId>org.freemarker</groupId><artifactId>freemarker</artifactId><version>2.3.30</version><scope>test</scope></dependency><dependency><groupId>com.alibaba</groupId><artifactId>druid</artifactId><version>1.1.21</version></dependency><!--引入推荐引擎mahout,注意要先全部引入,再使用exclusion标签--><dependency><groupId>org.apache.mahout</groupId><artifactId>mahout-mr</artifactId><version>0.12.2</version><exclusions><exclusion><groupId>javax.servlet</groupId><artifactId>servlet-api</artifactId></exclusion><exclusion><groupId>org.slf4j</groupId><artifactId>slf4j-api</artifactId></exclusion><exclusion><groupId>org.slf4j</groupId><artifactId>slf4j-jcl</artifactId></exclusion><exclusion><groupId>org.apache.lucene</groupId><artifactId>lucene-core</artifactId></exclusion><exclusion><groupId>org.apache.lucene</groupId><artifactId>lucene-analyzers-common</artifactId></exclusion><exclusion><groupId>log4j</groupId><artifactId>log4j</artifactId></exclusion><exclusion><groupId>org.slf4j</groupId><artifactId>slf4j-log4j12</artifactId></exclusion><exclusion><artifactId>jersey-client</artifactId><groupId>com.sun.jersey</groupId></exclusion><exclusion><artifactId>jersey-core</artifactId><groupId>com.sun.jersey</groupId></exclusion><exclusion><artifactId>jersey-apache-client4</artifactId><groupId>com.sun.jersey.contribs</groupId></exclusion></exclusions></dependency><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-web</artifactId></dependency><dependency><groupId>mysql</groupId><artifactId>mysql-connector-java</artifactId><version>8.0.21</version></dependency><dependency><groupId>org.projectlombok</groupId><artifactId>lombok</artifactId><optional>true</optional></dependency><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-test</artifactId><scope>test</scope></dependency></dependencies>

1.建表并且生成一些数据

首先,建立一个用户文章操作表(user_article_operation)

在这里插入图片描述
然后生成一些数据,这里使用navicat生成了50条记录(因为只是测试一下算法的准确性因此只生成了3个用户,10篇文章)
在这里插入图片描述

使用case when语句简单分析数据

        SELECTuser_id,article_id,SUM(CASE operation_typeWHEN 0 THEN 3WHEN 1 THEN 3WHEN 2 THEN 5else 0 END) AS "value"FROMuser_article_operationGROUP BY user_id,article_idORDER BY user_id

执行语句如下
在这里插入图片描述

可以看出
1号用户最喜欢6,9号文章,
2号用户最喜欢4,5,6号文章
3号用户最喜欢4,5,6号文章
发现1,2,3号用户都喜欢6号文章,3个用户具有一定相似性。
(别问为啥这么规律,问就是我为了好测试修改了下数据,如果你感觉哪里不对劲的话,那你说的都对(反正我搞这个算法只是用来糊弄老师的😂😂😂))
因此如果要给1号用户推荐文章的话,应该先推荐5号,再推荐4号文章。

2. 代码与测试

只需要根据表生成相应实体类(注意要加一个value属性来存储分数)

在这里插入图片描述

主要代码如下,其实就两个方法

![在这里插入图片描述](https://img-blog.csdnimg.cn/e70aea3c224f4c13b17de84f476016e6.png

userArticleOperationMapper.getAllUserPreference()方法收集数据mapper文件如下

在这里插入图片描述

测试算法

输入推荐5个,但是这里只推荐了四个,应该是样本数据量太小的原因,对比了一下之前运行case when语句时做的的简单预测,5号最推荐,然后是4号,控制台打印的结果还是比较符合的。
(反正糊弄一下老师够了,这里只是提供一个小demo,读者需注意哈🚗🚗🚗🚗)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.核心代码

public List<Long> recommend( Integer userId) throws TasteException {List<UserArticleOperation> userList = userArticleOperationMapper.getAllUserPreference();//创建数据模型DataModel dataModel = this.createDataModel(userList);//获取用户相似程度UserSimilarity similarity = new UncenteredCosineSimilarity(dataModel);//获取用户邻居UserNeighborhood userNeighborhood = new NearestNUserNeighborhood(2, similarity, dataModel);//构建推荐器Recommender recommender = new GenericUserBasedRecommender(dataModel, userNeighborhood, similarity);//推荐2个List<RecommendedItem> recommendedItems = recommender.recommend(userId, 5);List<Long> itemIds = recommendedItems.stream().map(RecommendedItem::getItemID).collect(Collectors.toList());return itemIds;}private DataModel createDataModel(List<UserArticleOperation> userArticleOperations) {FastByIDMap<PreferenceArray> fastByIdMap = new FastByIDMap<>();Map<Integer, List<UserArticleOperation>> map = userArticleOperations.stream().collect(Collectors.groupingBy(UserArticleOperation::getUserId));Collection<List<UserArticleOperation>> list = map.values();for(List<UserArticleOperation> userPreferences : list){GenericPreference[] array = new GenericPreference[userPreferences.size()];for(int i = 0; i < userPreferences.size(); i++){UserArticleOperation userPreference = userPreferences.get(i);GenericPreference item = new GenericPreference(userPreference.getUserId(), userPreference.getArticleId(), userPreference.getValue());array[i] = item;}fastByIdMap.put(array[0].getUserID(), new GenericUserPreferenceArray(Arrays.asList(array)));}return new GenericDataModel(fastByIdMap);}
    <select id="getAllUserPreference" resultType="UserArticleOperation">SELECTuser_id,article_id,SUM(CASE operation_typeWHEN 0 THEN 2WHEN 1 THEN 3WHEN 2 THEN 5else 0 END) AS "value"FROMuser_article_operationGROUP BY user_id,article_id</select>

4.相关参考

1.spring boot项目基于mahout推荐算法实现商品推荐
2.相关内容在章节5-9

相关文章:

springboot集成mahout实现简单基于协同过滤算法的文章推荐算法

文章目录前言1.建表并且生成一些数据首先&#xff0c;建立一个用户文章操作表&#xff08;user_article_operation&#xff09;使用case when语句简单分析数据2. 代码与测试只需要根据表生成相应实体类&#xff08;注意要加一个value属性来存储分数&#xff09;主要代码如下&am…...

自动驾驶介绍系列 ———— 看门狗

文章目录硬件看门狗软件看门狗差异分析延申窗口看门狗硬件看门狗 硬件看门狗的本质上是一个定时器电路。通常存在一个输入&#xff0c;输入到MCU的RST端。在正常工作状态下&#xff0c;MCU每隔固定时间间隔会输出一个信号给RST端&#xff0c;实现对看门狗端清零。如果在指定的时…...

今天打开个税APP,我直接人麻了!

点击上方“码农突围”&#xff0c;马上关注这里是码农充电第一站&#xff0c;回复“666”&#xff0c;获取一份专属大礼包真爱&#xff0c;请设置“星标”或点个“在看这是【码农突围】的第 432 篇原创分享作者 l 突围的鱼来源 l 码农突围&#xff08;ID&#xff1a;smartyuge&…...

javascript进阶学习笔记(含AJAX)

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录前言一、JS变量&#xff08;var、let和const&#xff09;二、for/in循环三、正则表达式语法&#xff1a;正则表达式修饰符&#xff1a;正则表达式模式字符串方法&…...

今年没有金三银四

最近好几个铁子咨询目前的大环境如何&#xff0c;甚至还有几个CTO和总监级别的大佬想跳槽问有没有对应的岗位。 又到了每年金三银四的时间点&#xff0c;往年&#xff08;去年除外&#xff09;这个时候用工市场都是一遍火热&#xff0c;大家跳槽涨薪好不快活。 面对这些咨询我…...

NFS - Network FileSystem网络文件系统的实现原理

文章目录PreNFS简介NFS共享数据结构图NFS服务器的实现原理是否安装nfs安装配置NFSPre NFS - MIPS架构下构建NFS共享目录服务 NFS简介 NFS的全称是Network FileSystem&#xff0c;即网络文件系统 NFS最初是由 Sun Microsytem 公司开发出来的&#xff0c;主要实现的功能是让网络…...

C#【汇总篇】语法糖汇总

文章目录0、语法糖简介1、自动属性2、参数默认值和命名参数3、类型实例化4、集合4.1 初始化List集合的值4.2 取List中的值5、隐式类型&#xff08;var&#xff09;6、扩展方法【更换测试实例】7、匿名类型&#xff08;Anonymous type&#xff09;【待补充】8、匿名方法&#xf…...

高完整性系统工程(一): Safety Engineering, HAZOP Fault Tree Analysis

目录 1. 因果性不等同于相关性 2. HAZOP 2.1 学习HAZOP 2.2 HAZOP概览 2.3 Assessing Hazard Risks 评估 2.4 示例场景 2.5 HAZOP Guidewords 2.6 HAZOP Process 2.7 HAZOP Outcomes 2.8 HAZOP Summary 3. FAULT TREE ANALYSIS 3.1 Analysis Outcomes 1. 因果性不等…...

VGG16分类模型的网页界面(Flask,keras)

开发一个网页版的VGG16模型界面可以分为以下几个步骤&#xff1a; 步骤1&#xff1a;数据准备 首先要准备一组图片数据集&#xff0c;建议使用ImageNet数据集&#xff0c;该数据集包含超过1000个类别和100万张图像。您可以将ImageNet数据集转换为Keras的格式。如果您没有Imag…...

互联网摸鱼日报(2023-03-12)

互联网摸鱼日报&#xff08;2023-03-12&#xff09; InfoQ 热门话题 又拍云邵海杨&#xff1a;25年Linux老兵聊DevOps八荣八耻 快猫来炜&#xff1a;如何端好运维的饭碗 作业帮聂安&#xff1a;运维如何转型&#xff0c;听听作业帮的OPaS思路 CTO药方&#xff1a;如何搭建运…...

SpringBoot异常处理?用这两个就够啦!

​ 在日常项目中&#xff0c;我们难免会遇到系统错误的情况。如果对系统异常的情况不做处理&#xff0c;Springboot本身会默认将错误异常作为接口的请求返回。 GetMapping("/testNorError") public void testNorError() {try {throw new MyException(6000, "我…...

mysql-查询重复数据的条数-count

查询重复数据的条数 select name , count(*) from table group by name&#xff1b; 查询结果&#xff1a;查询表table中name相同重复的个数 补充&#xff1a;count的用法 查询一个表中总共多少行&#xff08;多少条数据&#xff09; select count (*) from table 小结 …...

【Java枚举类】使用enum关键词定义枚举类

使用说明 1.使用 enum 定义的枚举类默认继承了 java.lang.Enum类&#xff0c;因此不能再继承其他类 2.枚举类的构造器只能使用 private 权限修饰符 3.枚举类的所有实例必须在枚举类中显式列出(, 分隔 ; 结尾)。列出的 实例系统会自动添加 public static final 修饰 4.必须在…...

第十四届蓝桥杯三月真题刷题训练——第 8 天

目录 第 1 题&#xff1a;分数 题目描述 运行限制 代码&#xff1a; 第 2 题&#xff1a;回文日期 题目描述 输入描述 输出描述 输入输出样例 运行限制 代码&#xff1a; 第 3 题&#xff1a;迷宫 代码&#xff1a; 第 1 题&#xff1a;分数 题目描述 本题为填空题…...

鼎阳SDS2074X Plus免费“升级”(破解)备忘录

鼎阳SDS2074X Plus从基础参数来看&#xff0c;在一众国产示波器里并不出彩。但作为一款可以免费“升级”到【1】4通道2GSa/s的采样率&#xff0c;500MHz分析带宽&#xff0c;200Mpts存储深度的数字示波器&#xff08;可惜原配的是200MHz的探头&#xff0c;500MHz的探头还是贵&a…...

【C++】C++标准模板库STL (一) string类的使用详解

前言 在前一章种我们介绍了C中的模板的使用&#xff0c;这是一种泛型编程&#xff0c;模板的使用能让我们减少大量的相似代码&#xff0c;减少我们的代码量与工作量&#xff0c;写出更加高效简洁的代码&#xff0c;模板如此好用&#xff0c;但还是要我们先出写一个泛型类或函数…...

如何用SpringBoot+Thymeleaf+Echart生成好看的柱状图,折线图,饼状图

一、前言 上篇文章我们用POI技术读取Excel并生成了相应的图表。但是实际的效果比较一般&#xff0c;因为本身WPS生成图表就比较简单&#xff0c;如果用程序操作远比人工耗时费力&#xff0c;效果远不如一些付费模板。如下图所示&#xff1a; 然后我就想到前端不是有一个简单易…...

LeetCode819. 最常见的单词(python)

题目 给定一个段落 (paragraph) 和一个禁用单词列表 (banned)。返回出现次数最多&#xff0c;同时不在禁用列表中的单词。 题目保证至少有一个词不在禁用列表中&#xff0c;而且答案唯一。 禁用列表中的单词用小写字母表示&#xff0c;不含标点符号。段落中的单词不区分大小写。…...

【深入理解C指针】经典笔试题——指针和数组

&#x1f539;内容专栏&#xff1a;【C语言】进阶部分 &#x1f539;本文概括&#xff1a;一些指针和数组笔试题的解析 。 &#x1f539;本文作者&#xff1a;花香碟自来_ &#x1f539;发布时间&#xff1a;2023.3.12 目录 一、指针和数组练习题 1. 一维数组 2. 字符数组 …...

雷达散射截面

雷达散射截面(Radar Cross Section, RCS)是表征目标散射强弱的物理量。 σ = 4 π R 2 ∣ E s ∣ 2 ∣ E i ∣ 2 \sigma = 4\pi R^2 \frac{|E_s |^2}{|E_i|^2}...

计算机毕设 java 辽宁工大毕业论文管理系统 Java 高校毕业论文全流程管理平台开发 基于 SpringBoot 的毕业论文选题与答辩管理系统实现

计算机毕设 java 辽宁工大毕业论文管理系统 655cp9&#xff08;配套有源码 程序 mysql 数据库 论文&#xff09;本套源码可以先看具体功能演示视频领取&#xff0c;文末有联 xi 可分享随着高等教育规模的扩大和信息化技术的发展&#xff0c;高校毕业论文管理工作面临着流程繁琐…...

单相并网逆变器MATLAB仿真:离网仿真与PLL锁相环下的电感电流谐波含量THD分析

单相并网逆变器matlab仿真。 包括离网仿真&#xff0c;PLL锁相环等。 电感电流的谐波含量THD较小&#xff0c;仿真效果较好。搞过单相并网逆变器的都知道&#xff0c;仿真这玩意儿就像炒菜&#xff0c;火候差一点味道就变了。今天咱们直接上干货&#xff0c;在Matlab里搭个能随…...

救命神器!AI论文写作软件 千笔·专业论文写作工具 VS 文途AI,全行业通用首选!

还在为选题→大纲→初稿→文献→降重→查重→格式→答辩PPT的全流程焦头烂额&#xff1f;千笔AI以八大核心功能实现全流程一站式覆盖&#xff0c;从选题到答辩PPT生成全程护航&#xff0c;让论文写作从“耗时耗力”变成“高效规范”&#xff0c;真正实现“选题快、框架稳、修改…...

人工智能应用- 预测新冠病毒传染性:07. 预测不同类型病毒的传播能力

研究者利用 M-H 模型对各个病毒变种的传播能力进行了研究&#xff0c;结果如图所示&#xff1a;图: AI 模型预测的病毒传播力。横轴为变种出现时间&#xff0c;纵轴为预测传播能力&#xff0c;表示为相对基本再生数&#xff08;R/RA&#xff0c;其中 RA 是武汉变种的基本再生数…...

银监会G01报表填报避坑指南:最新251版与231版差异全解析

G01报表251版与231版差异解析&#xff1a;银行填报人员必知的12个关键点 每当季度报表报送季来临&#xff0c;银行填报人员总会面临版本更新带来的困扰。G01《资产负债项目统计表》作为银监会1104报表体系中最核心的报表之一&#xff0c;其251版与231版之间的差异直接影响着数据…...

宿舍神器:用OpenWrt+Minieap打造校园网多设备共享路由器(附锐捷认证避坑指南)

校园网共享路由器实战&#xff1a;OpenWrt与Minieap的高效配置指南 为什么我们需要校园网共享方案 每到新学期开始&#xff0c;宿舍里的网络问题总是让人头疼。学校提供的校园网通常只允许单设备登录&#xff0c;这意味着你的手机、平板、笔记本无法同时在线。更糟糕的是&#…...

Markdown+Pandoc学术论文写作全攻略:从YAML配置到参考文献引用

MarkdownPandoc学术论文写作全攻略&#xff1a;从YAML配置到参考文献引用 在数字化写作工具百花齐放的今天&#xff0c;Markdown以其极简语法和强大兼容性&#xff0c;正成为学术写作的新宠。不同于传统Word文档的繁琐格式调整&#xff0c;Markdown让研究者可以专注于内容本身&…...

php方案 时序对齐与水位线(Watermark)

核心问题流处理有两个时钟&#xff1a;事件时间 (Event Time) ← 传感器/用户操作实际发生的时刻处理时间 (Processing Time) ← 数据抵达处理器的时刻传感器 t100ms 产生数据 → 网络延迟 → t350ms 才到达水位线&#xff1a;系统自己估算"t 之前的数据应该都到齐了&quo…...

从入门到实践:基于STM32的Water Sensor水位监测系统搭建

1. 认识你的硬件伙伴&#xff1a;Water Sensor模块详解 第一次接触水位监测项目时&#xff0c;我对着淘宝上五花八门的传感器模块犯了选择困难症。经过多次实测&#xff0c;这款40x60mm的平行导线式Water Sensor确实是最适合新手的入门选择。它的工作原理就像我们用手指触摸水面…...

推荐系统实战:如何用BCE+排序损失解决稀疏反馈下的梯度消失问题(附代码)

推荐系统实战&#xff1a;BCE排序损失组合优化在稀疏反馈场景下的工程实践 推荐系统工程师们每天都在和数据稀疏性作斗争。想象一下&#xff0c;当你设计的CTR模型在测试集上表现优异&#xff0c;却在真实线上环境中遭遇点击率不足1%的尴尬——这正是稀疏反馈带来的典型挑战。去…...