当前位置：首页 > news >正文

如何利用 Python 进行客户分群分析（附源码）

news 2026/2/7 13:49:28

每个电子商务数据分析师必须掌握的一项数据聚类技能

如果你是一名在电子商务公司工作的数据分析师，从客户数据中挖掘潜在价值，来提高客户留存率很可能就是你的工作任务之一。

然而，客户数据是巨大的，每个客户的行为都不一样。2020年3月收购的客户A与2020年5月收购的客户B表现出不同的行为。因此，有必要将客户分为不同的群组，然后调查每个群组在一段时间内的行为。这就是所谓的同期群分析。

同期群分析是了解一个特殊客户群体在一段时间内的行为的数据分析技术。

在这篇文章中，不会详细介绍同期群分析的理论。这篇文章更多的是告诉你如何将客户分成不同的群组，并在一段时间内观察每个群组的留存率。

导入数据和python库

import pandas as pd  
import matplotlib.pyplot as plt  
import seaborn as sns  
df = pd.read_csv('sales_2018-01-01_2019-12-31.csv')  
df

技术交流

技术要学会分享、交流，不建议闭门造车。一个人走的很快、一堆人可以走的更远。

本文来自技术群粉丝分享整理，文章源码、数据、技术交流，均可加交流群获取，群友已超过2000人，添加时最好的备注方式为：来源+兴趣方向，方便找到志同道合的朋友。

方式①、添加微信号：pythoner666，备注：来自CSDN +备注来意
方式②、微信搜索公众号：Python学习与数据挖掘，后台回复：加群

在这里插入图片描述

分离新老客户

first_time = df.loc[df['customer_type'] == 'First-time',]  
final = df.loc[df['customer_id'].isin(first_time['customer_id'].values)]

在这里，不能简单地选择df.loc[df['customer_type']]，因为在这个数据中，在customer_type列下，First_time指的是新客户，而Returning指的是老客户。因此，如果我在2019年12月31日第一次购买，数据会显示我在2019年12月31日是新客户，但在我第二次、第三次…时是返回客户。同期群分析着眼于新客户和他们的后续购买行为。因此，如果我们简单地使用df.loc[df['customer_type']=='First-time',]，我们就会忽略新客户的后续购买，这不是分析同期群行为的正确方法。

因此，这里所需要做的是，首先创建一个所有第一次的客户列表，并将其存储为first_time。然后从原始客户数据框df中只选择那些ID在first_time客户组内的客户。通过这样做，我们可以确保我们获得的数据只有第一次的客户和他们后来的购买行为。

现在，我们删除customer_type列，因为它已经没有必要了。同时，将日期列转换成正确的日期时间格式

final = final.drop(columns = ['customer_type'])  
final['day']= pd.to_datetime(final['day'], dayfirst=True)

按客户ID排序，然后是日期

final = final.drop(columns = ['customer_type'])  
final['day']= pd.to_datetime(final['day'], dayfirst=True)

定义一些函数

def purchase_rate(customer_id):  purchase_rate = [1]  counter = 1  for i in range(1,len(customer_id)):  if customer_id[i] != customer_id[i-1]:  purchase_rate.append(1)  counter = 1  else:  counter += 1  purchase_rate.append(counter)  return purchase_rate  
def join_date(date, purchase_rate):  join_date = list(range(len(date)))  for i in range(len(purchase_rate)):   if purchase_rate[i] == 1:  join_date[i] = date[i]  else:  join_date[i] = join_date[i-1]  return join_date  
def age_by_month(purchase_rate, month, year, join_month, join_year):  age_by_month = list(range(len(year)))  for i in range(len(purchase_rate)):  if purchase_rate[i] == 1:  age_by_month[i] = 0  else:  if year[i] == join_year[i]:  age_by_month[i] = month[i] - join_month[i]  else:  age_by_month[i] = month[i] - join_month[i] + 12*(year[i]-join_year[i])  return age_by_month

purchase_rate函数将决定这是否是每个客户的第二次、第三次、第四次购买。
join_date函数允许确定客户加入的日期。
age_by_month函数提供了从客户当前购买到第一次购买的多少个月。

现在输入已经准备好了，接下来创建群组。

创建群组

final['month'] =pd.to_datetime(final['day']).dt.month  
final['Purchase Rate'] = purchase_rate(final['customer_id'])  
final['Join Date'] = join_date(final['day'], final['Purchase Rate'])  
final['Join Date'] = pd.to_datetime(final['Join Date'], dayfirst=True)  
final['cohort'] = pd.to_datetime(final['Join Date']).dt.strftime('%Y-%m')  
final['year'] = pd.to_datetime(final['day']).dt.year  
final['Join Date Month'] = pd.to_datetime(final['Join Date']).dt.month  
final['Join Date Year'] = pd.to_datetime(final['Join Date']).dt.year

final['Age by month'] = age_by_month(final['Purchase Rate'],   final['month'],  final['year'],  final['Join Date Month'],  final['Join Date Year'])

cohorts = final.groupby(['cohort','Age by month']).nunique()  
cohorts = cohorts.customer_id.to_frame().reset_index()   # convert series to frame  
cohorts = pd.pivot_table(cohorts, values = 'customer_id',index = 'cohort', columns= 'Age by month')  
cohorts.replace(np.nan, '',regex=True)

**如何解释这个表格：**以群组2018-01为例。在2018年1月，有462名新客户。在这462人中，121名客户在2018年2月回来购买，125名在2018年3月购买，以此类推。

转换为群组百分比

for i in range(len(cohorts)-1):  cohorts[i+1] = cohorts[i+1]/cohorts[0]  
cohorts[0] = cohorts[0]/cohorts[0]

可视化

cohorts_t = cohorts.transpose()  
cohorts_t[cohorts_t.columns].plot(figsize=(10,5))  
sns.set(style='whitegrid')  
plt.figure(figsize=(20, 15))  
plt.title('Cohorts: User Retention')  
sns.set(font_scale = 0.5) # font size  
sns.heatmap(cohorts, mask=cohorts.isnull(),  
cmap="Blues",  
annot=True, fmt='.01%')  
plt.show()

就这样吧。希望你们喜欢并从这篇文章中获得一些对你有用的东西。

如何利用 Python 进行客户分群分析（附源码）

导入数据和python库

技术交流

分离新老客户

按客户ID排序，然后是日期

定义一些函数

创建群组

转换为群组百分比

可视化

相关文章：

如何利用 Python 进行客户分群分析（附源码）

D1s RDC2022纪念版开发板开箱评测及点屏教程

了解一下TCP/IP协议族

【第十九部分】存储过程与存储函数

字节序

PDF文件怎么转图片格式？转换有技巧

筑基七层 —— 数据在内存中的存储？拿来吧你

Typecho COS插件实现网站静态资源存储到COS,降低本地存储负载

2月23号作业

因果推断方法（一）合成控制

数据结构第12周：（有向无环图的拓扑排序 + 拓扑排序和关键路径 + 确定比赛名次 + 割点）

Linux安装docker（无网）

解决JNI操作内核节点出现写操作失败的问题

纵然是在产业互联网的时代业已来临的大背景下，人们对于它的认识依然是短浅的

干翻 nio ，王炸 io_uring 来了！！（图解+史上最全）

ur3+robotiq ft sensor+robotiq 2f 140+realsense d435i配置rviz，gazebo仿真环境

ASP.NET Core MVC 项目 AOP之Authorization

智能新冠疫苗接种助手管理系统

Python+Selenium4元素交互1_web自动化(5)

2023双非计算机硕士应战秋招算法岗之深度学习基础知识

测试微信模版消息推送

【磁盘】每天掌握一个Linux命令 - iostat

鸿蒙中用HarmonyOS SDK应用服务 HarmonyOS5开发一个医院挂号小程序

大语言模型如何处理长文本？常用文本分割技术详解

转转集团旗下首家二手多品类循环仓店“超级转转”开业

大数据学习（132）-HIve数据分析

短视频矩阵系统文案创作功能开发实践，定制化开发

LINUX 69 FTP 客服管理系统 man 5 /etc/vsftpd/vsftpd.conf

GraphQL 实战篇：Apollo Client 配置与缓存

基于江科大stm32屏幕驱动，实现OLED多级菜单（动画效果），结构体链表实现(独创源码)