在《upsetr:多数据集绘图可视化处理利器》中我们介绍了 upsetr 的一些概念和绘图基础使用,今天我们来学习一下 upsetr 的 queries 和 attribute.plots 这两个参数的使用。
一
queries 参数
queries 参数里面的每一个 list 都是由四个部分组成:query, param, color, active。
query:查询函数,可以用系统自带的,也可以自己写。
param:参数,查询函数(query)作用于哪些数据集,是一个 list。
color:每个 query 在绘图中的颜色,没设置的话将调用 upsetr 默认的调色板。
active:决定 query 将如何表示在图上。true,intersection size 条形图将会被 query 中的条形图覆盖;false,intersection size 条形图将会被加上一个三角形(a jitter point),这个三角形的位置是波动性的。
示例1:内置的交集查询
本示例展示了如何通过内置的交集查询(intersection query)intersects 去查找并展示特定的交集元素(elements in specific intersections)。本示例中 active query 的颜色来源于 upsetr 中默认的调色板。
upset(movies, queries = list(list(query = intersects, params = list("drama", "comedy", "action"), color = "orange", active = t),
list(query = intersects, params = list("drama"), color = "red", active = f),
list(query = intersects, params = list("action", "drama"), active = t)))
【左右滑动查看完整信息】
drama, comedy, action 的交集(10)已经变成了橘色(color="orange"),上方的 intersection size 条形图已经被橘色的条形图覆盖(active=t);
action, drama 的交集(68)也变成了默认的蓝色。
drama 的圆点变成了红色(color="red"),上方的 intersection size 条形图顶部被一个红色的三角形覆盖(active=f)。
示例2:内置的元素查询
本示例展示了如何通过内置的元素查询(element query)函数 elements 可视化展示特定的元素在交集中是如何分布的。
upset(movies, queries = list(list(query = elements, params = list("avgrating", 3.5, 4.1), color = "blue", active = t),
list(query = elements, params = list("releasedate", 1980, 1990, 2000), color = "red", active = f)))
【左右滑动查看完整信息】
蓝色的条形图表示,默认的 6 个数据集中符合 avgrating == 3.5 或者 avgrating == 4.1 在各个集合中的个数分布。
红色三角形表示,6 个数据集中符合 releasedate==1980, 1990, 2000 在各个集合中的分布,它们的位置存在波动性(active = f)。
示例3:使用表达参数进行交集和元素子集查询
本示例展示如何通过使用 expression 参数获取交集和元素查询的子集(subset the results of element and intersection queries)。
upset(movies, queries = list(list(query = intersects, params = list("action", "drama"), active = t),
list(query = elements, params = list("releasedate", 1980, 1990, 2000), color = "red", active = f)),
expression = "avgrating > 3 & watches > 100")
【左右滑动查看完整信息】
示例4:自定义查询
# creating a custom query to operate on the rows of the data.
myfunc <- function(row, release, rating) {
data <- (row["releasedate"] %in% release) & (row["avgrating"] > rating)
}
# applying the created query to the queries parameter.
upset(movies, queries = list(list(query = myfunc, params = list(c(1970, 1980, 1990, 1999, 2000), 2.5), color = "blue", active = t)))
【左右滑动查看完整信息】
示例5:使用查询图例
upsetr 可以通过使用 query.legend 添加 queries 的图例。query.legend 的位置可以在头部(top)或者底部(bottom);我们也可以使用 query.name 参数在 queries 中给每一个 query 自定义指定的名称。
upset(movies, query.legend = "top", queries = list(list(query = intersects,
params = list("drama", "comedy", "action"), color = "orange", active = t,
query.name = "funny action"), list(query = intersects, params = list("drama"),
color = "red", active = f), list(query = intersects, params = list("action",
"drama"), active = t, query.name = "emotional action")))
【左右滑动查看完整信息】
示例6:queries 绘图总结
综合示例1——示例5,绘制图形如下:
upset(movies, query.legend = "bottom", queries = list(list(query = myfunc, params = list(c(1970,
1980, 1990, 1999, 2000), 2.5), color = "orange", active = t), list(query = intersects,
params = list("action", "drama"), active = f), list(query = elements, params = list("releasedate",
1980, 1990, 2000), color = "red", active = f, query.name = "decades")),
expression = "avgrating > 3 & watches > 100")
【左右滑动查看完整信息】
二
attribute.plots 参数
attribute.plots 主要是用于添加属性图,内置有柱形图、散点图、热图等。该参数被分解成 3 部分:gridrows, plots, 以及 ncols。
gridrows:用于指定扩展绘图窗口以增加属性图的空间。upsetr 默认是在 100 x 100 的网格上进行绘图的,因此如果我们将网格(gridrows)设置为 50,则新的网格布局将变成 150 x 100,为属性图留出 1/3 的网格空间。
plots:接收一个参数列表,这些参数包括 plot, x, y(如果适用的话),以及 queries。
plot:一个返回 ggplot 的函数。
x:ggplot 图形中的 x 轴标题(string)。
y:ggplot 图形中的 y 轴标题(string)。
queries:指示是否将当前的 queries 与绘图重叠。如果 queries 为 true,属性图(attribute plot)将会被来源于查询(queries)的数据覆盖;否则,查询结果将不会绘制在属性图上。
ncols:指示如何在 gridrows 空间中绘制图形。如果输入了 2 个属性图(attribute plots)且 ncols=1,属性图将会纵向一个个排列;如果输入了 2 个属性图(attribute plots)且 ncols=2,属性图将并排显示。
示例1:直方图
本示例展示了如何在 upsetr 中添加一个内置直方属性图。如果 main.bar.color 未指定为黑色,则包含在黑色 intersection size 柱状条中的元素将在属性图中表示为灰色。
upset(movies, main.bar.color = "black", queries = list(list(query = intersects,
params = list("drama"), active = t)), attribute.plots = list(gridrows = 50,
plots = list(list(plot = histogram, x = "releasedate", queries = f), list(plot = histogram,
x = "avgrating", queries = t)), ncols = 2))
【左右滑动查看完整信息】
示例2:散点图
本示例展示了如何在 upsetr 中添加一个内置散点属性图。需要注意的是,在本示例中使用了 query.legend。
upset(movies, main.bar.color = "black", queries = list(list(query = intersects, params = list("drama"), color = "red", active = f),
list(query = intersects, params = list("action", "drama"), active = t),
list(query = intersects, params = list("drama", "comedy", "action"), color = "orange", active = t)),
attribute.plots = list(gridrows = 45, plots = list(list(plot = scatter_plot, x = "releasedate", y = "avgrating", queries = t),
list(plot = scatter_plot, x = "avgrating", y = "watches", queries = f)), ncols = 2),
query.legend = "bottom")
【左右滑动查看完整信息】
示例3:自定义属性图
myplot <- function(mydata, x, y) {
plot <- (ggplot(data = mydata, aes_string(x = x, y = y, colour = "color"))
geom_point() scale_color_identity() theme(plot.margin = unit(c(0,
0, 0, 0), "cm")))
}
another.plot <- function(data, x, y) {
data$decades <- round_any(as.integer(unlist(data[y])), 10, ceiling)
data <- data[which(data$decades >= 1970), ]
myplot <- (ggplot(data, aes_string(x = x)) geom_density(aes(fill = factor(decades)),
alpha = 0.4) theme(plot.margin = unit(c(0, 0, 0, 0), "cm"), legend.key.size = unit(0.4,
"cm")))
}
【左右滑动查看完整信息】
使用上面定义的 myplot 应用于 upsetr 绘图。
upset(movies, main.bar.color = "black", queries = list(list(query = intersects,
params = list("drama"), color = "red", active = f), list(query = intersects,
params = list("action", "drama"), active = t), list(query = intersects,
params = list("drama", "comedy", "action"), color = "orange", active = t)),
attribute.plots = list(gridrows = 45, plots = list(list(plot = myplot, x = "releasedate",
y = "avgrating", queries = t), list(plot = another.plot, x = "avgrating",
y = "releasedate", queries = f)), ncols = 2))
【左右滑动查看完整信息】
示例4:属性图绘图总结
综合示例 1 的内置直方图、示例 2 的内置散点图,以及示例 3 的自定义属性图,绘图如下:
upset(movies, main.bar.color = "black", mb.ratio = c(0.5, 0.5), queries = list(list(query = intersects,
params = list("drama"), color = "red", active = f), list(query = intersects,
params = list("action", "drama"), active = t), list(query = intersects,
params = list("drama", "comedy", "action"), color = "orange", active = t)),
attribute.plots = list(gridrows = 50, plots = list(list(plot = histogram,
x = "releasedate", queries = f), list(plot = scatter_plot, x = "releasedate",
y = "avgrating", queries = t), list(plot = myplot, x = "avgrating",
y = "watches", queries = f)), ncols = 3))
【左右滑动查看完整信息】
示例5:箱线图
箱线图(box plots)可以展示所有交集的点属性分布,交集箱线图可以一次性最多展示 2 个箱线图的总体情况。boxplot.summary 参数接收包含 1 个或者 2 个属性名称的向量数据(vector)。
upset(movies, boxplot.summary = c("avgrating", "releasedate"))
【左右滑动查看完整信息】
关于 upsetr 包的使用就介绍到这里,该包的其他一些用法,如 incorporating set metadata 可以参考官方文档,或者查看 upsetr 在 github 的源码。
本文分享自微信公众号 - 生信科技爱好者(bioitee)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“osc源创计划”,欢迎正在阅读的你也加入,一起分享。