当前位置: 新闻动态 2025 从贪婪增量到线性时间的生物序列聚类方法深度评测
2025年4月
2025年4月CBBLAB团队在Big Data Mining and AnalyticsB(BDMA,JCR Q1)发表了名为《A Comparative Study of Sequence Clustering Algorithms》的论文,对从贪婪增量到线性时间的生物序列聚类方法进行了深度评测。
测序技术引起了生物序列数据爆炸式增长,从而对数据分析造成了巨大挑战。序列聚类可以减少需要分析的序列数量,因此是应对这一挑战的可行方案。然而,现有序列聚类算法种类繁多,涵盖了从基于简单距离度量的层次聚类算法到基于复杂模型优化的机器学习算法等多个类别。不同算法在准确性、灵敏度、速度、资源消耗能力等方面表现出显著差异。这些复杂的表现使得用户在选择合适的聚类算法时面临挑战,尤其是在面对特定的研究目标和数据特征时,如何权衡不同算法的优缺点成为一项复杂的任务。
图 1 不同聚类软件的适用范围及性能评估
本文系统地总结了聚类方法的发展历史及分类,并深度评估了其中八种代表性算法。通过实验测试,本文从用户的角度定量对比了不同算法,重点关注它们的准确性、灵敏度、速度、运行时间和资源消耗。此外,本文还研究了序列数量、序列长度、identity、线程数和GPU/CPU支持对不同算法的影响,发现序列长度和identity可以显著影响聚类效率(速度和内存消耗),波动幅度超过十倍且非单调。本文建立了涵盖精度、效率及可扩展性的综合评估体系,并提出了针对不同应用场景的算法选择建议。