前面写了一篇生信人的自我修养:Linux命令速查手册,有朋友觉得是为 IT 人员准备的。

科普任重而道远,我还是用这篇文章解释一下吧。

两个方面的需求:

  1. 数据处理
  2. 服务器运维

数据处理方面的需求

1. 首先是必要需

生物信息学是真正的大数据专业,对计算资源要求较大,很多时候需要在服务器上分析数据,而 Linux 是最常用的服务器操作系统。

比如一个基因组组装,需要 1 T内存,20 T硬盘,你很容易就排除掉了 Windows 和 Mac系统了是吧。

2. 其次是好用

Linux 为生产而生,所以在上面做数据分析肯定是很好的。Linux 有很多现成的小工具可以直接使用,比如 grep, sed, awk,非常方便。另外也可以写脚本自动化执行许多重复性的工作,这些都是 Windows / Mac 平台没法比的。

3. 行业共识

鉴于以上两个原因,行业逐步达成了共识。人才往这方面培养,软件往这方面开发。

人才方面,生信专业从考研开始,就要考 Linux 基础知识。

软件方面,很多生信软件优先开发 Linux 版本,甚至只有 Linux 版本。

服务器运维方面的需求

愉快的大学生活就要结束了,你反复考虑,决定要读研。经过一段时间的挑灯夜战,终于考上生物信息研究生。进入实验室后。。。

你:老板,搞数据分析需要服务器啊。

老板:这是5万块。

然后你去电脑城,弄了台5万块的服务器,开始搞分析。第二年,师弟师妹来了。。。

师弟师妹:老板,服务器不够用。

老板:这里还有5万块。

然后你和师弟师妹一起又去电脑城搞了台服务器。几年下来,已经有4、5台服务器了,总不能为每一位同学都配一台吧。

于是如何充分利用现有的计算资源,就成为了当务之急。

大家上网苦苦搜索,发现一个叫做 SGE (Sun Grid Engine)的东西,可以把几台零散的服务器组成一个集群,用户使用这个集群的所有计算机,就像使用一台一样。

这个光荣而艰巨的任务,当然由你来干。集群弄好了,加个账户、添块硬盘、排下错误,于是你久病成良医,硬把自己折腾成了一个运维人员,要转行也是分分钟的事。

(以上故事纯属虚构,如有雷同,实属巧合。)

说完了实验室的情况,再聊一聊企业。一般大型的生物信息公司,都有自己的计算集群,有专门的服务提供商(比如荣之联)。此外,如果用阿里、华为这样的云服务器,则运维的事情会少很多。

写在最后

Linux 对于生信来说,运维不是刚需,但使用是刚需。生物信息学如何快速入门 Linux,请移步到下面这篇文章。

生信人的自我修养:Linux命令速查手册