注册 登录
编程论坛 Python论坛

读文件 正则表达式的使用

uestcwcq 发布于 2010-06-10 13:15, 1093 次点击
现有个ffn格式文件,大致如下:
>ref|NC_000913.2|:190-255 thr operon leader peptide [Escherichia coli str. K-12 substr. MG1655]
ATGAAACGCATTAGCACCACCATTACCACCACCATCACCATTACCACAGGTAACGGTGCGGGCTGA
>ref|NC_000913.2|:337-2799 fused aspartokinase I and homoserine dehydrogenase I [Escherichia coli str. K-12 substr. MG1655]
ATGCGAGTGTTGAAGTTCGGCGGTACATCAGTGGCAAATGCAGAACGTTTTCTGCGTGTTGCCGATATTC
TGGAAAGCAATGCCAGGCAGGGGCAGGTGGCCACCGTCCTCTCTGCCCCCGCCAAAATCACCAACCACCT
GGTGGCGATGATTGAAAAAACCATTAGCGGCCAGGATGCTTTACCCAATATCAGCGATGCCGAACGTATT
TTTGCCGAACTTTTGACGGGACTCGCCGCCGCCCAGCCGGGGTTCCCGCTGGCGCAATTGAAAACTTTCG
TCGATCAGGAATTTGCCCAAATAAAACATGTCCTGCATGGCATTAGTTTGTTGGGGCAGTGCCCGGATAG


我想读取该文件,只需得到着色区域的内容,将碱基存取到二维数组里面,方便后面的统计工作,希望大家能帮个忙,本人对python不是特熟悉
1 回复
#2
a5152002010-09-12 23:37
我把几个月前的贴给拉出来了

import re
for i in re.findall('(\d+-\d+)',string): print i
else:
    for i in re.findall('([a-zA-z]{20,})',string): print i


[ 本帖最后由 a515200 于 2010-9-22 02:38 编辑 ]
1