Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Multiple Consensus Sequences Miss Alleles #73

Open
Lidweixiang opened this issue Jul 27, 2024 · 3 comments
Open

Multiple Consensus Sequences Miss Alleles #73

Lidweixiang opened this issue Jul 27, 2024 · 3 comments

Comments

@Lidweixiang
Copy link

Hi,

I use abPOA to produce multiple consensus sequence, three most frequency sequences are

1 with a depth 25
CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
2 with a depth 40
CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
3 with a depth 23
CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTT

But the high depth allele "3" missing in the final consensus sequences ? I just curious how abPOA cluster the input sequence and whether I have taked some mistakes.

The command I run is:
-d6 -m 0 -q 0.01 -a 0

The input fasta file is as below:

0
CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
1
CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
2
CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
3
CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
4
CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
5
CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
6
CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
7
CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
8
CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
9
CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
10
CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
11
CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
12
CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
13
CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
14
CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
15
CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
16
CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
17
CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
18
CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
19
CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
20
CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
21
CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
22
CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
23
CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
24
CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
25
CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
26
CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
27
CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
28
CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
29
CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
30
CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
31
CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
32
CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
33
CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
34
CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
35
CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
36
CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
37
CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
38
CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
39
CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
40
CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
41
CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
42
CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
43
CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
44
CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
45
CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
46
CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
47
CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
48
CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
49
CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
50
CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
51
CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
52
CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
53
CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
54
CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
55
CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
56
CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
57
CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
58
CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
59
CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
60
CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
61
CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
62
CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
63
CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
64
CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
65
CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCTTTTTTCCTC
66
CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCTTTTTTCCTC
67
CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCTTC
68
CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCTTC
69
CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTT
70
CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTT
71
CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTT
72
CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTT
73
CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTT
74
CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTT
75
CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTT
76
CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTT
77
CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTT
78
CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTT
79
CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTT
80
CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTT
81
CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTT
82
CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTT
83
CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTT
84
CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTT
85
CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTT
86
CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTT
87
CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTT
88
CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTT
89
CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTT
90
CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTT
91
CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTT
92
CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCCTTTTTCCTC
93
CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCCTTTTTCCTC
94
CCCTCCCCTCCTTTCTTTCTCCCTTTCTCCCTCTCTTGCTCTTTCATTT
95
CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTGCCTC
96
CCCTCCCTTCCTTTCTTTCTCTCTTTCGCCCTCTCTTTCTCTTTCATTTTTCCTC
97
CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCTTTTCTCCCC
98
CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCTTTTTC
99
CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTGCTCGTTCATTTTTCCTC
100
CCCTCCCTTCCTTTCTTTCCCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCCC
101
CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCGTTTTCTCTTTCATTT
102
CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCCCTTTCTCTCTCATCTTTCCTC
103
CCCTCCCTTCCTTTCTTTCTCTCTTTCTTTCTCTCTTTCTCTTTCTTTT
104
CCCTCCCTTCCTTTCTTTCTCTCTTTCCCCCTCCCTTTCTCTTTCA
105
CCCTTCCTTCCTTTCTTCCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
106
CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCCCTTTCATTTTTCCTC
107
CCCTCCCCTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTT
108
CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCTTTT
109
CCCTTCCTTCCTTTCTTTCTCCCTTTCTCCCTCTCTTTCTCTTTCCTTTTTCCTC
110
CCCTCCCTTCCTTTCTTTGCCTCTTTCTCTCTCTCTTTCTCTTTCATTTTCCCCC
111
CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCCTTTTTCCTCC
112
CCCTCCCTCCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATT
113
CCCTCCCTTCCTTGCTTTCTCTCTTTCTCCCTCTCTTTCTGTTTCATTT
114
CGCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTTTCTTTCTTTTTTCCTC
115
CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTTTTTCTTTTTTCCTC
116
CCCTCCCCCCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCCTTT
117
CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCCTTT
118
CGCTTCCTTCCTTTGTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTTCTC
119
CCGTCCCTTACTCTCTTTATCTCTTTCTCCTTCTCTCTCTCTTCCGTTTTTCCTC
120
CCCTTCCTTCCTTTCTGTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
121
CCCTTCCTTCCTTTCATTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC
122
CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCT
123
CCCTCCCTTCCTTTCTTTCTCTCTTTCCCCCTCTCTTTCTCTTTCATTT
124
CCCGCACTTCCTTTCGTTCTGTCGTTCTCTCTCTCTTTCTCTTTCATTTTTCCTC
125
CCCGTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTTCTC

@yangao07
Copy link
Owner

Currently, abPOA only works for at most 2 consensus sequences.
Sorry that it was not described clearly.

We may extend it to 3 or more cons. in the future.

@Lidweixiang
Copy link
Author

Thanks, yan!

In the new version of your release, 3 or more cons are supported as mentioned.
In the GitHub, you have mentioned
The general underlying idea is to group input sequences into multiple clusters based on the heterozygous bases in the graph, Then, one consensus sequence is separately generated for each cluster of input sequences. The minimum allele frequency for each heterozygous base is 0.25.
But in my case, the third most common sequences are higher than this threshold.

Best regards,
Weixiang

@yangao07
Copy link
Owner

yangao07 commented Aug 6, 2024

Again, only up to 2 consensus sequences can be output by abPOA for now.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants