홈>
패스워드 형식의 뉴클레오타이드를 문자열 (각각 한 단어로 입력)로 읽는 다음 이미 알려진 결합 부위 서열 (11 bp 길이)을 사용하여 word2vec 모델을 통해 뉴클레오타이드 서열을 검색하는 코드를 개발하려고했습니다
fasta 파일처럼 보이고 모든 값을 문자열로 순서대로 읽습니다
`시퀀스 :
ATCGTGACGTGACGTGACGT
CGTAGCTAGAGCTAGCGGATCGA
그리고 바인딩 사이트는 데이터 프레임에서 df [ 'binding']
ATGACTCAGCA
GTGACTAAGCA
ATGACTCAGCA
ATGACTCAGCA
...
파이썬 코드는 다음과 같습니다 :
import gensim
import logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
model = gensim.models.Word2Vec(sequences, size=2, min_count=len(sequences), sg = 1)
model.train(sequences,total_examples=len(sequences),epochs=10)
w1 = df['binding']
model.wv.most_similar(positive=w1)
각 바인딩 사이트 간의 관계를 원했지만
KeyError: "word 'ATGACTCAGCA' not in vocabulary"
로 오류가 발생합니다.
여기 ATGACTCAGCA는
df['binding']
의 첫 번째 값입니다
w1 = df['binding'] to w1='A'
를 변경하면
, 나는 결과를
[('T', 0.9952122569084167),
('G', 0.9772425889968872),
('C', 0.9460670351982117)]
두 개 이상의 염기쌍이 아닌 두 개의 바인딩 사이트 사이의 관계를 얻기 위해 무엇이 바뀌어야합니까?
- 답변 # 1
관련 자료
- java - 이 프로그램은 컴파일 시간 오류를 표시하고 있습니다 (integer it - arr)에 대한 유형의 잘못된 시작, 왜 오류가 표시됩니까?
- 간단한 C 프로그램에서이 이상한 오류를 어떻게 고칠 수 있습니까?
- python - 오류 - 시퀀스 항목 0 : 예상되는 str 인스턴스, foreignkey를 찾았습니까?
- 치명적인 오류 (13) - xds modula-2에 프로그램 진입 점이 없습니까?
- 포인터 개체에 의해 매개 변수가있는 생성자에 인수를 전달할 때 C ++ 프로그램 오류가 발생합니까?
- python - 스레드 오류시 처음부터 프로그램을 다시 시작하는 방법
- 이 Javascript 프로그램에서 이동 오류를 수정하여 동시에 두 개의 키를 눌러도 깨지지 않도록하려면 어떻게해야합니까?
- java - 이 프로그램에서 계속 오류가 발생합니다 컴파일러에서 날짜를 가져온 후 오류 메시지가 표시되고 수정 방법이 확실하지 않습니다
- 이 C 프로그램에서 유형 재정의 오류를 해결하는 방법
- python - fontrender ()를 호출 할 때 프로그램이 오류를 반환하는 이유는 무엇입니까?
- c++ - 주 프로그램에서 다음과 같은 오류가 발생하는 이유는 무엇입니까 - 생성자의 인스턴스가 인수 목록과 일치하지 않습니까?
- c++ - 프로그램에서 재정의 가능한 함수에 대한 링커 오류가 발생합니까?
- 내 C 프로그램에서이 오류의 원인은 무엇입니까 (분할 오류 (코어 덤프))?
- javascript - 터미널에서"node botjs"를 사용하여 프로그램 실행시 오류
관련 질문
- python : 파이썬에서 목록을 어떻게 정렬할 수 있습니까? [복제하다]
- python : 파이썬에서 def를 사용하여 피크 요소를 찾는 방법
- arrays : Python 목록: 특정 값의 시작 및 끝 위치 찾기
- python : 다른 목록의 개별 항목을 어떻게 비교합니까?
- python : 반복 없이 목록에서 임의의 질문을 선택하는 퀴즈 게임을 만들고 싶습니다
- python : 두 개의 동일한 테이블이 다른 DP 결과를 생성함
- python : 중첩되지 않은 체스 보드 목록에서 FEN을 제거하는 방법
- python : 두 개의 개별 JSON 비교
- 해당 인덱스에서 사용 가능한 문자열을 기반으로 인덱스 값을 얻는 방법은 무엇입니까?
- python : 예를 들어 list의 값 사이에서 루프를 실행하는 방법 목록= [0, 417, 2050, 2221, 3039]
당신은 당신의
sequences
를 확인해야합니다 python 시퀀스는 각 항목이 토큰 목록이며, 여기서 토큰은 조회하려는 '단어'(예 : 여러 관련 11 자 문자 '바인딩 사이트')입니다. 'AGTC'문자 만있는 일련의 문자열 인 경우 토큰은A
입니다.G
T
C
.와이즈 비즈 적어도 수백 또는 수천 개의 어휘에는 적합하지 않은 흥미로운 벡터를 생성하지 못할 것입니다.
와이즈 비즈 전체 예제가 적어도 여러 번 나타나지 않는 토큰을 버리는 한.
size=2
에 전화 할 필요가 없습니다. 클래스 초기화에 데이터 세트를 제공 한 경우 이미 자동으로 교육을 시작했을 것입니다. (INFO 레벨에서 로깅으로 실행하는 경우 출력에서 알 수 있습니다.)min_count