Skip to content
This repository has been archived by the owner on Sep 23, 2022. It is now read-only.

[DAY 19] Transformer #77

Closed
changwoomon opened this issue Feb 18, 2021 · 0 comments
Closed

[DAY 19] Transformer #77

changwoomon opened this issue Feb 18, 2021 · 0 comments

Comments

@changwoomon
Copy link
Member

❓질문

샐리

  • Scaled Dot-Product Attention에서 d_k가 아닌 sqrt(d_k)로 나눠주는 이유

    • 적절한 값으로 나눠주기 위함이라고 생각했습니다.

펭귄

    num_merges = max_vocab_size - len(idx2word) - 6 
  • 과제 Byte Pair Encoding - build_bpe 함수에서 마지막에 왜 6을 빼줄까요?
    • Special token 5개와 WORD_END 총 6개를 빼주는 것 같습니다.

MJ

Further Questions

  • BLEU score가 번역 문장 평가에 있어서 갖는 단점은 무엇이 있을까요?

  • Attention은 이름 그대로 어떤 단어의 정보를 얼마나 가져올 지 알려주는 직관적인 방법처럼 보입니다. Attention을 모델의 Output을 설명하는 데에 활용할 수 있을까요?

@changwoomon changwoomon changed the title [DAY 19] NLP 넷째 날 [DAY 19] Transformer Mar 13, 2021
Sign up for free to subscribe to this conversation on GitHub. Already have an account? Sign in.
Projects
None yet
Development

No branches or pull requests

1 participant