Skip to content

Commit

Permalink
chore: ii-atsuhiko hands-on
Browse files Browse the repository at this point in the history
  • Loading branch information
xhiroga committed Nov 12, 2024
1 parent 8c3cebb commit d719677
Show file tree
Hide file tree
Showing 5 changed files with 930 additions and 255 deletions.
Original file line number Diff line number Diff line change
Expand Up @@ -76,6 +76,13 @@ Next Token Predictionでは、一般的に1epochのみ学習させる。
3. 重複フィルタリング (1兆文字 → 3500億文字)
4. ホスト名フィルタリング (3500億文字 → 3100億文字)

継続事前学習はドメイン特化LLMの開発にも用いられる。ドメイン特化には継続事前学習, SFT, RAGなどの手法が考えられる。

知識を参照するだけならRAGの方が性能が良い一方で、論理的思考など知識を活用するには継続事前学習の方が有利という主張がある。[^pfn_2024]
[^pfn_2024]: <https://tech.preferred.jp/ja/blog/llm_knowledge_injection/>

ドメイン特化のための継続事前学習の工夫としては、生のテキストデータではなく、テキストの読解力を問う問題に加工して与えるなどの工夫がある。

#### 語彙拡張

<!-- TODO -->
Expand Down
Original file line number Diff line number Diff line change
@@ -1,2 +1,4 @@

Hands-on
Hands-on
NEFTune_*
output_neftune
wandb
Loading

0 comments on commit d719677

Please sign in to comment.