NLPOptimize
diff --git a/‎.gitignore‎
Lines changed: 5 additions & 1 deletion b/‎.gitignore‎
Lines changed: 5 additions & 1 deletion
diff --git a/‎CMakeLists.txt‎
Lines changed: 1 addition & 1 deletion b/‎CMakeLists.txt‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎dataset/README.md‎
Lines changed: 6 additions & 1 deletion b/‎dataset/README.md‎
Lines changed: 6 additions & 1 deletion
diff --git a/‎dataset/config/bert-base-chinese/tokenizer_config.json‎
Lines changed: 4 additions & 1 deletion b/‎dataset/config/bert-base-chinese/tokenizer_config.json‎
Lines changed: 4 additions & 1 deletion
diff --git a/‎dataset/config/bert-base-japanese.bin‎
3.03 MB b/‎dataset/config/bert-base-japanese.bin‎
3.03 MB
diff --git a/‎dataset/config/bert-base-japanese/config.json‎
Lines changed: 20 additions & 0 deletions b/‎dataset/config/bert-base-japanese/config.json‎
Lines changed: 20 additions & 0 deletions
diff --git a/‎dataset/config/bert-base-japanese/tokenizer_config.json‎
Lines changed: 6 additions & 0 deletions b/‎dataset/config/bert-base-japanese/tokenizer_config.json‎
Lines changed: 6 additions & 0 deletions
@@ -49,4 +49,8 @@ perftest/other/
 perftest/test.py
 perftest/.*/
 docs/blackpaper/
-extract.py
+extract.py
+dataset/BPE
+dataset/txt
+perftest/performance_test_splade.py
+*.h5
@@ -33,7 +33,7 @@ elseif (CMAKE_CXX_COMPILER_ID MATCHES "Clang")
             -fstrict-aliasing -finline-functions
             -march=native -mtune=native)
 elseif (MSVC)
-    set(COMPILE_OPTIONS /O2 /W1 /GL /Ot /Ob3 /fp:fast /arch:AVX2 /Zc:__cplusplus /EHsc- /GR-)
+    set(COMPILE_OPTIONS /O2 /W1 /GL /Ot /Ob3 /fp:fast /arch:AVX2 /Zc:__cplusplus /EHsc- /GR- /link /STACK:4194304)
     set(CMAKE_MSVC_RUNTIME_LIBRARY "MultiThreaded$<$<CONFIG:Debug>:Debug>")
 endif ()
 
 
@@ -1,3 +1,8 @@
 # flash-tokenizer/dataset
 
-[View documentation for the dataset directory](./DATA.md)
+[View documentation for the dataset directory](./DATA.md)
+
+
+dataset/data/texts_ko/texts_ko.txt
+
+dataset/data/texts_ko/texts_ko.bert-base-cased.txt
@@ -1 +1,4 @@
-{"do_lower_case": false, "model_max_length": 512}
+{
+  "do_lower_case": false,
+  "model_max_length": 512
+}
@@ -0,0 +1,20 @@
+{
+  "architectures": [
+    "BertForMaskedLM"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "tokenizer_class": "BertJapaneseTokenizer",
+  "type_vocab_size": 2,
+  "vocab_size": 32000
+}
@@ -0,0 +1,6 @@
+{
+  "do_lower_case": false,
+  "subword_tokenizer_type": "wordpiece",
+  "word_tokenizer_type": "mecab",
+  "model_max_length": 512
+}