YangWang92 Events in 2024 - Ecosyste.ms: Timeline

I've uploaded the converted bf16 model here for everyone to use freely: https://huggingface.co/collections/opensourcerelease/deepseek-v3-bf16-676d7fa1b3f500d39f8f559b

View on GitHub

YangWang92 pushed 1 commit to patch-1 YangWang92/DeepSeek-V3

December 26, 2024 3:18pm

Add CUDA cache clearing in memory management Added torch.cuda.empty_cache() to free up unused memory on the GPU, 65d8f5f

View on GitHub

YangWang92 pushed 1 commit to patch-1 YangWang92/DeepSeek-V3

December 26, 2024 3:14pm

sort filename to reduce memory costs e6e66fd

View on GitHub

YangWang92 opened a pull request on deepseek-ai/DeepSeek-V3

December 26, 2024 3:09pm

handle missing scale_inv_name

Fixed an issue where `weight` and `weight_scale_inv` (e.g. `model.layers.39.mlp.experts.92.gate_proj.weight` and `model.layers.39.mlp.experts.92.gate_proj.weight_scale_inv`) were not in the same Sa...

YangWang92 pushed 1 commit to patch-1 YangWang92/DeepSeek-V3

December 26, 2024 3:09pm

handle missing scale_inv_name Fixed an issue where `weight` and `weight_scale_inv` (e.g. `model.layers.39.mlp.expert... 1e3a836

View on GitHub

YangWang92 forked deepseek-ai/DeepSeek-V3

December 26, 2024 3:06pm

YangWang92/DeepSeek-V3

YangWang92 starred deepseek-ai/DeepSeek-V3

December 26, 2024 1:01pm

YangWang92 pushed 1 commit to master VPTQ/hessian_collector

December 26, 2024 7:48am

add save inv hessian code 612a131

View on GitHub

YangWang92 pushed 25 commits to master VPTQ/hessian_collector

December 26, 2024 7:32am

for m300 d97a8e2
update setting aa3aae5
collect qwen 27e61f4
fix qwen image size 9547622
add qwen vlm df05cca
fix input dev fdd4b13
set text length 0aceb13
fix for llama 3.2 bcec2f7
hack vlm layer 9e765db
set mem 3e694bd
fix llama3.2 trucate e690188
set max length 5d3ed5c
add llm sample 42fd742
add start 57463cd
Merge branch 'm300' of https://github.com/VPTQ/hessian_collector into m300 ac2a972
fix range 793b283
set generate tokens d1baff0
update qwen setting bae141a
fix llm hessian 9434824
add cli data 3bf1599
and 5 more ...

View on GitHub

YangWang92 closed a pull request on VPTQ/hessian_collector

December 26, 2024 7:32am

M300

YangWang92 pushed 5 commits to m300 VPTQ/hessian_collector

December 26, 2024 7:31am

set max sample 4a95ea5
update vlm 5cc3f20
add plot hessian code eeca542
add merge hessian ee3401c
Merge branch 'master' into m300 8da5646

View on GitHub

YangWang92 opened a pull request on VPTQ/hessian_collector

December 26, 2024 7:31am

M300

YangWang92 pushed 1 commit to main microsoft/VPTQ

December 26, 2024 7:27am

fix: a small bug fix for the initialization of the residual index tensor. (#147) * Fixed a small bug in the initiali... 170770c

View on GitHub

YangWang92 closed a pull request on microsoft/VPTQ

December 26, 2024 7:27am

fix: a small bug fix for the initialization of the residual index tensor.

* Fixed a small bug in the initialization of the residual index tensor. * Modified the README to prevent a single line of code from being too long to display on a single line.

YangWang92 starred hkust-nlp/mstar

December 26, 2024 6:19am

YangWang92 starred bytedance/Valley

December 26, 2024 6:14am

YangWang92 pushed 1 commit to main microsoft/VPTQ

December 26, 2024 4:09am

Update README.md (#146) add algrothm link c951bf5

View on GitHub

YangWang92 closed a pull request on microsoft/VPTQ

December 26, 2024 4:09am

Update README.md

add algrothm link

YangWang92 pushed 1 commit to patch-4 YangWang92/VPTQ

December 26, 2024 4:07am

fix typo 6c05321

View on GitHub

YangWang92 opened a pull request on microsoft/VPTQ

December 26, 2024 4:06am

Update README.md

add algrothm link

YangWang92 pushed 1 commit to patch-4 YangWang92/VPTQ

December 26, 2024 4:05am

Update README.md efa4d82

View on GitHub

YangWang92 starred stanfordnlp/pyreft

December 28, 2024 4:57pm

YangWang92 starred aitomatic/semikong

December 28, 2024 2:46pm

YangWang92 starred AllAboutAI-YT/cursor_prompts

December 28, 2024 11:18am

YangWang92 created a comment on an issue on microsoft/VPTQ

December 27, 2024 8:03am

YangWang92 created a comment on an issue on microsoft/VPTQ

December 27, 2024 3:23am

YangWang92 created a comment on an issue on deepseek-ai/DeepSeek-V3

December 27, 2024 2:37am

YangWang92 forked sgl-project/sglang

December 27, 2024 2:33am

YangWang92 created a comment on a pull request on deepseek-ai/DeepSeek-V3

December 26, 2024 4:47pm

YangWang92 pushed 1 commit to patch-1 YangWang92/DeepSeek-V3

December 26, 2024 3:18pm

YangWang92 pushed 1 commit to patch-1 YangWang92/DeepSeek-V3

December 26, 2024 3:14pm

YangWang92 opened a pull request on deepseek-ai/DeepSeek-V3

December 26, 2024 3:09pm

YangWang92 pushed 1 commit to patch-1 YangWang92/DeepSeek-V3

December 26, 2024 3:09pm

YangWang92 forked deepseek-ai/DeepSeek-V3

December 26, 2024 3:06pm

YangWang92 starred deepseek-ai/DeepSeek-V3

December 26, 2024 1:01pm

YangWang92 pushed 1 commit to master VPTQ/hessian_collector

December 26, 2024 7:48am

YangWang92 pushed 25 commits to master VPTQ/hessian_collector

December 26, 2024 7:32am

YangWang92 closed a pull request on VPTQ/hessian_collector

December 26, 2024 7:32am

YangWang92 pushed 5 commits to m300 VPTQ/hessian_collector

December 26, 2024 7:31am

YangWang92 opened a pull request on VPTQ/hessian_collector

December 26, 2024 7:31am

YangWang92 pushed 1 commit to main microsoft/VPTQ

December 26, 2024 7:27am

YangWang92 closed a pull request on microsoft/VPTQ

December 26, 2024 7:27am

YangWang92 starred hkust-nlp/mstar

December 26, 2024 6:19am

YangWang92 starred bytedance/Valley

December 26, 2024 6:14am

YangWang92 pushed 1 commit to main microsoft/VPTQ

December 26, 2024 4:09am

YangWang92 closed a pull request on microsoft/VPTQ

December 26, 2024 4:09am

YangWang92 pushed 1 commit to patch-4 YangWang92/VPTQ

December 26, 2024 4:07am

YangWang92 opened a pull request on microsoft/VPTQ

December 26, 2024 4:06am

YangWang92 pushed 1 commit to patch-4 YangWang92/VPTQ

December 26, 2024 4:05am

YangWang92 starred yt-dlp/yt-dlp

December 26, 2024 2:20am

YangWang92 starred byjlw/video-analyzer

December 25, 2024 4:23pm