TGFC俱乐部>>完全数码讨论区>>
- 刷新/显图/登录/注册/WEB
标题:搞了几天,终于在24GB内存的Mac Mini M4比较爽地用上本地龙虾了
时间:26-03-20 21:21
作者:lelivre
posted by wap, platform: Android
推理引擎用的是oMLX, 这个目前最快。
本地模型试过了很多个,这个硬件条件下最能用的是:
1. gpt oss 20b 4bit版本,
2. qwen3.5 30b 4bit版本,
3. qwen3.5 9b 4bit版本。
兼顾了速度和质量,还要24GB能装下。
不过我没什么应用场合,感觉有点无聊,不知干啥。
2026-04-14 更新模型:unsloth/gemma-4-26b-a4b-it-UD-MLX-4bit
这个用下来比GPT OSS 20B聪明,但慢一点。
本帖最后由 lelivre 于 2026-4-14 14:26 通过手机版编辑
回复列表 (29)
posted by wap, platform: Android
8g的m2一样安装,不过基本上闲置了
===================
千问线上都弱智了,这本地岂不是弱智的跟傻逼一样
===================
posted by wap, platform: iPhone
这种小模型只能做些基础的重复性的工具使用,不用想去做推理研究和制作。不过本地的智能家居,nas下载管理,本地翻译等轻量级任务应该是可以的。
===================
posted by wap, platform: Firefox
nas上也就docker pull一下的事情,没花多长时间。
我大部分时间花在飞书推送上了,然后发现其实是我傻了,它自己能解决。
装好就吃灰了,没需求=没啥用
===================
posted by wap, platform: Android
只有9B那个能跑。前两个模型龙虾很容易内存爆掉,KV CACHE太大
===================
posted by wap, platform: Android
原帖由 @zhufigo 于 2026-3-21 04:32 PM 发表
只有9B那个能跑。前两个模型龙虾很容易内存爆掉,KV CACHE太大
看你内存大小了,我24GB用下来GPT OSS 20b还是很爽的,一直没爆,如果超出上下文长度,它会告诉你,然后你再新开一个session就行了。这个模型虽然做不到秒回,但是两三秒回还是可以的。
用来玩还是很不错,个资也可以放心聊,因为是本地的,不会上传给别人。
===================
龙虾带动了macmini的销量
===================
posted by wap, platform: MAC OS X
我是16g的m1 imac,用ollama接入openclaw的话,基本所有模型都属于不可用的水平,响应极慢甚至一直不响应,前两天试了omlx,感觉更慢,按说应该是比ollama好一些,但确实也是不可用的水平,不过毕竟是很老的电脑了。配置低的话可以用模型跑一些不接入前端的本地任务,24g的话没试过,感觉响应速度能接受的话也行,我拿qwen3:8b接龙虾写过一些脚本,没有问题,如果是接openwebui的话,其实响应速度确实要快很多
===================
posted by wap, platform: iPhone
最后一行喷了,中年人fomo常态
===================
posted by wap, platform: Android
你可以让龙虾在这帖子里对线
===================
posted by wap, platform: iPhone
喷了,看来以后闲鱼上会有非常多mac mini
===================
posted by wap, platform: Android
原帖由 @dzgxg 于 2026-3-21 05:56 PM 发表
我是16g的m1 imac,用ollama接入openclaw的话,基本所有模型都属于不可用的水平,响应极慢甚至一直不响应,前两天试了omlx,感觉更慢,按说应该是比ollama好一些,但确实也是不可用的水平,不过毕竟是很老的电脑了。配置低的话可以用模型跑一些不接入前端的本地任务,24g的话没试过,感觉响应速度能接受的话也行,我拿qwen3:8b接龙虾写过一些脚本,没有问题,如果是接openwebui的话,其实响应速度确实要快很多
是这样的,
首先M1确实比M4慢很多,
然后就是模型选择,GPT OSS 20b和Qwen3.5 35B A3b这种MOE模型,每次只有3b左右的激活参数,所以会比8b、9b这种密集模型要快很多。3b vs 9b这样。
===================
posted by wap, platform: MAC OS X
原帖由 @lelivre 于 2026-3-21 18:46 发表
是这样的,
首先M1确实比M4慢很多,
然后就是模型选择,GPT OSS 20b和Qwen3.5 35B A3b这种MOE模型,每次只有3b左右的激活参数,所以会比8b、9b这种密集模型要快很多。3b vs 9b这样。
所以本地模型接openclaw,以我个人感觉24g内存是底线,16是能接openwebui使用的,因为输出的token量相对少很多,24的话从模型参数到上下文的冗余都大不少。具体还是要看干什么,哪怕是我那老m1,在本地按需调用功能型的小模型也可以干事。24g内存的话可以摸到可玩性的边了,不过没需求的话无所谓
===================
posted by wap, platform: iPhone
养本地龙虾看来买M5的mac得上32g内存了
===================
posted by wap, platform: Android
我是24G的M4 pro,9B模型直接webui速度还行,大约60t/s。上龙虾就慢了,看了下每次对话都差不多20k,让它装个小软件,就用掉2M token,喷了。
===================
posted by wap, platform: Android
本地模型在openclaw里用,上下文才是决定速度的关键,每次聊天基本等于把历史记录都发一遍出去,越来越多,内存少的话就爆了,不开新session的话说个hi它都要等几分钟才回复
===================
posted by wap, platform: Android
家里养虾不能取代互联网套餐虾。家里可以养,本地干杂活工作量大。
但在外还是得有在外的助手。
首先,复杂的信息整理工作还是在家进行的,工作成果也可以直接访问家里电脑、nas,不一定要这么尚不成熟的网关。
比如,如果需要大量的信息收集整理,比如下载跟踪几十个股票的资料和新闻,不如让家养虾在家自己干活,在外直接nas看一眼。
而且罗列式的界面比问答式的界面高效多了,毕竟是你自己要的内容。
第二,出门在外需要一个顺手的行程助手,包括吃、行、住,比如当天替你安排下周出行,包括酒店机票。那还是用商家的虾算了。
这些破工作没什么难的,难的是信息分离,谁有权至少是收集信息:出差邮件在公司电脑上,订火车票一般是个人12306,还有各种在线会议用各家平台,分立各种日历。
如果信息能全面汇总到系统上,早就有app全套搞定了。
苹果在这方面做得很好了,关键是商务app认,个人app也认。
现在换了虾你还是得给它说一大段话,或者发一堆手机截图。说白了你变缓存了,漏说/发一点就很麻烦。
还不如做好邮件和日历自动化工作。当然如果是小企业,能有录音,那更牛逼。
然后我那新电脑也能调通,本地小ai,接到扣子上以后,问一句你好,反应十秒八秒是有的。当时就没了兴致。
可能还要优化。
我买电脑是因为春节期间在家用小电脑跑Trae搞小程序,挺有意思的,可以让他长期跑。
长期跑的话成本是个问题,尤其前期tk可能还比较贵。所以买个x86的机器,接合本地跑ai和本地调试。
但程序开发,同时浏览文件列表和大量代码,这种ide界面,用虾显然不如向日葵。虾的好处是简讯通知:主人,您的APP更新好了,我们已经杀了一个小龙虾祭天。
再打个比方,你是生产管理者,你希望每天看到小组长们早请示晚汇报呢,还是随时开电脑都有实时的工厂产量/设备/问题状况图表?
所以我觉得,个人自用,又回到向日葵了。
本帖最后由 黄金大表哥 于 2026-3-22 00:26 通过手机版编辑
===================
posted by wap, platform: Android
更新模型:unsloth/gemma-4-26b-a4b-it-UD-MLX-4bit
这个用下来比GPT OSS 20B聪明,但慢一点。
===================
是没啥用啊,还不如装个autoglm简单省事
===================
posted by wap, platform: Android
原帖由 @dragong 于 2026-4-14 02:58 PM 发表
是没啥用啊,还不如装个autoglm简单省事
确实,我是用来玩的,不用做正事。
===================
本地部署你如果想要all - in - one的话,不说24g 哪怕你上128g也是捉襟见肘,各种分享网站上给你打鸡血式的介绍什么诸如mac 跑本地模型多么多么强悍的视频实际上都是吹牛,他根本不敢放出自己的真实使用场景或者说连他自己都不知道怎么能产生真正价值都是一些很基础的测试demo,而且这帮人根本不给你提上下文窗口的事情,就这点内存上下文窗口只要一膨胀本地变的不可用就是分分钟的事情,而且事实上要到达真正干活的标准除了很简单的任务,稍微复杂点的至少到达70b以上的智商才能用,这时候要再结合上下文窗口预留空间,本地没有256g就不要考虑本地部署这件事了,256g以上的 Mac Studio成本也是5w起,这5w你去用在线的服务不香么够你用几年了,除非你极度在乎所谓的隐私有着精神洁癖。
而且目前mac有个致命的问题虽然采用了统一内存的架构可以装的下体量大的模型,但是这种架构目前更适用于LLM,没了老黄的cuda护城河跟m芯片的绝对算力仍然远落后与英伟达的架构,mac在生图吗,生视频等 Diff Model上几乎不可用也很难用于微调所以能力先天半残,所以还是要想清楚需求
综合来看老老实实的用云+端方案,模型就用在线的,本地就纯当个执行者的角色或者运行最简单来进行前置过滤,这种方案的话mac 就用最基础的版本够了,完全没必要花冤枉钱去上任何32g以上的版本,甚至自己去捡垃圾弄一台x86 的mini主机也完全可以。
[ 本帖最后由 wenchy 于 2026-4-15 00:53 编辑 ]
===================
m3max 48g 一直用的qianwen35B 4bit,反应时快时慢,用telegram跟他聊天倒是方便。就是时间长了,感觉没什么大用,经常搜索时候卡住,搜索api还需要花钱。并不实用。
===================
当初说Mac适合做AI本地推理,指的不是那些256GB或512GB的版本吗?那确实方便(相比组EPYC的12通道内存)和划算(相比买N卡)。24G的做本地推理那是相当的鸡肋啊,买这个还不如买个AMD的AIMax395玩玩呢。
===================
posted by wap, platform: Android
原帖由 @squallmlm 于 2026-4-15 10:26 AM 发表
m3max 48g 一直用的qianwen35B 4bit,反应时快时慢,用telegram跟他聊天倒是方便。就是时间长了,感觉没什么大用,经常搜索时候卡住,搜索api还需要花钱。并不实用。
搜索api用的tavily,一个月1000次免费的,我怎么都用不完。
这东西本来就不怎么能做正经事,付费的大型模型的api一开始我也玩过,是聪明很多,但是还是不能让它做正经事。
最后反正都是玩,便宜的mac mini跑跑本地模型不花钱玩玩就行了。
===================
posted by wap, platform: Android
我用4090跑了一天本地部署就立马放弃了,乖乖掏钱线上token
===================
本地部署都是弱智级别的,而且对于一般人来说龙虾纯粹就是瞎折腾,几乎没有使用场景
===================
posted by wap, platform: iPhone
一直没想明白多花上万块为了部署本地弱智模型为什么不去买收费的顶级模型,这之间的差距可隔了好几个50到90的云泥之别。
===================
posted by wap, platform: Chrome
大佬们,有没有对中文理解比较好,没用内容审查限制的大模型。
===================
posted by wap, platform: Android
原帖由 @xwings 于 2026-4-16 08:47 AM 发表
大佬们,有没有对中文理解比较好,没用内容审查限制的大模型。
去huggingface.co用关键字
Uncensored, abliterated之类的关键字搜索一下,非常多。好不好用,对中文理解好不好就不清楚了。
===================
[登录后才可回复]