蒋老师看了关于柴静的社会媒体舆论挖掘后留言,问可不可以帮助挖掘一下狗肉的话题。这也是一个极其有争议的热点话题。凸显动物保护主义与传统文化的冲突。
蒋老师何等人物,岂敢怠慢。n 年前,是蒋老师最先介绍我到科学网来的。恭敬不如从命,还是赶紧交家庭作业吧,这是对过去27个月的中文社会媒体样本的初步挖掘结果,还没有做细致的分析解读。 Continue reading
蒋老师看了关于柴静的社会媒体舆论挖掘后留言,问可不可以帮助挖掘一下狗肉的话题。这也是一个极其有争议的热点话题。凸显动物保护主义与传统文化的冲突。
蒋老师何等人物,岂敢怠慢。n 年前,是蒋老师最先介绍我到科学网来的。恭敬不如从命,还是赶紧交家庭作业吧,这是对过去27个月的中文社会媒体样本的初步挖掘结果,还没有做细致的分析解读。 Continue reading
对近一个月做了一个多语言社交媒体的自动挖掘调查,看看阿里巴巴上市和上市前夕都有什么热议。
好家伙短短一个月阿里巴巴有近三百万的帖子提到它,绝大多数是英文帖子,推特和脸书是热议最多的两大来源。Net-sentiment 反映的形象分 61 非常正面,说明追捧远多于批评。 Continue reading
湾区硅谷是美国人才创业和科技创新的孵化地。但异国他乡是否真正适合您的人生规湾区硅谷是美国人才创业和科技创新的孵化地 但异国他乡是否真正适合您的人生规划和创业梦想?上海是中国享誉海内外的国际化大都市。而您是否了解上海为科技创业人才提供了怎样开阔的振翅空间?欢迎您参加 2014上海交通大学国家大学科技园硅谷项目对接会!深度了解当前上海孵化器建设现状和高科技创业平台的发展动向!与大家共同分享您和创业的故事!在交流探讨中,获得国内人才科技创业的第一手资料! Continue reading
前一篇博文 到底社媒曲线与股市曲线有没有、有多少相关度? 相当随机地选了一个品牌(HTC)来对照舆情曲线和股市曲线,没想到结果是如此吻合,令人惊叹。
舆情与股市有相关性几乎是常识了,关键是以前缺乏大数据及其靠谱的挖掘工具来做定量分析。现在不同了,社会媒体大数据火了,社会媒体作为普罗百姓的即时舆情平台已经是移动互联网时代的事实和特征了。有了这些大数据,我们就可以利用语言的深度分析和抽取技术进行舆情挖掘。这种挖掘技术已经相对成熟,其精准可靠性不仅仅由定期的来自第三方的严格质量检测所肯定,也从舆情挖掘结果与股市历史数据的吻合性上得到独立的证实。如果我们的中文舆情挖掘不靠谱,上篇博文所展示的HTC过去12月的中文社媒舆情曲线与其股市曲线的吻合性(见下图)就无法解释:
HTC最近一年的中文社媒舆情(褒贬度)与股市表现曲线图的对比
反过来也可以说,舆情与股市的相关性因此得到了切实的数据证据。
舆情与股市的相关性比较容易证明证实,困难的是因果分析以及如何利用这种分析加强我们的决策过程。
朋友指出:这种数据最大问题在于因果搞不清。而且时间量度很难掌握。说“马上要涨”,是10分钟之后呢,还是一个月之后?然后又跌下来了,能赶上趟卖掉么?
我觉得,多做一些实验,观察曲线之间的滞后性规律,这样的相关性分析应该可以逐渐帮助厘清因果。深入细致的相关性分析是一个非常有价值的研究方向。
总结一下观感:
我有一个假想
【立委名言】色即是空 非空者 好奇心而已矣。
【相关】
这个话题已经谈过多次了,散见在我以前的博客里,今天兴起,随口再聊几句。这是一个非常重要的话题,会不断被人翻出来议论,似乎莫衷一是。最近的由头源于有关谷歌搜索排序算法为什么依赖手工多于机器学习的议论。此前,很多人想当然以为世界上最牛、服务亿万人的谷歌搜索服务必然是基于机器学习的,而不可能是被学界业界轻视漠视的(利用规则或heuristics调控的)手工系统。而事实正好相反,奇怪么?其实一点也不奇怪。 Continue reading
最近做了一次关于沃尔玛的品牌自动调查,总体来看,沃尔玛这个品牌似乎蛮受欢迎的,正面评价为主,褒贬指数达到正48,是相当不错了。指责抱怨也有,主要针对一些负面事件(狐狸肉冒充牛肉、对伪劣产品乱发合格证上架等)。进一步挖掘(drill down)发现了令人惊奇的现象:好话大多是网民自发的评价,而挖掘出来的负面信息几乎一律出自国家新闻机构(CCTV等)的报道。社会媒体挖掘的本意是自动民调,了解客户对于品牌和产品的意见,正式新闻有机构或国家宣传的因素在,是应该加以区分的。可是目前,这种区分还做得不好,很多有影响的传统媒体的新闻被反复在社会媒体中转发传播,与民意混杂在一起。
Some further analysis and findings: Continue reading