社媒挖掘:关于狗肉的争议

蒋老师看了关于柴静的社会媒体舆论挖掘后留言,问可不可以帮助挖掘一下狗肉的话题。这也是一个极其有争议的热点话题。凸显动物保护主义与传统文化的冲突。

蒋老师何等人物,岂敢怠慢。n 年前,是蒋老师最先介绍我到科学网来的。恭敬不如从命,还是赶紧交家庭作业吧,这是对过去27个月的中文社会媒体样本的初步挖掘结果,还没有做细致的分析解读。 Continue reading


全球社交媒体热议阿里巴巴上市

对近一个月做了一个多语言社交媒体的自动挖掘调查,看看阿里巴巴上市和上市前夕都有什么热议。

好家伙短短一个月阿里巴巴有近三百万的帖子提到它,绝大多数是英文帖子,推特和脸书是热议最多的两大来源。Net-sentiment 反映的形象分 61 非常正面,说明追捧远多于批评。 Continue reading


上海交通大学国家大学科技园硅谷项目对接会 欢迎您的参加

湾区硅谷是美国人才创业和科技创新的孵化地。但异国他乡是否真正适合您的人生规湾区硅谷是美国人才创业和科技创新的孵化地 但异国他乡是否真正适合您的人生规划和创业梦想?上海是中国享誉海内外的国际化大都市。而您是否了解上海为科技创业人才提供了怎样开阔的振翅空间?欢迎您参加 2014上海交通大学国家大学科技园硅谷项目对接会!深度了解当前上海孵化器建设现状和高科技创业平台的发展动向!与大家共同分享您和创业的故事!在交流探讨中,获得国内人才科技创业的第一手资料! Continue reading


再谈舆情与股市的相关性研究

前一篇博文 到底社媒曲线与股市曲线有没有、有多少相关度? 相当随机地选了一个品牌(HTC)来对照舆情曲线和股市曲线,没想到结果是如此吻合,令人惊叹。

舆情与股市有相关性几乎是常识了,关键是以前缺乏大数据及其靠谱的挖掘工具来做定量分析。现在不同了,社会媒体大数据火了,社会媒体作为普罗百姓的即时舆情平台已经是移动互联网时代的事实和特征了。有了这些大数据,我们就可以利用语言的深度分析和抽取技术进行舆情挖掘。这种挖掘技术已经相对成熟,其精准可靠性不仅仅由定期的来自第三方的严格质量检测所肯定,也从舆情挖掘结果与股市历史数据的吻合性上得到独立的证实。如果我们的中文舆情挖掘不靠谱,上篇博文所展示的HTC过去12月的中文社媒舆情曲线与其股市曲线的吻合性(见下图)就无法解释:


HTC最近一年的中文社媒舆情(褒贬度)与股市表现曲线图的对比

反过来也可以说,舆情与股市的相关性因此得到了切实的数据证据。

舆情与股市的相关性比较容易证明证实,困难的是因果分析以及如何利用这种分析加强我们的决策过程。

朋友指出:这种数据最大问题在于因果搞不清。而且时间量度很难掌握。说“马上要涨”,是10分钟之后呢,还是一个月之后?然后又跌下来了,能赶上趟卖掉么?

我觉得,多做一些实验,观察曲线之间的滞后性规律,这样的相关性分析应该可以逐渐帮助厘清因果。深入细致的相关性分析是一个非常有价值的研究方向。

总结一下观感:

  1. 经过这些观察研究,舆情与股市有某种相关性的结论基本可以肯定了,关键是这种相关性应该怎样合适地表述,并在何种程度可以作为决策或预测的指证。
  2. 热议度与股市的吻合度不如褒贬度是显然的:如果热议的是抱怨,热议度越高,则股市可能越低。
  3. 所谓吻合度,不是简单的正相关。
  4. 即便如此,舆情(褒贬度)与股市吻合的趋向还是相当明显,不吻合的是局部,吻合是大部。
  5. 不吻合的情形值得认真分析,看有没有其他因素促成,还是纯粹是随机游离。

 

 

我有一个假想

(马丁路德金博士说:我有一个梦想)
关于舆情和股市的因果关系:感觉上是互 为因果。但我觉得合理的假设可以是这样一个趋势:对于股票上升 舆情领先于股市 大家都在热议某个股票的好处 带动了卖方市场。
对于股票下降 股市领先于舆情 比较大的降幅一般都源于突发危机或者某种短期地震一样的不可测的临界点 因此舆论滞后。
我们应该可以很快通过实验和数据验证或否证(或修正)这个假想。
尽管相信熊市舆情滞后,舆情分析应该还是有指征作用,因为舆情趋向可以帮助做何时再进场探底的决策。譬如,尽管降价幅度已经很大,如果负面舆情还是持续走高,那么进场就是傻蛋。

 

【立委名言】色即是空 非空者 好奇心而已矣。

 

【相关】

到底社媒曲线与股市曲线有没有、有多少相关度?

[转载]ZT:牛津大学王宁博士:大数据与有限理性

【『科学』预测:A-股 看好】

舆情挖掘用于股市房市预测靠谱么?

【舆情挖掘:房市总体看好】

 


人和机器谁更聪明能干?

再谈机器学习和手工系统

这个话题已经谈过多次了,散见在我以前的博客里,今天兴起,随口再聊几句。这是一个非常重要的话题,会不断被人翻出来议论,似乎莫衷一是。最近的由头源于有关谷歌搜索排序算法为什么依赖手工多于机器学习的议论。此前,很多人想当然以为世界上最牛、服务亿万人的谷歌搜索服务必然是基于机器学习的,而不可能是被学界业界轻视漠视的(利用规则或heuristics调控的)手工系统。而事实正好相反,奇怪么?其实一点也不奇怪。 Continue reading


Walmart 民调自动挖掘发现,跨国公司在中国的日子不好过

最近做了一次关于沃尔玛的品牌自动调查,总体来看,沃尔玛这个品牌似乎蛮受欢迎的,正面评价为主,褒贬指数达到正48,是相当不错了。指责抱怨也有,主要针对一些负面事件(狐狸肉冒充牛肉、对伪劣产品乱发合格证上架等)。进一步挖掘(drill down)发现了令人惊奇的现象:好话大多是网民自发的评价,而挖掘出来的负面信息几乎一律出自国家新闻机构(CCTV等)的报道。社会媒体挖掘的本意是自动民调,了解客户对于品牌和产品的意见,正式新闻有机构或国家宣传的因素在,是应该加以区分的。可是目前,这种区分还做得不好,很多有影响的传统媒体的新闻被反复在社会媒体中转发传播,与民意混杂在一起。

Some further analysis and findings: Continue reading


【 IT风云掌故:金点子起家的 AskJeeves 】

前两天甜甜突然问道:Dad, is AskJeeves still alive? 这孩子一直对IT业界的事情感兴趣。譬如,当我讲述微软和苹果近二十五年的纠缠,五年河东,十年河西,十年又河东,彼伏此起,此消彼长,她都听得不亦乐乎,特别是说到 IT 传奇巨人 Bill Gates 与 Steve Jobs 迥然不同的性格和理念,她都特别爱听。 Continue reading