Day02 典型統計應用在社群媒體分析(Classical statistics applied to social data) part 2


<續前>
現在思考一下,極限值 $p\to 0$ 和 $N\to\infty$, 但是 $pN = \nu$ 的值卻維持不變。
在這個例子,v 是"成功"的期望值,或是在一大量資料集合中的任一事件出現相對低的頻率。 v 是單一參數, 稱為帕松分布(Poisson distribution)平均值,這個分布描述許多現象,包括許多社群資料的變數。

  • 來自消防局的一小時間的tweet數量 $\longrightarrow $ 大量的 N
  • 使用者位置 = "Boulder, Colorado, United States"的機率 $\longrightarrow$ 少量的 $p$

所以,平均值 v 的帕松分布(Poisson distribution) 將用於描述,在一個大樣本中,使用者位置 = "Boulder, Colorado, United States"的tweet的數量
帕松分布的函數為 :

$P(k;\nu) = \frac{\nu^k e^{-\nu}}{k!}$

讓我們來檢視分布的形狀 :

nu = 3 # Poisson mean...the most likely value
n = nu*3 # this simply sets a range; it is not a parameter of the distribution

k = scipy.linspace(0,n,n+1) # create bins
pmf = scipy.stats.poisson.pmf(k,nu) 

plt.bar(k,pmf)


注意事項 :

  • 這個分布是一個離散變數函數
  • 這個分布有一個連續參數(continuous parameter)
  • 對於少量 v 這個分布是不對稱的
  • 對於大量 v 這個分布有變成對稱

結論 : 帕松分布(Poisson distribution) 可以被期望用來展示在一大量試驗中觀察到稀有事件的次數

假設檢定(Hypothesis Tests) 和 p-值(p-values)

科學方法的題外話

科學方法並沒有證明一個假設是正確的(true/correct)。相反的,假設被和假設不一致的實驗結果推翻。
在許多科學領域,一致或不一致是離散狀態。在統計參與的系統下,事情更複雜。我們必須定義甚麼程度下的不一致被視爲推翻假設。

假設類型

要量化測試一個假設,我們需要量化的假設和一些資料。
假設範例 :

  • 使用者位置 = "Boulder, Colorado, United States"的 tweets 的比率是帕松分布(Poisson distribution),且平均值是 4.5/小時
  • 使用者位置 = "Boulder, Colorado, United States"的 tweets 的比率是帕松分布(Poisson distribution),且平均值是 4.5/10k tweets
  • 在過去1小時 提到 @ 多於1000次的 Twitter 使用者人數是常態分佈且平均值是 301,變異數是 200。






留言討論